Recabación de datos

Ir a: navegación, búsqueda de

Recabación de datos es el proceso de examinar los datos disponibles en un origen de datos existente (por ejemplo un base de datos o un archivo) y la recolección estadísticas e información sobre esos datos. El propósito de estas estadísticas puede ser:

  1. Averiguar si los datos existentes fácilmente pueden usarse para otros fines
  2. Mejorar la capacidad de búsqueda de los datos por Etiquetado con Palabras clave, descripciones, o asignarlo a una categoría
  3. Dar métricas en calidad de datos incluso si los datos se ajusta a normas particulares o patrones
  4. Evaluar el riesgo de integración de datos para nuevas aplicaciones, incluyendo los retos de la se une a
  5. Evaluar si metadatos describe con precisión los valores reales en la base de datos fuente
  6. Comprender los desafíos de datos en cualquier proyecto intensivo de datos, así se evitan sorpresas proyecto tarde. Encontrar problemas de datos en el proyecto puede llevar a demoras y sobrecostos.
  7. Tienen una visión empresarial de todos los datos, para usos tales como gestión de datos maestros donde se necesitan datos claves, o manejo de datos para mejorar la calidad de los datos.

Contenido

  • 1 Perfiles en lo referente a datos desarrollo de la inteligencia de negocio y almacén de datos
    • 1.1 Introducción
    • 1.2 Cómo hacer perfiles de datos
    • 1.3 Cuando realizar perfiles de datos
    • 1.4 Beneficios de perfiles de datos
  • 2 Véase también
  • 3 Referencias

Perfiles en lo referente a datos desarrollo de la inteligencia de negocio y almacén de datos

Introducción

Perfiles de datos es un análisis de las fuentes de datos de candidatos para un data warehouse aclarar la estructura, contenido, relaciones y reglas de derivación de los datos.[1] Perfiles de ayuda no sólo para entender las anomalías y para evaluar la calidad de los datos, sino también para descubrir, registrar y evaluar la empresa metadatos.[2] Así el propósito de perfiles de datos es para validar metadatos cuando está disponible tanto para descubrir metadatos cuando no es.[3] El resultado del análisis es estratégicamente, ambos utilizados para determinar la idoneidad de los sistemas de fuente candidato y dan la base para una go/no-go decisión temprana y tácticamente, para identificar los problemas para el posterior diseño de la solución, y a las expectativas de los patrocinadores nivel.[1]

Cómo hacer perfiles de datos

Perfiles de datos utiliza diferentes tipos de estadísticas descriptivas como mínimo, máximo, media, modo, percentiles, desviación estándar, frecuencia y variación, así como otros agregados como el conteo y suma. Información de metadatos adicionales obtenido durante la recabación de datos podría ser el tipo de datos, longitud, valores discretos, singularidad, aparición de valores nulos, los patrones típicos de cadena y reconocimiento de tipo abstracto.[2][4][5] Los metadatos pueden utilizarse para descubrir problemas como valores ilegales, falta de ortografía, falta valores, variables valor de representación y duplicados. Se realizan diferentes análisis de diferentes niveles estructurales. Por ejemplo solas columnas podrían ser perfiladas individualmente para obtener una comprensión de la distribución de frecuencias de diferentes valores, tipo y uso de cada columna. Las dependencias de valor integrado pueden estar expuestas en análisis transversal-columnas. Finalmente, superposición de conjuntos de valor representando posiblemente extranjeras relaciones clave entre las entidades puede ser explorada en un análisis de la tabla.[2] Se utilizan herramientas normalmente creada ex profeso para perfilado para facilitar el proceso de los datos.[1][2][4][5][6][7] La complejidad de cómputo aumenta cuando de una sola columna, mesa única, Cruz-tabla perfiles estructurales. Por lo tanto, el rendimiento es un criterio de evaluación para perfiles de herramientas.[3]

Cuando realizar perfiles de datos

Según Kimball,[1] perfiles de datos se realizaron varias veces y con intensidad variable a lo largo del almacén de datos, desarrollo de proceso. Una luz perfiles de evaluación debe realizarse tan pronto como sistemas de origen candidato han sido identificados después de la adquisición de los requerimientos del negocio para el DW/BI. El objetivo es aclarar en una etapa temprana si los datos correctos están disponibles en el nivel de detalle adecuado y las anomalías se pueden manejar posteriormente. Si esto no es el caso que del proyecto tendría que ser cancelada.[1] Perfiles más detallada se realiza antes del proceso de modelado dimensional para ver lo que se requerirá para convertir datos en el modelo dimensional y se extiende hacia el proceso de diseño del sistema ETL para establecer qué datos para extraer y que filtra para aplicar.[1] Un tiempo adicional para llevar a cabo los datos en el proceso de desarrollo del almacén de datos después de datos ha sido cargados en la puesta en escena, los puestos de datos, etc.. Haciéndolo en estos puntos en el tiempo ayuda a asegurar que la limpieza de datos y transformaciones se han realizado correctamente según los requisitos.

Beneficios de perfiles de datos

Los beneficios de perfiles de datos es mejorar la calidad de los datos, acortar el ciclo de ejecución de grandes proyectos y mejorar la comprensión de los datos para los usuarios.[7] Descubrir conocimientos empresariales incrustado en los datos sí mismo es uno de los importantes beneficios derivados de perfiles de datos.[3] Perfiles de datos es una de las tecnologías más eficaces para mejorar la exactitud de los datos en bases de datos corporativas.[7] Aunque perfiles de datos es eficaz, entonces recuerda que encontrar un equilibrio adecuado y no desliza en"parálisis del análisis”.[3][7]

Véase también

  • Calidad de datos
  • Manejo de datos
  • Gestión de datos maestros
  • Normalización de bases de datos
  • Visualización de datos

Referencias

  1. ^ a b c d e f [Ralph Kimball et al (2008), "The Data Warehouse Lifecycle Toolkit", segunda edición, Wiley Publishing, Inc., ISBN 9780470149775], (pág. 297) (p. 376)
  2. ^ a b c d [David Loshin (2009), "Master Data Management", Morgan Kaufmann Publishers, ISBN 9780123742254], (p. 94-96)
  3. ^ a b c d [David Loshin (2003), "Business Intelligence: Guía del administrador inteligente, recibiendo a bordo con lo emergente", Morgan Kaufmann Publishers, ISBN 9781558609167], (p. 110-111).
  4. ^ a b [Erhard Rahm y Hong Hai Do (2000), "limpieza de datos: problemas y enfoques actuales" en el "Boletín de la Comisión técnica de datos de ingeniería", IEEE Computer Society, Vol. 23, no. 4, diciembre de 2000]
  5. ^ a b [Ranjit Singh, Dr. Kawaljeet Singh et al (2010), "Una clasificación descriptiva de causas de problemas de calidad de datos en Data Warehousing", IJCSI International Journal of Computer Science tema, Vol. 7, Nº 3, Nº 2, mayo de 2010]
  6. ^ "[Ralph Kimball (2004),"Kimball diseño punta #59: sorprendente valor de perfiles de datos", grupo de Kimball, número 59, 14 de septiembre de 2004, (www.rkimball.com/ html/designtipsPDF/KimballDT59 SurprisingValue.pdf)]
  7. ^ a b c d [Jack E. Olson (2003), "calidad de los datos: la dimensión de precisión", Morgan Kaufmann Publishers], (p.140-142)

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Data_profiling&oldid=627146687"