Limpieza y conforme datos

Ir a: navegación, búsqueda de

Este proceso de Limpieza y conforme datos cambiar datos en su camino de fuente (s) para el almacén de datos y también puede utilizarse para identificar y registrar errores de datos. La última información puede utilizarse para fijar cómo los sistemas de fuente trabajos.

Datos de la fuente de buena calidad tiene que ver con la "Cultura de la calidad de datos" y deben ser iniciados en la parte superior de la organización. No es sólo una cuestión de la aplicación de controles de validación fuerte en las pantallas de entrada, porque casi no importa cuan fuerte son estos controles, pueden a menudo todavía eludirse por los usuarios.

Hay una guía de nueve peldaños para organizaciones que desean mejorar la calidad de los datos:

  • Declarar un compromiso de alto nivel con un calidad de datos cultura
  • Conducir reingeniería a nivel ejecutivo
  • Gastar dinero para mejorar el entorno de entrada de datos
  • Gastar dinero para mejorar la integración de aplicaciones
  • Gastar dinero para cambiar cómo funcionan los procesos
  • Promover la conciencia de equipo-to-end
  • Promover la cooperación interdepartamental
  • Celebrar públicamente la excelencia de calidad de datos
  • Medir y mejorar continuamente calidad de datos

Contenido

  • 1 Sistema de limpieza de datos
  • 2 Pantallas de calidad
  • 3 Crítica de las herramientas existentes y procesos
  • 4 Horario de evento de error
  • 5 Referencias
  • 6 Fuentes
  • 7 Enlaces externos

Sistema de limpieza de datos

El trabajo esencial de este sistema es encontrar un equilibrio adecuado entre la fijación datos sucios y mantener los datos lo más cerca posible a los datos originales del sistema de producción de origen. Este es un reto para el Extraer, transformar, carga el arquitecto.

El sistema debe ofrecer una arquitectura que puede limpiar datos, antecedentes calidad eventos y medida/control de calidad de datos en el almacén de datos.

Es un buen comienzo para llevar a cabo una minuciosa recabación de datos análisis que ayudarán a definir la complejidad requiere de los datos de sistema de limpieza y también dan una idea de la calidad actual de los datos en los sistemas de fuente.

Pantallas de calidad

Parte del sistema de limpieza de datos es un conjunto de filtros diagnósticos conocido como pantallas de calidad. Cada uno de ellos implementar una prueba en el flujo de datos que, si falla registra un error en el esquema de evento de Error. Pantallas de calidad se dividen en tres categorías:

  • Pantallas de columna. La columna individual, por ejemplo, para valores inesperados como la prueba NULL valores; valores no numéricos que deben ser numéricos; fuera de los valores del alcance; etc.
  • Estructura de las pantallas. Estos se utilizan para probar la integridad de diferentes relaciones entre columnas (típicamente extranjera primario llaves) en las tablas de igual o diferentes. También se utilizan para probar que un grupo de columnas es válido según una definición estructural que se debe adherir.
  • Pantallas de reglas de negocio. Los más complejos de las tres pruebas. Ponen a prueba para ver si los datos, tal vez a través de múltiples tablas, sigan las reglas específicas del negocio. Un ejemplo podría ser, que si un cliente está marcado como un cierto tipo de cliente, deben respetarse las reglas de negocio que definen este tipo de cliente.

Cuando una pantalla calidad registra un error, puede detener el proceso de flujo de datos, envía los datos defectuosos en otro lugar que el sistema de destino o los datos de la etiqueta. La segunda opción es considerada la mejor solución porque requiere que la primera opción, que alguien tiene tratar manualmente con el tema cada vez que se produce y la segunda implica que faltan datos del (sistema objetivointegridad) y es a menudo confuso, lo que debería suceder a estos datos.

Crítica de las herramientas existentes y procesos

Las principales razones citadas son:

  • Costos del proyecto:: costos típicamente en los cientos de miles de dólares
  • Tiempo:: falta de suficiente tiempo para lidiar con el software de limpieza de datos a gran escala
  • Seguridad:: las preocupaciones sobre el intercambio de información, dando un acceso a las aplicaciones a través de sistemas y efectos en sistemas heredados

Horario de evento de error

Este esquema es el lugar, donde se registran todos los eventos de error arrojados por las pantallas de calidad. Se trata de un evento de Error Tabla de hechos con llaves foraneas a tres tablas de dimensiones que representan la fecha (cuando), trabajo por lotes (donde) y la pantalla (que produjo el error). También contiene información sobre cuándo se produjo el error y la gravedad del error. Además hay un detalle de evento de Error Tabla de hechos con un clave externa la tabla principal contiene información detallada acerca de en qué mesa, registro y campo se produjo el error y la condición de error.

Referencias

Fuentes

  • Kimball, R., Ross, M., Thornthwaite, w., Mundy, J., Becker, B. El Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5.
  • Olson, J. E. Calidad de los datos: la dimensión de precisión ", Morgan Kauffman, 2002. ISBN 1-55860-891-5.

Enlaces externos

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Cleansing_and_Conforming_Data&oldid=538320417"