Extracción de datos
Extracción de datos es el acto o el proceso de recuperación datos (generalmente fuera de no estructurado o mal estructurado) fuentes de datos para mayor información procesamiento de datos o almacenamiento de datos (migración de datos). El importación en el sistema de extracción intermedio así generalmente es seguido por transformación de datos y posiblemente la adición de metadatos antes de la exportación a otra etapa en los datos flujo de trabajo.[1]
La extracción de datos el término se aplica generalmente, cuando ()experimental) es primero importar datos en un ordenador de fuentes primarias, como medición o dispositivos de grabación. Hoy dispositivos electrónicos generalmente presentará un conector eléctrico (ej.: USB) a través del cual 'datos en bruto' puede ser streaming en un ordenador personal.
Fuentes de datos no estructurados típicos incluyen páginas web, correos electrónicos, documentos, archivos PDF, escanear texto, informes de mainframe, spool archivos, etc.. Extracción de datos de esas fuentes no estructuradas se ha convertido en un desafío técnico considerable donde históricamente la extracción de datos ha tenido que lidiar con los cambios de formatos de hardware físico, la mayoría de extracción de datos actual aborda extracción de datos de estos orígenes de datos no estructurados y de software diferentes formatos. Este creciente proceso de extracción de datos desde la web se denomina Web scraping.
El acto de la adición de estructura de datos no estructurados tiene un número de formas
- Usando texto patrón como emparejar expresiones regulares para identificar la estructura pequeña o gran escala por ejemplo registra en un informe y sus datos asociados de encabezados y pies;
- Utilizando un enfoque basado en la tabla para identificar las secciones comunes dentro de un dominio limitado por ejemplo en currículos enviados por correo electrónico, identificación de habilidades, experiencia laboral previa, calificaciones etc. utilizando un conjunto estándar de las partidas utilizadas (éstos se diferencian de lenguaje a lenguaje), por ejemplo educación podría encontrarse en educación / / cursos de capacitación;
- Utilizando texto analytics para intentar comprender el texto y un enlace a otra información
Notas
- ^ Definición de extracción de datos.
Enlaces externos
- Extracción de datos como parte del proceso ETL en un entorno de almacenamiento de datos
|