Clasificación de datos (gestión de datos)
En el campo de gestión de datos, clasificación de datos como parte de Information Lifecycle Management Proceso (ILM) puede definirse como una herramienta para la categorización de los datos para habilitar/ayuda organización para responder con eficacia a raíz de preguntas:
- ¿Qué tipos de datos están disponibles?
- ¿Dónde se encuentran ciertos datos?
- ¿Qué niveles de acceso se aplican?
- ¿Qué nivel de protección se implementa y hace se adhieren a cumplimiento de normas ¿regulaciones?
Cuando se implementa proporciona un puente entre los profesionales de IT y proceso o propietarios de aplicaciones. Personal de ti está informado sobre el valor de los datos y que la gestión de mano de otros (generalmente propietarios de aplicaciones) comprende mejor a qué segmento de datos centro tiene que invertir para mantener operaciones funcionando con eficacia. Esto puede ser de particular importancia en la gestión del riesgo, descubrimiento legal y cumplimiento de las regulaciones del gobierno. Clasificación de datos suele ser un proceso manual; Sin embargo, hay muchas herramientas de diferentes proveedores que pueden ayudar a recopilar información sobre los datos.
Contenido
- 1 Cómo iniciar el proceso de clasificación de datos
- 2 Criterios básicos para la clasificación de datos semiestructurados o poly-estructurado
- 3 Criterios básicos para la clasificación de datos relacionales o Tabular
- 4 Beneficios de la clasificación de datos
- 5 Véase también
- 6 Referencias
Cómo iniciar el proceso de clasificación de datos
Tenga en cuenta que esta estructura de clasificación está escrita desde una perspectiva de gestión de datos y por lo tanto tiene un enfoque para el texto y las fuentes de datos binarios convertible de texto. Imágenes, vídeos y archivos de audio son formatos altamente estructurados construidos para API estándar de la industria y no se ajustan fácilmente dentro del esquema de clasificación que se detallan a continuación.
Primer paso es evaluar y dividir las distintas aplicaciones y datos en sus respectivas categorías de la siguiente manera:
- Datos relacionales o Tabular (alrededor del 15% de los datos de audio y video no)
- Generalmente describe datos patentados que pueden ser accesibles sólo a través de la aplicación o interfaces de programación de aplicaciones (API)
- Las aplicaciones que producen datos estructurados son generalmente aplicaciones de base de datos.
- Este tipo de datos trae generalmente complejos procedimientos de migración entre los niveles de almacenamiento de información y evaluación de datos.
- Para asegurar la calidad adecuada, el proceso de clasificación debe ser supervisado por expertos en materia.
- Datos semiestructurados o Poly-estructurado (todos los datos de otros sin audio/vídeo que no se ajusta a un sistema o plataforma definición forma relacional o Tabular).
- Generalmente se describen los archivos de datos que tienen una estructura semántica dinámica o no relacionales (por ejemplo documentos, XML, JSON, dispositivo o sistema de registro de salida, salida del Sensor).
- Relativamente simple proceso de clasificación de datos es asignación de criterios.
- Simple proceso de migración de datos entre segmentos asignados de niveles de almacenamiento predefinidas.
Tipos de clasificación de datos- tenga en cuenta que esta designación es totalmente ortogonal a la designación centrada en la aplicación que se ha señalado anteriormente. Independientemente de la estructura heredada de aplicación, los datos pueden ser de los tipos más abajo
1. geográfica: es decir, según el área (suponiendo que la producción de arroz de un estado o país, etc.). 2. cronológica: es decir, según tiempo (venta de últimos 3 meses) 3. Cualitativo: es decir, según distintas categorías. (Por ejemplo: población en base a ricos y pobres) 4. cuantitativos: es decir, según magnitude(a) discreta y b) continua
Criterios básicos para la clasificación de datos semiestructurados o poly-estructurado
- Criterios de tiempo es el más simple y más comúnmente utilizados en diferente tipo de datos es evaluado por hora de creación, tiempo de acceso, tiempo de actualización, etc..
- Criterios de metadatos, como tipo, nombre, propietario, ubicación y así sucesivamente pueden utilizarse para crear políticas más avanzadas de clasificación
- Criterios contenidos que implican el uso de algoritmos de clasificación de contenido avanzado son más avanzadas formas de clasificación de datos no estructurados
Tenga en cuenta que ninguno de estos criterios se apliquen también a datos Tabular o relacional como "Criterios básicos". Estos criterios son de aplicación los aspectos específicos, en lugar de inherente de la forma en que se presentaron los datos..
Criterios básicos para la clasificación de datos relacionales o Tabular
Estos criterios son generalmente iniciados por los requerimientos de aplicaciones tales como:
- Reglas de continuidad del negocio y recuperación ante desastres
- Datos de centro de consolidación y optimización de recursos
- Limitaciones de rendimiento de hardware y posibles mejoras por reorganización
Tenga en cuenta que ninguno de estos criterios pueden aplicarse también a semi/poly datos estructurados como "Criterios básicos". Estos criterios son de aplicación los aspectos específicos, en lugar de inherente de la forma en que se presentaron los datos.
Beneficios de la clasificación de datos
Beneficios de la aplicación efectiva de la clasificación de datos apropiado pueden significativamente mejorar proceso de ILM y ahorrar recursos de almacenamiento de información de centro de datos. Si se aplican sistemáticamente puede generar mejoras en performance de centro de datos y la utilización. Clasificación de datos también puede reducir los costos y gastos generales de administración. Clasificación de datos "Suficientemente bueno" puede producir estos resultados:
- Cumplimiento de datos y más fácil gestión del riesgo. Datos se encuentran donde se esperaba en los niveles de almacenamiento predefinidas y "punto en el tiempo"
- Simplificación de cifrado de datos porque no necesitan cifrar todos los datos. Esto ahorra valioso procesador ciclos y todos relacionados consecutiveness.
- Datos de indexación para mejorar los tiempos de acceso de usuario
- Protección de datos se redefine donde (RTOObjetivo de tiempo de recuperación) se ha mejorado.
Véase también
- Clasificación de datos (inteligencia de negocios)
Referencias
- Josh Judd y Dan Kruger (2005), principios de diseño de SAN. Editorial infinito
- Stephen J. Bigelown (noviembre de 2005), SearchStorage.com, https://SearchStorage.TechTarget.com/news/article/0, 289142,sid5_gci1139240,00.html