Desduplicación de datos

Ir a: navegación, búsqueda de

En Computación, desduplicación de datos es un organismo especializado compresión de datos técnica para la eliminación de duplicados de repetir datos. Son términos relacionados y algo sinónimos compresión inteligente (datos) y almacenamiento de instancia única (datos). Esta técnica se utiliza para mejorar la utilización del almacenamiento de información y puede aplicarse también a las transferencias de datos de red para reducir el número de bytes que deben ser enviados. En la desduplicación de proceso, único trozos de datos o patrones de bytes, es identificado y almacenado durante un proceso de análisis. A medida que continúa el análisis, otros trozos se comparan a la copia almacenada y cada vez que se produzca una coincidencia, el pedazo redundante se sustituye por una pequeña referencia que señala el pedazo almacenado. Dado que el mismo patrón de byte puede ocurrir decenas, cientos o incluso miles de veces (la frecuencia de fósforo es dependiente en el tamaño del trozo), puede reducirse considerablemente la cantidad de datos que deben ser almacenados o transferidos.[1]

Este tipo de deduplicación es diferente a la realizada por herramientas de compresión de archivos estándar, tales como LZ77 y LZ78. Considerando que estas herramientas identifican cortos repetidos subcadenas dentro de archivos individuales, la intención de desduplicación de datos basada en almacenamiento es inspeccionar grandes volúmenes de datos e identificar grandes secciones – tales como archivos o grandes secciones de archivos – que son idénticos, con el fin de almacenar sólo una copia de la misma. Esta copia puede ser comprimida además por técnicas de compresión de archivo único. Por ejemplo un sistema de correo electrónico típico puede contener 100 casos de la misma (de 1 MBmegabyte) archivo adjunto. Cada vez que el Correo electrónico plataforma está respaldada, 100 todas las instancias del accesorio se guardan, que requiere 100 MB de espacio de almacenamiento. Con desduplicación de datos, en realidad se almacena sólo una instancia del accesorio; las instancias posteriores se hace referencia a la copia guardada para relación de deduplicación de aproximadamente 100 a 1.

Contenido

  • 1 Beneficios
  • 2 Resumen de deduplicación
    • 2.1 Deduplicación de post-proceso
    • 2.2 Desduplicación en línea
    • 2.3 Fuente versus deduplicación de destino
    • 2.4 Métodos de deduplicación
  • 3 Inconvenientes e inquietudes
  • 4 Véase también
  • 5 Referencias
  • 6 Enlaces externos

Beneficios

  • Desduplicación de datos basada en almacenamiento de información reduce la cantidad de almacenamiento necesario para un determinado conjunto de archivos. Es más eficaz en los usos donde muchas copias de datos muy similares o incluso idénticos se almacenan en un solo disco — un escenario sorprendentemente común. En el caso de backups de datos, que habitualmente se realizan para proteger contra la pérdida de datos, más datos en una copia de seguridad determinado permanecen inalterados desde la copia de seguridad anterior. Sistemas de backup común intentan explotar esto omitiendo (o fuerte vinculación) archivos que no han cambiado o almacenar diferencias entre los archivos. Ninguno de los dos enfoque captura los despidos, sin embargo. Fuerte vinculación no ayuda con archivos de gran tamaño que sólo han cambiado de maneras pequeñas, como una base de datos de correo electrónico; las diferencias sólo encuentran despidos en versiones adyacentes de un solo archivo (piénsese en una sección que fue suprimida y añadió más tarde en otra vez, o una imagen de logotipo incluido en muchos documentos).
  • Deduplicación de datos de red se utiliza para reducir el número de bytes que deben ser transferidos entre los extremos, que pueden reducir la cantidad de ancho de banda requerido. Ver Optimización de la WAN para obtener más información.
  • Los servidores virtuales se benefician de deduplicación porque permite archivos de sistema nominalmente independientes para cada servidor virtual que se unieron en un solo espacio. Al mismo tiempo, si un servidor dado personaliza un archivo, deduplicación no va a cambiar los archivos en los servidores de otros — algo que no ofrecen alternativas como enlaces duros o discos compartidos. Asimismo mejora de backup o copias duplicadas de entornos virtuales.

Resumen de deduplicación

Deduplicación puede producirse "in-line", como datos está fluyendo, o "post procesan" después de que ha sido escrito.

Deduplicación de post-proceso

Con deduplicación post-proceso, nuevos datos primero se almacenan en el dispositivo de almacenamiento y luego un proceso en un momento posterior a analizar los datos de duplicación. El beneficio es que no hay que esperar a que los cálculos de hachís y búsqueda para ser completado antes de almacenar los datos, garantizando que tienda de rendimiento no se degrada. Implementaciones ofreciendo la operación basada en políticas pueden ofrecer a los usuarios la posibilidad de aplazar la optimización de archivos "activos", o para procesar archivos según tipo y ubicación. Una desventaja potencial es que innecesariamente puede almacenar datos duplicados por un corto tiempo que es un problema si el sistema de almacenamiento es junto a plena capacidad.

Desduplicación en línea

Este es el proceso donde se crean los cálculos de deduplicación hash en el dispositivo de destino como los datos entre el dispositivo en tiempo real. Si el dispositivo de spots de un bloque que ya almacena en el sistema no almacena el nuevo bloque, sólo hace referencia al bloque existente. El beneficio de desduplicación en línea sobre desduplicación de post-proceso es que requiere menos almacenamiento de información como datos no se duplican. En el lado negativo, con frecuencia se argumenta que porque tarda tanto cálculos hash y las búsquedas, puede significar que el ingestión de datos puede ser más lento reduciendo el rendimiento del dispositivo de copia de seguridad. Sin embargo, algunos vendedores con desduplicación en línea han demostrado equipo con un rendimiento similar a sus homólogos de deduplicación post-proceso.

Postprocesar y deduplicación métodos son a menudo muy debatidos en línea.[2][3]

Fuente versus deduplicación de destino

Otra manera de pensar acerca de desduplicación de datos es por donde se produce. Cuando la deduplicación ocurre cerca de donde se crearon datos, se refiere a menudo como "desduplicación de fuente". Cuando se produce cerca de donde se almacenan los datos, se llama comúnmente "deduplicación de destino".

  • Deduplicación fuente asegura que los datos sobre el origen de datos es desduplicados. Esto generalmente ocurre directamente dentro de un sistema de archivos.[4][5] El sistema de archivos será analizar nuevos archivos crear hashes periódicamente y compararlos con hashes de los archivos existentes. Cuando se encuentran archivos con el mismo hash entonces se elimina la copia de archivos y el nuevo archivo indica que el archivo antiguo. A diferencia de enlaces duros Sin embargo, archivos duplicados son considerados como entidades separadas y si más tarde uno de los archivos duplicados se modifica, entonces usando un sistema llamado Copy-on-write se crea una copia de ese archivo o bloque modificado. El proceso de deduplicación es transparente para los usuarios y las aplicaciones de backup. Respaldar un sistema de archivos reduplicada causará a menudo duplicación ocurrir resultando en las copias de seguridad siendo más grande que los datos de origen.
  • Deduplicación de destino es el proceso de eliminación de duplicados de los datos en el almacén secundario. Generalmente esto será una tienda como un repositorio de datos de copia de seguridad o un Biblioteca de cintas virtuales.

Métodos de deduplicación

Una de las formas más comunes de datos deduplicación implementaciones trabajos comparando trozos de datos para detectar duplicados. Para que eso ocurra, cada fragmento de datos se asigna una identificación, calculada por el software, normalmente utilizando funciones hash criptográfico. En muchas implementaciones, se hace la suposición de que si la identificación es idéntica, los datos son idénticos, aunque esto no puede ser cierto en todos los casos debido a la principio de casillero; otras implementaciones no asumen que dos bloques de datos con el mismo identificador son idénticos, pero en realidad verificar que los datos con la misma identificación están idénticos.[6] Si el software tampoco asume que una identificación dada ya existe en el espacio de nombres desduplicación o en realidad verifica la identidad de los dos bloques de datos, dependiendo de la aplicación, luego reemplazará ese fragmento duplicado con un enlace.

Una vez que los datos ha sido desduplicados, al leer la parte posterior del archivo, donde se encuentra un enlace, el sistema simplemente reemplaza ese vínculo con el pedazo de datos referenciados. El proceso de deduplicación pretende ser transparente para los usuarios finales y aplicaciones.

  • Fragmentación. Entre las implementaciones comerciales desduplicación, tecnología varía principalmente en método de fragmentación y en arquitectura. En algunos sistemas, trozos son definidos por las limitaciones de la capa física (por ejemplo 4KB tamaño de bloque en WAFL). En algunos sistemas de archivos completos sólo se comparan, que se llama almacenamiento de instancia única o SIS. El método más inteligente (pero intensivo de la CPU) para trozos se considera generalmente ser bloque deslizante. En el bloque deslizante, una ventana se pasa a lo largo de la secuencia de archivo a buscar más naturalmente los límites internos del archivo.
  • Deduplicación copia de seguridad del cliente. Este es el proceso donde los cálculos hash deduplicación se crean inicialmente en las máquinas de origen (cliente). No se envían los archivos que tengan hashes idénticos a los archivos en el dispositivo de destino, el dispositivo de destino sólo crea vínculos internos adecuados para hacer referencia a los datos duplicados. La ventaja de esto es que evita datos innecesariamente ser enviados a través de la red reduciendo la carga de tráfico.
  • Almacenamiento primario y secundario. Por definición, los sistemas de almacenamiento primario están diseñados para un rendimiento óptimo, en lugar de más bajo costo posible. Los criterios de diseño para estos sistemas es aumentar el rendimiento, a expensas de otras consideraciones. Además, los sistemas de almacenamiento primario están mucho menos tolerantes de cualquier operación que pueda afectar negativamente el rendimiento. También por definición, sistemas de almacenamiento secundario contienen principalmente copias duplicadas, o secundarias de datos. Estas copias de datos no se utilizan típicamente para las operaciones de producción real y como resultado son más tolerantes de una degradación del rendimiento, a cambio de aumentar la eficiencia.

Hasta la fecha, desduplicación de datos predominante ha sido utilizada con los sistemas de almacenamiento secundario. Las razones de esto son dobles. En primer lugar, desduplicación de datos requiere gastos para descubrir y eliminar los datos duplicados. En sistemas de almacenamiento primario, esta sobrecarga puede afectar el rendimiento. La segunda razón por qué se aplica desduplicación de datos secundarios, es que los datos secundarios tienden a tener más datos duplicados. En particular la aplicación de backup generan comúnmente porciones significativas de los datos duplicados en el tiempo.

Desduplicación de datos se ha desplegado con éxito con almacenamiento de información primario en algunos casos donde el diseño del sistema no requiere gastos significativos, o comportamiento.

Inconvenientes e inquietudes

Cuando se transformaron datos, surgen inquietudes sobre la potencial pérdida de datos. Por definición, sistemas de deduplicación de datos almacenan datos de manera diferente a cómo fue escrita. Como resultado, los usuarios se refieren a la integridad de sus datos. Los distintos métodos de deduplicación de datos todas emplean técnicas ligeramente diferentes. Sin embargo, la integridad de los datos dependerá en última instancia, el diseño del sistema de deduplicating, y la calidad usado para implementar los algoritmos. Como la tecnología ha madurado en la última década, la integridad de la mayoría de los productos principales se ha comprobado.[citación necesitada]

Un método para la deduplicación de datos se basa en el uso de funciones hash criptográfico identificar los segmentos duplicados de los datos. Si dos piezas diferentes de información generan el mismo valor hash, esto se conoce como un colisión. La probabilidad de una colisión depende de la función hash utilizada, y aunque las probabilidades son pequeñas, son siempre no cero. Por lo tanto, la preocupación surge corrupción de datos puede ocurrir si un colisión de hash se produce, y no se utilizan medios adicionales de verificación para comprobar si hay una diferencia en los datos, o no. En línea y post-proceso arquitecturas pueden ofrecer validación bit por bit de datos originales para la integridad de los datos garantizada.[7] Las funciones hash usadas incluyen normas tales como SHA-1, SHA-256 y otros. Proporcionan una mucho menor probabilidad de pérdida de datos que el riesgo de un error de hardware detectados y corregidos en la mayoría de los casos y puede ser del orden de 10−49% petabyte (1.000 terabytes) de datos.[8]

La intensidad de recursos computacionales del proceso puede ser un inconveniente de desduplicación de datos. Sin embargo, esto rara vez es un tema para dispositivos independientes o aparatos, como el cómputo se descarga completamente de otros sistemas. Esto puede ser un problema cuando la deduplicación está alojada dentro de dispositivos de otros servicios. Para mejorar el rendimiento, muchos sistemas utilizan hashes fuertes y débiles. Son mucho más rápidas para calcular hashes débiles pero hay un mayor riesgo de una colisión de hash. Sistemas que utilizan débiles hashes posteriormente calculará un hash fuerte y lo usará como el factor determinante para que sea realmente los mismos datos o no. Tenga en cuenta que el sistema de sobrecarga asociado a calcular y buscar los valores hash es principalmente una función del flujo de trabajo de deduplicación. La reconstitución de archivos no requiere este procesamiento y sanción alguna actuación incrementales asociado con montaje de trozos de datos es poco probable que afectan el rendimiento de la aplicación.

Otra área de preocupación con desduplicación es el efecto relacionado en instantáneas, copia de seguridad, y archivo, especialmente donde se aplica la deduplicación contra almacenamiento primario (por ejemplo dentro de un NAS sistema de almacenamiento).[otra explicación necesitado] Lectura de archivos de un dispositivo de almacenamiento causa reconstitución completa de los archivos, por lo que cualquier copia secundaria del conjunto de datos es probable que sea más grande que la copia primaria. En cuanto a las fotos, si un archivo se snapshotted antes de desduplicación, la instantánea post-deduplicación conservará todo el archivo original. Esto significa que aunque se reducirá la capacidad de almacenamiento para las copias de archivo principal, capacidad requerida para las instantáneas puede expandir dramáticamente.

Otra preocupación es el efecto de compresión y encriptación. Aunque la deduplicación es una versión de la compresión, trabaja en tensión con la compresión tradicional. Desduplicación logra mayor eficiencia contra pedazos de datos más pequeños, mientras que compresión logra mayor eficiencia contra los trozos más grandes. El objetivo de cifrado es eliminar cualquier patrón discernible en los datos. Así no pueden ser desduplicados datos cifrados, aunque los datos subyacentes pueden ser redundantes. Deduplicación en última instancia, reduce la redundancia. Si esto no era esperado y previsto para, esto puede arruinar la fiabilidad del sistema subyacente. (Comparar, por ejemplo, para el LOCKSS arquitectura de almacenamiento que logra confiabilidad a través de múltiples copias de datos.)

Escalado también ha sido un reto para los sistemas de deduplicación porque lo ideal sería el alcance de la deduplicación necesita ser compartido a través de dispositivos de almacenamiento. Si hay varios dispositivos de backup de disco en una infraestructura con desduplicación discreta, eficacia del espacio es afectada negativamente. Una deduplicación compartida a través de dispositivos conserva eficacia del espacio, pero técnicamente es difícil desde una perspectiva de rendimiento y fiabilidad.[citación necesitada]

Aunque no es un defecto de desduplicación de datos, ha habido violaciones de datos cuando se utilizan procedimientos de validación de seguridad y acceso insuficientes con grandes repositorios de datos desduplicados. En algunos sistemas, como típico con almacenamiento en la nube, un atacante puede recuperar datos de titularidad de terceros por saber o adivinar el valor hash de los datos deseados.[9]

Véase también

  • Optimización de la capacidad
  • Almacenamiento en la nube
  • Almacenamiento de instancia única
  • Almacenamiento accedido por contenido
  • Codificación Delta
  • Datos enlazados
  • Puntero
  • Acoplamiento récord
  • Resolución de identidad
  • Cifrado convergente

Referencias

  1. ^ "Deduplicación de datos de conocimiento"Druva, 2009. Obtenido 2013-2-13
  2. ^ ¿"En línea o post-proceso de desduplicación? (actualizado 6-08)". Copia de seguridad Central. 2009-10-16.
  3. ^ "Inline vs post-procesamiento deduplicación electrodomésticos". Searchdatabackup.TechTarget.com. 2009-10-16.
  4. ^ "Windows Server 2008: Windows Storage Server 2008". Microsoft.com. 2009-10-16.
  5. ^ "Productos - plataforma OS". NetApp. 2009-10-16.
  6. ^ Un ejemplo de una aplicación que comprueba identidad en lugar de asumirlo que se describe en "US patente # 20090307251".
  7. ^ Desduplicación de datos - por qué, cuándo, dónde y cómo, Grupo evaluador, obtenido 2011-07-05
  8. ^ "El riesgo de colisiones de hash de desduplicación de datos". Diciembre de 2010. 28 / 07 / 2012.
  9. ^ CACHIN CRISTIANA; MATTHIAS SCHUNTER (diciembre de 2011). "Una nube que puedes confiar". Espectro de IEEE (IEEE). 21 / 12 / 2011.

Enlaces externos

  • Biggar, Heidi(2007.12.11). WebCast: El efecto de deduplicación de datos
  • Compañeros, Russ (evaluador Group, Inc.) Desduplicación de datos, ¿por qué Cuándo Dónde y cómo?
  • Usando indexación semántica latente para la deduplicación de datos.
  • Una mejor forma de almacenar datos.
  • ¿Cuál es la diferencia entre la desduplicación de datos, archivo desduplicación y compresión de datos?[link muerto] -Base de datos de eWeek
  • SNIA DDSR SIG * * Comprensión Data Deduplication cocientes
  • Datos huella reducción tecnología Whitepaper
  • Hacer más con menos por Jatinder Singh

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Data_deduplication&oldid=635040860"