Estructura grande
Transformación de datos/ Transformación fuente |
---|
Conceptos |
|
Idiomas |
|
Técnicas y se transforma |
|
Aplicaciones |
|
Campos de aplicación |
|
Estructura grande cualquier forma de estructura de datos, incluyendo relaciones de datos y contexto, que pueden combinarse para permitir conjunto de datos interoperabilidad y la comprensión.[1] El edificio ha sido citado como ayudando a integrar los datos en áreas tales como ciencia cognitiva,[2] extracción de relación,[3] eSalud,[4] minería de datos,[5] identificación de funciones,[6] la informatización en red,[7] Computación semántica,[8] y geológicos integración de datos.[9] Jiawei Han ha argumentado Datos de grandes necesita gran estructura.[10] Michael Bergman ha escrito mucho sobre estructura grande en lo referente a datos interoperabilidad[8] y herramientas necesarias.
Porque el edificio se construye a partir de muchas estructuras de la Constituyente, ontologías para relacionarse conceptos y los objetos y sus atributos son un enfoque integrador. Juego semántico y el Mapeo entre múltiples conjuntos de datos y fuentes es un paso esencial para construir el edificio, que por naturaleza necesita conciliar heterogeneidades semánticas. Herramientas y medios para crear y administrar las ontologías así son parte integral de la estructura grande. En turno, Big data y algoritmos diferentes, incluyendo aprendizaje automático, a menudo desempeñan un papel en estas tecnologías.
Contenido
- 1 Definición
- 2 Componentes
- 3 Relación con la semántica
- 4 Papel en la interoperabilidad de datos
- 5 Mapeo y tecnologías
- 6 Aplicaciones
- 7 Véase también
- 8 Referencias
- 9 Lectura adicional
Definición
El edificio es las relaciones de datos y el contexto que se puede combinar en un coherente marco para habilitar el entendimiento y la interoperabilidad de dataset. Gran estructura implica que puede entender el significado de los datos y sus valores pueden ser llevados a bases comunes de tal forma que Análisis, pruebas y validación puede ser aplicado a través de los valores. Gran estructura no es una sola cosa, pero la combinación de varias cosas que dan contexto y significado de datos. Como tal, el edificio es a menudo una reasignación de propósitos de las existentes activos de información, organizado por el objetivo de la interoperabilidad de datos.
Los componentes de estructura grande pueden ser identificados y caracterizados. Componentes de la estructura grande representan la continuidad de las relaciones de concepto y datos, a menudo ya en las estructuras existentes. Conseguir combinar estos componentes en referencia estructuras de gráfico los conceptos y valores de datos reales de las fuentes de datos constitutivos en el lugar alineación. La selección de cuál candidato conseguir incorporar estructuras puede depender la relevancia, utilidad o autoridad.
Las estructuras de referencia proporcionan la conexión a tierra símbolo para el mapeo de conceptos y la transformación de los valores de datos en forma interoperable. Estas estructuras de referencia necesitan ser acompañado por herramientas, y luego incorporados en estructuras más amplias que en última instancia los temas de que trata los datos y los valores de los datos en la alineación.
En mayo de 2014, Dr. Jiawei Han, un destacado investigador en minería de datos, dio una conferencia en Yahoo! Labs titulado, Big Data necesita gran estructura. En él, él define "Gran estructura como una red de información de tipo". Esta observación se correlaciona con las ontologías y estructuras de conocimiento.
Componentes
El edificio consta de una familia de las estructuras de componentes que ayudan a la guía de mapas y la interoperabilidad. La siguiente tabla muestra algunos de estos componentes, más o menos en orden descendente en cuanto al grado de estructura y su contribución a la interoperabilidad. La tabla proporciona definiciones y descripciones de uso para cada componente:
Tipo de estructura | Definición | Uso |
Referencia ontologías | Estructuras principales de puesta a tierra para orientar e interoperar conceptos o datos | Los conceptos de referencia para orientar toda la información de datos y dominio |
Atributos de referencia | Estructuras principales de puesta a tierra para interoperar caracterizaciones de datos y datos | Las relaciones entre datos descripciones y características, que también proporciona los medios para las transformaciones entre representaciones heterogéneas de referencia |
Modelo de datos (RDF) | Un medio autoconsistente para describir la estructura de datos y sus relaciones | El modelo de datos "canónica" en el corazón del sistema; proporciona un punto único de interoperabilidad; RDF es un modelo canónico común |
Atributos de dominio | Las descripciones de datos y características de los conjuntos de datos constitutivos en los dominios de aplicación | Los atributos de referencia específicos a los dominios de mano (que son generalmente más específicos que los atributos generales de referencia) |
Ontologías de dominio | La conceptualización formal de un dominio, utilizando un vocabulario compartido para denotar los tipos, propiedades y las interrelaciones de esos conceptos | Los conceptos de referencia y sus relaciones específicas de los dominios generalmente se asignan a las ontologías de referencia |
Mapas conceptuales | Un diagrama que representa sugiere relaciones entre conceptos | Estructuralmente similar a una ontología del dominio |
Esquema | La estructura de una base de datos que define los objetos y las relaciones en la base de datos | Marco para la organización bases de datos relacionales (y sus mesas) |
Asignaciones | El proceso de creación de las correspondencias de elemento de datos entre dos datos distintos modelos o esquemas | Predicados de asignación se utilizan para relacionar conceptos o atributos de dos diferentes conjuntos de datos o bases de conocimiento uno al otro. Las asignaciones son a menudo un precursor de varias transformaciones para poner datos en una representación común |
Taxonomías | Una clasificación particular de conceptos relacionados, a menudo de una naturaleza jerárquica | Las relaciones jerárquicas están expresadas en más estrecha o más amplios términos (o subClassOf); también se puede ver también las relaciones |
Facetas | Aspectos claramente definidos, mutuamente excluyentes y colectivamente exhaustivos, propiedades o características de una clase o tema específico | Las facetas pueden proporcionar alternativas para clasificar objetos más allá de una simple taxonomía |
Categorías | Agrupar objetos basados en propiedades similares | Una categoría puede considerarse equivalente a un concepto |
Tablas | Una colección de datos relacionados en un formato estructurado, generalmente un plano bidimensional de filas (registros) y columnas (campos) | Formato de presentación de datos más sencilla y más común |
Synsets | Un grupo de elementos de datos o los términos que se consideran semánticamente equivalentes para los propósitos de recuperación de información | Utilizado como un medio para proporcionar una conexión a tierra común para un concepto determinado, aunque podría ser contemplados en diferentes sinónimos, alias, acrónimos o jerga |
Metadatos | Datos proporcionando información sobre uno o más aspectos de los datos de origen, por lo tanto "datos sobre datos" | Es la descripción de qué datos se trata en lugar de los valores y atributos de los datos reales |
Tesauros | Una forma de vocabulario controlado que pretende dictar manifestaciones semánticas de metadatos en la indexación de direcciones de objetos de contenido | Un tesauro es compuesto por una lista de palabras (o términos), un vocabulario para relacionarse estas palabras (o términos) uno al otro, a menudo jerárquico y un conjunto de reglas sobre cómo utilizar estos aspectos |
Nomenclátores | Una lista de tipos de entidad similar con datos estructurales asociados (como países y población o códigos estándar) | A menudo utilizado en relación con personas o lugar tipos de entidad, aunque cualquier clase de entidades puede tener un nomenclátor |
Vocabularios controlados | El uso de términos predefinidos, autorizados como preseleccionados por el patrocinador para exigir coherencia en terminología | Aplicados a determinados dominios o subdominios, con solos vocabularios controlados por idioma oficial utilizado |
Listas de referencias | Lista autorizada de objetos similares, cada uno únicamente identificados por nombre o código | Puede ser tan simple como una lista completa de países con los códigos ISO asociados |
Diccionarios | Un repositorio de información sobre datos como significado, relaciones con otros datos, origen, uso o formato | En nuestro contexto, puede variar desde el significado asociado con diccionarios estándar de la palabra en el diccionario de datos más formal |
Glosarios | Una lista alfabética de términos en un dominio particular con las definiciones de los términos | Definición es la única información estructurada proporcionada |
Listas anidadas | Conceptos relacionados o entidades organizadas por algún tipo de relación jerárquica (más estrecho, más amplio, subClassOf, etc). | Similar a una simple taxonomía |
Listas ordenadas | Una colección finita, ordenada de los valores de un tipo dado | Puede también estar información adicional relacionada con el listado |
Racimos | Un conjunto de objetos agrupados según una base de similitud (tipo, atributos o características) | Base de cómo tenemos agrupados los objetos no siempre es obvia |
Listas sin ordenar | Un contenedor de elementos similares o entidades, sin orden implícita o secuencia | También conocido como una "bolsa" o "colección" |
Valores | Los datos reales; una forma normal o un miembro de tipo | Unidades y medidas de los valores pueden diferir y necesario reconciliar |
El datos estructurados, los datos semiestructurados y datos no estructurados (con Etiquetas y metadatos) proporcionan más enlaces en los distintos tipos de componentes.
Relación con la semántica
Semántica | ||||||||
---|---|---|---|---|---|---|---|---|
| ||||||||
|
||||||||
|
||||||||
Computación | ||||||||
|
||||||||
|
||||||||
El propósito de estructura grande es proporcionar orientación sobre cómo conciliar sintáctico y heterogeneidades semánticas a través de conjuntos de datos. En tecnologías semánticas, la separación entre el esquema de dominio (el Box) y los datos reales (afirmaciones, o el ABox) proporciona un útil heurístico para saber cómo ve el reto de conciliar las diferencias entre los conjuntos de datos.
Desde el conceptual de datos reales, existen diferencias en perspectiva, vocabularios, medidas y convenios a través de conjuntos de datos. Las diferencias conceptuales son mediadas mediante ontologías[11] emparejar y técnicas de mapeo. Las diferencias de datos se reconcilian a través de la transformación de los datos en formas comunes. Estas tareas de reconciliación son parte de datos de disputas, que también incluye limpieza de datos y depuración. Semántica es por tanto una consideración central en el conjunto de estructura grande.
Papel en la interoperabilidad de datos
La capacidad de las estructuras de datos para informar la interoperabilidad es, en parte, una función de la complejidad estructural de la estructura de la fuente. Listas incluso simples pueden contribuir entendimientos estructurales. Una forma de aprovechar esta estructura es para mapear estructuras más simples a más complejas.
En la semántica, hay un problema de conexión a tierra símbolo. En el ámbito conceptual, tierra símbolo significa que cuando utilizamos un término o frase nos estamos refiriendo a lo mismo; es decir, la referente es el mismo. En el Reino de valor de datos, conexión a tierra símbolo significa que cuando nos referimos a un objeto o un número — dijo, el número 4.1 — nos referimos también a la misma métrica. Nombres de los objetos para establecer miembros tienen los mismos problemas de ambigüedad semántica como todas las demás cosas contempladas por el lenguaje.
El variabilidad "V" en Datos de grandes o las dimensiones de la heterogeneidad semántica son reconocimientos explícitos del símbolo desafío de puesta a tierra. Contexto y enraizamientos son formas de reducir la ambigüedad en lo que es medido y registrado. Así, el edificio tiene una jerarquía implícita que lugares referencia a estructuras como los cimientos para las bases. Todas las otras estructuras, con diversos grados de complejidad estructural, se apilan en orden de complejidad estructural sobre este fundamento.
Las estructuras de información existentes de varios tipos pueden desempeñar un papel en el establecimiento de estructuras de referencia. A medida que crecen las estructuras de referencia, puede ampliar el alcance de la interoperabilidad y la capacidad de conciliar más conjuntos de datos.
Mapeo y tecnologías
Uso de estructura grande y una reducción del esfuerzo requerido en disputas de datos pueden beneficiarse de un enfoque integrador de ingeniería de software, afín a Ingeniería de software asistida por computadora. Clases particulares de herramientas que apoyan la integración de la gran estructura incluyen construcción de automatización, Analizadores, rendimiento analzers, sistemas de control de revisión, probadores de unidad, herramientas de modelado de datos, mapeados ()ontologías y datos), transformadores de datosy una variedad de unidad de tecnologías semánticas, especialmente en PNL.
Desde reconciliaciones semánticas son algunos de los más difíciles de la informática los desafíos, no es de extrañar que herramientas de gran estructura depende de muchos enfoques de modelos estadísticos Para inteligencia artificial, particularmente en reconocimiento de patrones y aprendizaje automático.
Aplicaciones
El edificio es ampliamente aplicable a la zona de interoperabilidad de datos, con aplicaciones específicas en el Web semántica, recuperación de información, gestión del conocimiento, gestión de datos maestros, o en cualquier área que requiere dos o más conjuntos de datos para ser relacionado con otro.
Véase también
- Datos de grandes
- Integración de datos
- Correlación de datos
- Integración de información empresarial
- Sistema de base de datos heterogéneos
- Modelado de información
- Interoperabilidad
- Organización del conocimiento
- Integración de datos basado en ontologías
- Esquema que empareja
- Integración semántica
- Heterogeneidad semántica
- Juego semántico
- Semántica
- Datos no estructurados
Referencias
- ^ M.K. Bergman (12 de agosto de 2014). "¿Cuál es la estructura grande?". AI3::: información adaptativa. 28 de septiembre de 2014.
- ^ Agustin Vicente y Fernando Martínez-Manrique (próximamente). "El papel de grandes conceptos: una defensa de hibridismo". Diario británico para la filosofía de la ciencia. Valores de fecha de llegada:
|Date =
(Ayuda) - ^ Yifan Peng (2012). [ttp://www.eecis.udel.edu/~vijay/fall13/snlp/lit-survey/KernelRelationExtraction.pdf "Un estudio de métodos kernel en la extracción de relación"].
- ^ Muhammad Azam y Izhar Hussain (2009). "El papel de la interoperabilidad en eSalud". Blekinge Institute of technology.
- ^ Ning Xia y Yanjun Qi (2011). "Circunvolución semi supervisado gráfico kernels para extracción de relación". SDM. págs. 510-521.
- ^ Guillaume Bécan, Mathieu Acher, Benoit Baudry y Sana Ben Nasr (septiembre de 2013). "Respiración conocimiento ontológico en función modelo de gestión". No informe técnico 441.
- ^ Li Minglu, ed (7 – 10 de diciembre de 2003). "Grid y cooperativa de computación, documentos revisados, parte 1". Grid y computación cooperativa: segundo taller internacional, GCC 2003. Shanghai, China. 1112 páginas.
- ^ a b M.K. Bergman (23 de julio de 2014). "Gran estructura: en el nexo de bases de datos, la web semántica y la inteligencia artificial". AI3::: información adaptativa. 28 de septiembre de 2014.
- ^ "Técnicas de integración de datos geológicos". Actas de una reunión del Comité técnico. Viena, Austria: Organismo Internacional de energía atómica. 13 – 17 de octubre de 1986. 382 pp.
- ^ Jiawei Han (22 de mayo de 2014). "Gran estructura de grandes necesidades". Yahoo! Labs. 28 de septiembre de 2014.
- ^ Josef Küng, Erik Sonnleitner, Reinhard Stumptner, Andreea Hilda Kosorus y Stefan Anderlik (10 de octubre de 2013). "Utilizando ontologías para integrar heterogéneo decision support systems". Viena, Austria: Viena Consulting Engineers. págs. 353-374.
Lectura adicional
- Video de presentación en Jiawei Han (22 de mayo de 2014). "Gran estructura de grandes necesidades". Yahoo! Labs. 28 de septiembre de 2014.
- M.K. Bergman (2014). "Artículo gran estructura de los archivos". AI3::: información adaptativa. 28 de septiembre de 2014.
|
|
|