Esquema que empareja
|
Este artículo proporciona contexto insuficiente para aquellos no familiarizados con el tema. (Octubre de 2009) |
Los términos esquema que empareja y Mapeo a menudo se usan indistintamente. Para este artículo, distinguimos los dos como sigue: Esquema coincidencia es el proceso de identificación que dos objetos son semánticamente relacionadas (alcance de este artículo), mientras que la cartografía se refiere a la transformaciones entre los objetos. Por ejemplo, en los dos esquemas DB1.Estudiante (nombre, número de seguro social, nivel, mayor, marcas) y DB2.Estudiante de posgrado (nombre, identificación, Major, grados); posibles coincidencias sería: DB1.Estudiante ≈ DB2.Estudiante de posgrado; DB1.SSN = DB2.ID etc. y las posibles transformaciones o asignaciones sería: DB1.Marcas de DB2.Grados (100-90, 90-80 B: etc.).
Automatización de estos dos enfoques ha sido una de las tareas fundamentales del integración de datos. En general no es posible determinar completamente automáticamente las distintas correspondencias entre dos esquemas, debido principalmente a las diferentes y a menudo no explicada o documentado semántica de los dos esquemas.
Contenido
- 1 Impedimentos al esquema que empareja
- 2 Esquema que empareja
- 2.1 Metodología
- 2.2 Enfoques
- 2.3 Relaciones identificadas
- 3 Véase también
- 4 Referencias
- 5 Enlaces externos
Impedimentos al esquema que empareja
Entre otros retos comunes para automatización de correspondencia y cartografía han sido previamente clasificados en[1] especialmente para los esquemas relacionales de DB; y en[2] -una lista bastante completa de heterogeneidad no se limita al modelo relacional reconociendo esquemático vs diferencias semánticas/heterogeneidad. La mayoría de estas heterogeneidades existe porque esquemas utilizan diferentes representaciones o definiciones para representar la misma información (conflictos de horario); OR diferentes expresiones, unidades y precisión resultan en conflicto las representaciones de los mismos datos (conflictos de datos).[1] Investigación en la adecuación del esquema pretende ofrecer soporte automatizado para el proceso de búsqueda semánticos partidos entre dos esquemas. Este proceso se hace más difícil debido a heterogeneidades en los siguientes niveles[3]
- Heterogeneidad sintáctica - diferencias en el lenguaje utilizado para representar los elementos
- Heterogeneidad estructural - diferencias en los tipos, las estructuras de los elementos
- Modelo / representacional heterogeneidad – las diferencias en los modelos subyacentes (base de datos, ontologías) o de sus representaciones (relacional, orientado a objetos, RDF, OWL)
- Heterogeneidad semántica -donde está representada la misma entidad del mundo real usando términos diferentes o viceversa
Esquema que empareja
[4][5][6][7][8]
Metodología
Habla de una metodología genérica para la tarea de integración del esquema o las actividades implicadas.[5] Según los autores, uno puede ver la integración
- Preintegration - un análisis de esquemas se lleva a cabo antes de la integración para decidir sobre una política de integración. Esto rige la elección de esquemas de integración, el orden de integración y una posible cesión de preferencias a esquemas toda o partes de esquemas.
- Comparación de los esquemas - esquemas son analizados y comparados para determinar las correspondencias entre conceptos y detectar posibles conflictos. Interschema propiedades pueden descubrirse mientras que compara esquemas.
- Conforme los esquemas - una vez que se detectan los conflictos, es hacer un esfuerzo para resolverlos para que la fusión de varios esquemas es posible.
- Fusión y reestructuración - ahora los esquemas están listos para ser superpuestos, dando lugar a algunos esquemas integrados intermedio. Los resultados intermedios son analizados y, si es necesario, reestructurados con el fin de lograr varias cualidades deseables.
Enfoques
Enfoques para la integración del esquema se pueden clasificar en términos generales como los que explotan sólo información de esquema o información de nivel de esquema y ejemplo.[4][5]
Dispositivos de nivel de esquema de comparación Sólo en cuenta información del esquema, no datos de instancia. La información disponible incluye las propiedades de los elementos del esquema, tales como nombre, descripción, tipo de datos, tipos de relación (parte-de, es, etc.), limitaciones y estructura del esquema habituales. Trabajando a nivel de estructura (búsqueda de combinaciones de elementos que aparecen juntos en una estructura) o elemento (elementos atómicos como atributos de los objetos), estas propiedades se utilizan para identificar los elementos coincidentes en dos esquemas. Dispositivos de comparación lingüísticas o lenguaje de utilizan nombres y texto (es decir, palabras o frases) para encontrar elementos de esquema semánticamente similares. Dispositivos de comparación restricción basado en explotan las limitaciones a menudo contenidas en los esquemas. Estas limitaciones son utilizadas para definir los tipos de datos y rangos de los valores, singularidad, opcionalidad, tipos de relación y cardinalities, etc.. Restricciones en dos esquemas de entrada se combinan para determinar la similitud de los elementos del esquema.
Dispositivos de comparación de instancia utilizar datos de instancia para reunir la penetración importante en el contenido y el significado de los elementos del esquema. Normalmente se utilizan además de los partidos de nivel de esquema para impulsar la confianza en los resultados de los partidos, más aún cuando la información disponible en el nivel de esquema es insuficiente. Dispositivos de comparación en este nivel uso lingüístico y restricción de basan caracterización de instancias. Por ejemplo, usando técnicas lingüísticas, es posible mirar las instancias Dept, DeptName y EmpName concluir que DeptName es un mejor candidato del partido para el departamento que EmpName. Limitaciones como códigos postales deben ser 5 dígitos de longitud o formato de números de teléfono puede permitir que empareja de esos tipos de datos de instancia.
Dispositivos de comparación híbrido directamente se combinan varios enfoques coincidentes para determinar los candidatos del partido basan en criterios o información de varias fuentes.
La mayoría de estas técnicas emplea también información adicional como diccionarios, tesauros y partido suministrada por el usuario o desajuste
Reutilización de información coincidente Otra iniciativa ha sido volver a utilizar la anterior información coincidente como información auxiliar para futuras tareas que emparejan. La motivación de este trabajo es que las estructuras o subestructuras suelen repetición, por ejemplo en los esquemas en el ámbito del comercio electrónico. Sin embargo tal una reutilización de partidos anteriores debe ser una elección cuidadosa. Es posible que tal una reutilización tiene sentido sólo para una parte de un nuevo esquema o solamente en algunos dominios. Por ejemplo, salarios e ingresos pueden considerarse idéntico en una aplicación de nómina pero no en informes de aplicación de un impuesto. Hay varios desafíos abierto terminado en dicha reutilización que merece seguir trabajando.
Prototipos de muestra Por lo general, la aplicación de estas técnicas correspondientes puede clasificarse como cualquier regla basada o sistemas basados en el aprendizaje. El carácter complementario de estos diferentes enfoques ha instigado una serie de aplicaciones utilizando una combinación de técnicas dependiendo de la naturaleza del dominio o aplicación bajo consideración.[4][5]
Relaciones identificadas
Típicamente son los tipos de relación entre los objetos que se identifican al final de un proceso de emparejamiento con sistema semántica como superposición, disjointness, exclusión, equivalencia, subsunción. Las codificaciones lógicas de estas relaciones son lo que significan. Entre otros, se presentó temprano intentado utilizar lógicas de descripción para la integración del esquema y la identificación de tales relaciones.[9] Varios de vanguardia que empareja herramientas hoy[4][7] y los evaluaron en el Ontología alineación evaluación iniciativa[10] son capaces de identificar muchos tan simple (1:1 / 1 / coincide con el nivel de elemento n:1) y compleja acerca de los partidos (n:1 / coincide con el nivel de elemento o estructura amplían) entre objetos.
Véase también
- Estructura grande
- Integración de datos
- Dataspaces
- Sistema de bases de datos federadas
- Asignaciones mínimas
- Alineación de la ontología
- Paso de peatones esquema
Referencias
- ^ a b Kim, W. y Seo, J. (diciembre de 1991). "Esquema de clasificación y datos heterogeneidad en los sistemas de Multidatabase. "PC 24, 12".
- ^ Sheth, A. P. y Kashyap, V. (1993). "Hasta ahora (esquemáticamente) sin embargo tan cerca (semánticamente)". "En las actas de la Conferencia IFIP WG 2.6 Database semántica sobre sistemas interoperativos de base de datos".
- ^ Sheth, A. P. (1999). "Cambio de enfoque sobre la interoperabilidad en los sistemas de información: de sistema, sintaxis, estructura semántica". "En los sistemas de información geográfica interoperar. F. M. Goodchild, M. J. Egenhofer, R. Fegeas y C. A. Kottman (eds.), Kluwer, Editores académicos".
- ^ a b c d Rahm, E. y Bernstein, P (2001). "Una encuesta de los enfoques que empareja el esquema automático". "La VLDB Journal 10, 4".
- ^ a b c d Batini, C., Lenzerini, M. y Navathe, S. B. (1986). "Un análisis comparativo de metodologías para la integración de esquema de base de datos.". "ACM Comput. Surv. 18, 4".
- ^ Doan, A. y Halevy, A. (2005). "La investigación semántica-integración en la comunidad de base de datos". "AI Mag 26, 1".
- ^ a b Kalfoglou, Y. y Schorlemmer, M. (2003). "Mapeo de ontología: el estado del arte". "Sé. Ing. Rev. 18, 1".
- ^ Choi, N., Song, I. y Han, H. (2006). "Una encuesta de mapeo de ontología". "SIGMOD REC 35, 3".
- ^ Ashoka Savasere, Amit P. Sheth, Sunit K. Gala, Shamkant B. Navathe, Markus H. (1993). "En la aplicación de clasificación al integración de esquema". "RIDE-IMS".
- ^ Ontología alineación evaluación Initiative::2006
Enlaces externos
- Trabajo temprano en la adecuación del esquema