Conjunto de datos

Ir a: navegación, búsqueda de
Para IBM mainframe término para un archivo, vea Conjunto de datos (IBM mainframe). Para el dispositivo de interfaz de telecomunicaciones, vea Módem.

A conjunto de datos (o conjunto de datos) es una colección de datos.

Comúnmente un conjunto de datos corresponde al contenido de un solo tabla de base de datos, o una sola estadística matriz de datos, donde cada columna de la tabla representa una variable particular y cada uno fila corresponde a un determinado miembro del conjunto de datos en cuestión. El conjunto de datos muestra los valores para cada una de las variables, como la estatura y el peso de un objeto, para cada miembro del conjunto de datos. Cada valor es conocido como un datos de referencia. El conjunto de datos puede abarcar datos para uno o más miembros, correspondiente al número de filas.

El conjunto de datos del término puede usarse también más libremente, para referirse a los datos de una colección de tablas estrechamente relacionadas, correspondientes a un determinado experimento o evento.

Contenido

  • 1 Historia
  • 2 Propiedades
  • 3 Conjuntos de datos clásico
  • 4 Véase también
  • 5 Notas
  • 6 Enlaces externos

Historia

Históricamente, el término se originó en el campo de mainframe, donde tuvo un significado bien definido, muy cerca de contemporáneo archivo de computadora[citación necesitada].

Propiedades

Varias características definen de un conjunto de datos estructura y propiedades. Estos incluyen el número y tipos de los atributos o variables y varios medidas estadísticas aplicable a ellos, tales como desviación estándar y curtosis.[1]

Los valores pueden ser números, tales como números reales o números enteros, por ejemplo que representa a la altura de una persona en centímetros, pero también puede ser datos nominales (es decir, no consiste en numérica los valores), por ejemplo que representa el origen étnico de una persona. Más en general, los valores pueden ser de cualquiera de las clases se describe como un nivel de medición. Para cada variable, los valores son normalmente todos de la misma clase. Sin embargo, también puede haber valores faltantes, que deberán indicarse de alguna manera.

En estadísticas, los conjuntos de datos generalmente provienen de observaciones reales obtenidas por muestreo un población estadística, y cada fila corresponde a las observaciones sobre un elemento de esa población. Conjuntos de datos adicional pueden ser generada por algoritmos con el propósito de probar ciertas clases de software. Algunos programas de análisis estadísticos modernos tales como SPSS todavía presentar sus datos en la moda clásica dataset

Conjuntos de datos clásico

Varios conjuntos de datos clásicos han sido utilizados extensivamente en el Estadística literatura:

  • Conjunto de datos de flor de iris -multivariante dataset introducida por Ronald Fisher (1936).[2]
  • Análisis de datos categoriales -Conjuntos de datos utilizados en el libro, Una introducción al análisis de datos categoriales, de Agresti son en línea proporcionados por StatLib.
  • Estadística robusta -Conjuntos de datos utilizados en Regresión robusta y detección de valores atípicos (Rousseeuw y Leroy, 1986). Disponible on-line en la Universidad de Colonia.
  • Series de tiempo -Los datos utilizados en el libro de Chatfield, El análisis de Series temporales, son en línea proporcionados por StatLib.
  • Valores extremos -Los datos utilizados en el libro, Una introducción a la modelización estadística de valores extremos son una instantánea de los datos que fueron proporcionada en línea por Stuart Coles, autor del libro.
  • Análisis bayesiano -Datos utilizados en el libro son siempre on-line por Andrew Gelman, uno de los autores del libro.
  • El Datos de Bupa del hígado, utilizado en varios papeles en la máquina de aprendizaje de la literatura (minería de datos).
  • Cuarteto de Anscombe Pequeño conjunto de datos que ilustran la importancia de graficar los datos para evitar errores estadísticos

Véase también

  • Interoperabilidad

Notas

  1. ^ M. Jan Żytkow, Jan Rauch (1999). Principios de data mining y descubrimiento de conocimiento. ISBN978-3-540-66490-1.
  2. ^ Fisher, R.A. (1936). "El uso de múltiples mediciones en problemas taxonómicos". Anales de la eugenesia 7:: 179-188. Doi:10.1111/j.1469-1809.1936.tb02137.x.

Enlaces externos

  • Datahub -Un hogar administradas por la comunidad para conjuntos de datos abierto
  • Tubería de investigación -Un wiki/sitio web con enlaces a bases de datos sobre muchos temas diferentes.
  • StatLib--archivo de bases de datos
  • StatLib - JASA Data Archive
  • Data.gov
  • Datos públicos del gobierno de Reino Unido
  • GCMD -El Global Change Master Directory contiene más de 20.000 descripciones de conjuntos de datos de Ciencias de la tierra y servicios que cubren todos los aspectos de la tierra y ciencias ambientales.

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Data_set&oldid=625099781"