Datos de grandes

Ir a: navegación, búsqueda de
Este artículo es sobre grandes colecciones de datos. Para la base de datos del gráfico, vea Base de datos de gráfico. Para la banda, ver Big Data (banda).
Una visualización de las ediciones de Copro creada por IBM. En múltiples terabytes en el tamaño, el texto y las imágenes de la Copro son un ejemplo clásico de datos grandes.

Datos de grandes es un término que abarque todo para cualquier colección de conjuntos de datos tan grande y complejo que resulta difícil procesarlos utilizando aplicaciones de procesamiento de datos tradicional.

Los desafíos incluyen violaciones de análisis, captura, conservación, búsqueda, compartir, almacenamiento, transferencia, visualización y privacidad. La tendencia a grandes conjuntos de datos es debido a la información adicional derivable de análisis de un único conjunto grande de datos relacionados, en comparación con distintos conjuntos más pequeños con la misma cantidad total de datos, permitiendo que las correlaciones a encontrarse para "detectar tendencias comerciales, prevenir enfermedades, combatir la delincuencia y así sucesivamente."[1]

Los científicos encuentran regularmente con limitaciones debido a grandes conjuntos de datos en muchas áreas, incluyendo Meteorología, Genómica,[2] connectomics, simulaciones de física compleja,[3] y la investigación biológica y ambiental.[4] Las limitaciones también afectan Búsqueda en Internet, Finanzas y Informática de gestión. Conjuntos de datos crecen en tamaño en parte porque son cada vez más se reunieron por ubicuos dispositivos móviles detección de información, tecnologías aéreas sensorial (teledetección), registros de software, cámaras, micrófonos, identificación por radio frecuencia Lectores (RFID), y redes inalámbricas de sensores.[5][6][7] La capacidad del mundo tecnológico per cápita para almacenar la información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[8] a partir de 2012, cada día 2.5 exabytes (2, 5 × 1018) de datos fueron creadas;[9]a partir de 2014, cada día 2.3 zettabytes (2.3 × 1021) de datos fueron creadas.[10][11] El reto para las grandes empresas es determinar quién debe poseer las iniciativas de datos grande que montar toda la organización.[12]

Es difícil trabajar con el uso de más grandes datos sistemas de gestión de base de datos relacional y escritorio estadísticas y paquetes de visualización, que requiere en cambio "masivamente paralelo software se ejecuta en decenas, cientos o incluso miles de servidores".[13] Lo que se considera "big data" varía dependiendo de las capacidades de la organización dirigiendo el conjunto y en las capacidades de las aplicaciones que tradicionalmente se utilizan para procesar y analizar el conjunto de datos en su dominio. Big Data es un objetivo en movimiento; ¿Qué se considera "Big" hoy no será tan años adelante. "Para algunas organizaciones, frente a cientos de gigabytes de datos por primera vez puede desencadenar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de tamaño de los datos se convierte en una consideración importante."[14]

Contenido

  • 1 Definición
  • 2 Ejemplos
    • 2.1 Gran Ciencia
    • 2.2 Ciencia e investigación
    • 2.3 Gobierno
    • 2.4 Sector privado
    • 2.5 Desarrollo Internacional
  • 3 Características
  • 4 Mercado
  • 5 Arquitectura
  • 6 Tecnologías
  • 7 Actividades de investigación
  • 8 Aplicaciones
    • 8.1 Fabricación
  • 9 Crítica
    • 9.1 Críticas del paradigma de datos grandes
    • 9.2 Críticas de ejecución de datos grandes
  • 10 Véase también
  • 11 Referencias
  • 12 Lectura adicional
  • 13 Enlaces externos

Definición

Grandes datos generalmente incluyen conjuntos de datos con tamaños más allá de la capacidad de las herramientas de software utilizadas para captura, cura, administrar y procesar datos dentro de un tiempo transcurrido tolerable.[15] Datos de grandes "tamaño" están un objetivo en movimiento constante, a partir de 2012 que van desde unos pocos docena terabytes a muchos petabytes de los datos. Grandes datos están un conjunto de técnicas y tecnologías que requieren nuevas formas de integración para descubrir grandes valores ocultos de grandes conjuntos de datos que son diversos, complejos y de gran escala.[16]

En un informe de investigación 2001[17] y conferencias relacionadas, META Group (ahora Gartner) Analista Doug Laney define oportunidades y los desafíos del crecimiento datos como ser tridimensional, es decir, aumento de volumen (cantidad de datos), velocidad (velocidad de datos de entrada y de salida) y variedad (gama de tipos de datos y fuentes). Gartner y ahora gran parte de la industria, continúan utilizando este modelo "3Vs" para describir datos grandes.[18] En 2012, Gartner actualizado su definición como sigue: "Big data es alto volumen, alta velocidad o los activos de información de alta variedad que requieren nuevas formas de procesamiento para permitir mayor toma de decisiones, visión descubrimiento y optimización de procesos".[19] Además, se agrega un nuevo V "Veracidad" por algunas organizaciones para describirlo.[20]

Si la definición de Gartner (el 3Vs) sigue siendo ampliamente utilizada, la creciente madurez del concepto fomenta una sonido más diferencia entre datos grandes y Inteligencia de negocios, con respecto a los datos y su uso:[21]

  • Inteligencia de negocios usa estadística descriptiva datos con densidad alta información para medir las cosas, detectar tendencias etc..;
  • Usos de datos grandes estadística inductiva y los conceptos de identificación de sistemas no lineales [22] inferir las leyes (regresiones, las relaciones no lineales y efectos causales) de grandes conjuntos de datos con densidad baja información[23] para revelar las relaciones, dependencias y realizar predicciones de los resultados y comportamientos.[22][24]

Grandes datos también pueden ser definidos como "Big data es un gran volumen datos no estructurados que no pueden ser manejados por norma base de datos sistemas de gestión como DBMS, RDBMS o ORDBMS".

Ejemplos

Gran Ciencia

El Gran Colisionador de Hadrones experimentos representan aproximadamente 150 millones sensores entregar datos de 40 millones de veces por segundo. Hay casi 600 millones de colisiones por segundo. Después de filtrado y abstenerse de grabación más del 99.999% de estas corrientes, hay 100 colisiones de interés por segundo.[25][26][27]

  • Como resultado, sólo trabajar con menos del 0,001% de los datos del sensor de corriente, los datos fluyen todos cuatro LHC experimentos representa 25 petabytes tasa anual antes de la replicación (a partir de 2012). Esto se convierte en casi 200 petabytes después de la replicación.
  • Si todos los datos del sensor debían grabarse en el LHC, sería extremadamente difícil de trabajar con el flujo de datos. El flujo de datos excedería tasa anual petabytes 150 millones, o casi 500 exabytes por día, antes de la replicación. Para poner el número en perspectiva, esto es equivalente a 500 quintillón (5 × 1020) bytes por día, casi 200 veces más que todas las otras fuentes combinadas en el mundo.

El Kilómetro cuadrado de matriz es un telescopio que se compone de millones de antenas y se espera que esté operativo en 2024. Colectivamente, estas antenas se esperan reunir 14 exabytes y almacenar un petabyte por día.[28][29] Se considera como uno de los proyectos científicos más ambiciosos jamás emprendidos.

Ciencia e investigación

  • Cuando el Sloan Digital Sky Survey (SDSS) comenzó a coleccionar datos astronómicos en el año 2000, acumuló más en sus primeras semanas que todos los datos recogidos en la historia de la astronomía. Continuar a un ritmo de aproximadamente 200 GB por noche, el SDSS ha acumulado más de 140 terabytes de información. Cuando el Telescopio de rastreo sinópticos grande, sucesor del SDSS, viene en línea en el año 2016 se prevé adquirir esa cantidad de datos cada cinco días.[1]
  • Decodificación de la genoma humano originalmente tomó 10 años del proceso, ahora puede conseguirse en menos de un día: los secuenciadores de ADN han dividido el costo de la secuenciación por 10.000 en los últimos diez años, que es 100 veces más barato que la reducción en el costo previsto por La ley de Moore.[30]
  • El NASA Centro para la simulación climática (NCCS) almacena 32 petabytes de clima observaciones y simulaciones en el clúster de Supercomputación Discover.[31]

Gobierno

  • En 2012, el Administración Obama anunció la iniciativa de desarrollo, para explorar los datos Qué tan grande y gran investigación de datos podrían utilizarse para abordar problemas importantes que enfrenta el gobierno.[32] La iniciativa está compuesta por 84 programas diversos datos grandes repartidos en seis departamentos.[33]
  • Análisis de datos grande desempeñó un papel grande Barack Obamaexitoso del campaña de reelección de 2012.[34]
  • El Gobierno Federal de Estados Unidos posee seis de los diez superordenadores más potentes del mundo.[35]
  • El Utah Data Center es un centro de datos actualmente siendo construido por el Estados Unidos Agencia de seguridad nacional. Una vez terminada la instalación será capaz de manejar una gran cantidad de información recopilada por la NSA en el Internet. Se desconoce la cantidad exacta de espacio de almacenamiento, pero fuentes más recientes afirman que será del orden de unos pocos exabytes.[36][37][38]
  • Análisis de datos grande fue, en parte, responsable de la PBJ y sus aliados para ganar un gran éxito General indio elecciones 2014.[39]

Sector privado

Autobús envuelven con SAP Grandes datos estacionados afuera IDF13.
  • eBay.com utiliza dos almacenes de datos en 7.5 petabytes y 40PB, así como un 40PB Hadoop Grupo de búsqueda, recomendaciones de consumo y comercialización. Almacén de datos dentro de eBay 90PB
  • Amazon.com cada día, así como las consultas de los vendedores de partes 1,000003 millones más de la mitad se encarga de millones de operaciones de back-end. La tecnología de núcleo que mantiene Amazon funcionamiento está basado en Linux y a partir de 2005 tenían tres mayores Linux bases de datos del mundo, con capacidades de 7,8 TB, 18,5 TB y TB 24,7.[40]
  • Walmart maneja más de transacciones del cliente 1 millón cada hora, que se importan en bases de datos que se estima que contienen más de 2,5 petabytes (2560 terabytes) de datos – el equivalente a 167 veces la información contenida en los libros en los Estados Unidos Biblioteca del Congreso.[1]
  • Facebook maneja 50 billones fotos desde su base de usuarios.[41]
  • FICO Sistema de detección de fraude de tarjeta de crédito Halcón protege 2,1 billones cuentas activas por todo el mundo.[42]
  • El volumen de los datos empresariales en todo el mundo, a través de todas las empresas, se duplica cada 1,2 años, según estimaciones.[43][44]
  • Windermere Real Estate utiliza las señales GPS anónimas de casi 100 millones de conductores para ayudar a los compradores de vivienda nuevos determinar sus tiempos de unidad típicas y de trabajo a lo largo de varias horas del día.[45]

Desarrollo Internacional

Investigación sobre el uso eficaz de tecnologías de información y comunicación para el desarrollo (también conocido como ICT4D) sugiere que la tecnología de datos grande puede hacer contribuciones importantes pero también presentan desafíos únicos para Desarrollo Internacional.[46][47] Avances en análisis de datos grande ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas críticas de desarrollo tales como cuidado de la salud, empleo, productividad económica, delincuencia, seguridad, y desastres naturales y gestión de los recursos.[48][49] Sin embargo, larga desafíos para el desarrollo de regiones como la inadecuada infraestructura tecnológica y escasez de recursos económicos y humanos exacerbarán las preocupaciones existentes con datos grandes tales como privacidad, metodología imperfecta y problemas de interoperabilidad.[48]

Características

Datos grandes pueden ser descritos por las siguientes características:

Volumen – La cantidad de datos que se generaron es muy importante en este contexto. Es el tamaño de los datos que determina el valor y el potencial de los datos bajo consideración y si puede en realidad ser considerado como Big Data o no. El nombre de 'Big Data' sí mismo contiene un término que está relacionado con el tamaño y por lo tanto la característica.

Variedad -El aspecto siguiente de Big Data es su variedad. Esto significa que la categoría al que pertenece Big Data también es un hecho muy esencial que debe ser conocido por los analistas de datos. Esto ayuda a la gente, que cerca está analizando los datos y está asociados con él, para el uso eficaz de los datos a su ventaja y así defender la importancia de los Big Data.

Velocidad -El término 'velocidad' en el contexto se refiere a la velocidad de generación de datos o qué tan rápido los datos generados y procesados para satisfacer las demandas y los desafíos que nos aguardan en el camino del crecimiento y desarrollo.

Variabilidad -Esto es un factor que puede ser un problema para aquellos que analizar los datos. Esto se refiere a la contradicción que puede ser demostrada por los datos a veces, dificultando así el proceso de ser capaz de manejar y administrar eficazmente los datos.

Veracidad -La calidad de los datos capturados puede variar grandemente. Exactitud del análisis depende de la veracidad de los datos de origen.

Complejidad -Gestión de datos puede convertirse en un proceso muy complejo, especialmente cuando grandes volúmenes de datos provienen de múltiples fuentes. Estos datos necesitan ser vinculado, conectados y correlacionados con el fin de poder captar la información que se supone para ser transportados por estos datos. Esta situación, por lo tanto, es denominado como la 'complejidad' de Big Data.

Mercado

Grandes datos ha aumentado la demanda de especialistas en gestión información en eso Software AG, Oracle Corporation, IBM, FICO, Microsoft, SAP, EMC, HP y Dell han pasado más de $ 15 billones a las empresas de software especializado en análisis y gestión de datos. En 2010, esta industria valía más de $ 100 billones y estaba creciendo a casi el 10 por ciento al año: sobre dos veces tan rápidamente como el negocio de software como un todo.[1]

Desarrollado las economías hacen un uso creciente de las tecnologías de uso intensivo de datos. Hay 4,6 billones suscripciones de telefonía móvil en todo el mundo y entre 1 billón y 2 billones de personas acceden a internet.[1] Entre 1990 y 2005, más de 1 billón de personas en todo el mundo entró en la clase media que significa más y más gente que gana dinero se convertirá en más culta que a su vez conduce al crecimiento de la información. Capacidad efectiva de todo el mundo para intercambiar información a través de telecomunicaciones redes era 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en el año 2000, 65 exabytes en el año 2007[8] y se predice que la cantidad de tráfico que fluye a través de internet llegará a 667 exabytes anuales para el año 2014.[1] Se estima que un tercio de la información almacenada en todo el mundo está en forma de texto alfanumérico y todavía datos de imagen,[50] cual es el formato más útil para aplicaciones de datos más grandes. Esto también muestra el potencial de datos aún no utilizados (por ejemplo, en la forma de contenido de audio y video).

Mientras que muchos proveedores ofrecen soluciones listas para usar para Big Data, los expertos recomiendan el desarrollo de soluciones internas a medida para resolver el problema de las empresas a mano si la empresa tiene suficientes capacidades técnicas.[51]

Arquitectura

En el año 2000, Seisint Inc. desarrolla C++ basado en archivos distribuido compartiendo marco para almacenamiento de datos y realizar consultas. Datos estructurados, semiestructurados o no estructurados se almacena y distribuidos a través de múltiples servidores. Consulta de datos se realiza mediante C++ modificado llamado ECL que utiliza aplica esquema sobre el método de lectura para crear la estructura de los datos almacenados durante el tiempo de consulta. En el año 2004 LexisNexis adquirido Seisint Inc.[52] y 2008 adquirió ChoicePoint, Inc.[53] y su paralelo de alta velocidad plataforma de procesamiento. Las dos plataformas se fusionaron en HPCC Sistemas y en 2011 fue abierta seleccionada bajo Apache v2.0 licencia. Actualmente HPCC y Quantcast filesystem[54] las plataformas sólo públicamente disponibles son capaces de analizar múltiples exabytes de datos.

En 2004, Google publicó un documento en un proceso llamado MapReduce utiliza una arquitectura de tal. El marco de MapReduce proporciona una modelo e implementación asociado a gran cantidad de proceso de datos de procesamiento paralelo. Con MapReduce, consultas son dividir y distribuidas a través de los nodos paralelos y procesadas en paralelo (el paso del mapa). Los resultados son entonces se reunieron y entregados (el paso de reducir). El marco era muy acertado,[55] otros querían replicar el algoritmo. Por lo tanto, una implementación del marco de MapReduce fue adoptada por un Apache llamado proyecto open source Hadoop.[56]

MIKE2.0 es un enfoque abierto para la gestión de la información que reconoce la necesidad de revisiones debido a implicaciones de datos grande en un artículo titulado "Big Data solución ofreciendo".[57] La metodología dirige a manejo de datos grande en términos de utilidad permutaciones de orígenes de datos, complejidad en las interrelaciones y dificultad para eliminar (o modificar) los registros individuales.[58]

Estudios recientes muestran que el uso de una arquitectura en capas múltiples es una opción para tratar con grandes datos. La arquitectura distribuida paralelo distribuye los datos en múltiples unidades de procesamiento y las unidades de procesamiento en paralelo proporcionan datos mucho más rápidos, mejorando la velocidad de procesamiento. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de frameworks MapReduce y Hadoop. Este tipo de marco parece para realizar la potencia de procesamiento transparente para el usuario final mediante un servidor de aplicaciones front-end.[59]

Tecnologías

Grande de datos requiere tecnologías excepcionales para procesar eficientemente grandes cantidades de datos dentro de plazos de tiempo transcurrido tolerables. UN 2011 McKinsey Informe[60] sugiere incluyen tecnologías adecuadas A / B pruebas, crowdsourcing, fusión de datos y integración, algoritmos genéticos, aprendizaje automático, procesamiento del lenguaje natural, procesamiento de señales, simulación, Análisis de series temporales y visualización. Datos multidimensionales grandes también pueden ser representados como tensores, que puede ser manejado más eficientemente por el cómputo basado en tensor,[61] tales como aprendizaje subespacial multilineal.[62] Tecnologías adicionales se aplica a grandes datos incluyen procesamiento masivo en paralelo (MPP) bases de datos, aplicaciones basadas en búsquedas, minería de datos, distribuye sistemas de archivos, bases de datos distribuidas, infraestructura basada en cloud (aplicaciones, almacenamiento de información y los recursos informáticos) e Internet.[citación necesitada]

Algunas pero no todas MPP bases de datos relacionales tienen la capacidad de almacenar y administrar petabytes de datos. Está implícita la capacidad de carga, monitorear, copia de seguridad y optimizar el uso de las tablas de datos de gran tamaño en la RDBMS.[63]

DARPAes Análisis de datos topológica el programa busca la estructura fundamental de grandes conjuntos de datos y en 2008 se hizo pública con el lanzamiento de una empresa llamada la tecnología Ayasdi.[64]

Los practicantes de procesos de análisis de datos grandes son generalmente hostiles a más lento almacenamiento compartido,[65] prefiriendo (), direct-attached storageDAS) en sus diversas formas de estado sólido conducir ()SSD) de alta capacidad SATA disco enterrado dentro de los nodos de procesamiento en paralelo. La percepción de las arquitecturas de almacenamiento compartido —Red de área de almacenamiento (SAN) y Almacenamiento de información conectado en red (NAS) — es que son relativamente lento, complejo y costoso. Estas cualidades no son coherentes con los sistemas de análisis de datos grande que medran en el rendimiento del sistema, la infraestructura de materias primas y bajo costo.

Entrega de información de tiempo real o casi real es una de las características definitorias de análisis de datos grande. Latencia es evitado por lo tanto, siempre y cuando sea posible. Datos de la memoria están buenos — datos sobre girando el disco en el otro extremo de una FC SAN No es la conexión. El costo de un SAN en la escala necesaria para aplicaciones analíticas es mucho mayor que otras técnicas de almacenamiento de información.

Hay ventajas así como desventajas para almacenamiento compartido en análisis de datos grande, pero practicantes de análisis datos grandes a partir de 2011 No lo favorecieron.[66]

Actividades de investigación

Formación búsqueda y racimo cifrada en grandes datos fue demostrada en marzo de 2014 en la sociedad americana de enseñanza de la ingeniería. Gautam Siwach comprometidos en Abordar los desafíos de Big Data por Ciencias de la computación MIT y del laboratorio de Inteligencia Artificial y el Dr. Amir Esmailpour en UNH Research Group investigado las características clave de datos grandes como formación de racimos y sus interconexiones. Se centraron en la seguridad de datos grandes y la orientación actual del término hacia la presencia de diferentes tipos de datos en un formato codificado en el interfaz de nube proporcionando el crudo definiciones y ejemplos de tiempo real dentro de la tecnología. Además, propusieron un enfoque para la identificación de la técnica de codificación para avanzar hacia una búsqueda acelerada sobre el texto cifrado conducen a las mejoras de seguridad en grandes datos.[67]

En marzo de 2012, la Casa Blanca anunció una "gran datos iniciativa nacional" que consistió en seis departamentos y agencias federales cometer más de $ 200 millones para proyectos de investigación de datos grande.[68]

La iniciativa incluye un National Science Foundation "Expediciones en computación" donación de $ 10 millones en 5 años a la AMPLab[69] en la Universidad de California, Berkeley.[70] El AMPLab también recibió fondos de DARPA, industrial de más de una docena patrocina y utiliza datos grandes para atacar una amplia gama de problemas de predicción de la congestión del tráfico[71] a la lucha contra el cáncer.[72]

La casa blanca gran iniciativa de datos también incluye un compromiso por parte del Departamento de energía para proporcionar $ 25 millones en fondos de más de 5 años para establecer la administración escalable de datos, análisis y visualización (SDAV) Institute,[73] dirigido por el Departamento de energía Lawrence Berkeley National Laboratory. El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades a desarrollar nuevas herramientas para ayudar a los científicos a gestionar y visualizar los datos sobre los superordenadores del departamento.

El estado norteamericano de Massachusetts anunció la iniciativa de datos grande de Massachusetts en mayo de 2012, que proporciona el financiamiento del gobierno del estado y empresas privadas a una variedad de instituciones de investigación.[74] El Massachusetts Institute of Technology alberga el Intel Science and Technology Center para Big Data en la Ciencias de la computación MIT y del laboratorio de Inteligencia Artificial, combinando, corporativos e institucionales financiamiento e investigación los esfuerzos del gobierno.[75]

La Comisión Europea está financiando a los 2 años de duración Gran foro público privado de datos a través de sus Séptimo programa marco a involucrar empresas, académicos y otros interesados en discutir los problemas de datos grande. El proyecto tiene como objetivo definir una estrategia de investigación e innovación para orientar acciones de apoyo de la Comisión Europea en la implementación exitosa de la economía de datos grande. Los resultados de este proyecto se utilizará como insumo para Horizonte 2020, su siguiente programa marco.[76]

El gobierno británico anunció en marzo de 2014 la Fundación de la Alan Turing Institute, nombre del pionero de la computadora y romper el código, que se centrará en nuevas formas de recogida y análisis de grandes conjuntos de datos.[77]

En el Campus de la Universidad de Waterloo Stratford Día de inspiración canadiense datos experiencia (código abierto), se demostró cómo utilizando técnicas de visualización de datos puede aumentar la comprensión y el atractivo de grandes conjuntos de datos con el fin de comunicar una historia al mundo.[78]

Para hacer la fabricación más competitivos en los Estados Unidos (y globo), hay una necesidad de integrar más americano ingenio e innovación en la fabricación; Por lo tanto, National Science Foundation ha otorgado la investigación cooperativa industrial Universidad Centro de sistemas inteligentes de mantenimiento (IMS) en Universidad de Cincinnati concentrarse en el desarrollo de avanzadas herramientas predictivas y técnicas aplicables en un entorno de datos grande.[79][80] En mayo de 2013, IMS centro celebraron una reunión de Junta Consultiva industria centrándose en grandes datos donde los presentadores de varias empresas industriales discuten sus inquietudes, problemas y metas para el futuro en el entorno de datos grande.

Computacional de las ciencias sociales — cualquiera puede utilizar programación de Interfaces de aplicaciones (API) proporcionados por los titulares de Big Data, tales como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento.[81] A menudo estas API son proporcionadas gratuitamente.[81] Tobias Preis et al. usado Google Trends datos que demuestran que los usuarios de Internet de países con un mayor producto interno bruto per cápita (PIB) son más propensos a buscar información sobre el futuro de la información sobre el pasado. Los resultados sugieren que puede haber un vínculo entre el comportamiento en línea y los indicadores económicos reales.[82][83][84] Los autores del estudio examinado Google consulta los registros hechos por cociente del volumen de búsquedas para el próximo año el volumen de búsquedas del año anterior ('2009'), ('2011') que llaman la 'Índice de orientación futura’.[85] Se comparó el índice de orientación futura para el PIB per cápita de cada país y encontró una fuerte tendencia para los países en que Google los usuarios investigar más sobre el futuro de exhibir un PIB más alto. El indicio de resultados que potencialmente puede existir una relación entre el éxito económico de un país y el comportamiento de búsqueda de información de sus ciudadanos capturados en grandes datos.

Tobias Preis y sus colegas Helen Susannah foso y H. Eugene Stanley introdujo un método para identificar los precursores en línea para los movimientos del mercado de valores, utilizando estrategias de trading basadas en datos de volumen de búsqueda proporcionados por Google Trends.[86] Su análisis de Google buscar volumen 98 términos de diversa importancia financiera, publicado en Informes científicos,[87] sugiere que aumentos en volumen de búsquedas para términos relevantes financieramente tienden a preceder a las grandes pérdidas en los mercados financieros.[88][89][90][91][92][93][94][95]

Aplicaciones

Fabricación

Basado en estudio de la tendencia de TCS 2013 Global, mejoras en el suministro de planificación y calidad del producto proporcionan el mayor beneficio de datos grandes para la fabricación.[96] Datos grandes proporcionan una infraestructura para la transparencia en la fabricación de la industria, que es la capacidad para desentrañar las incertidumbres como componente inconsistente performance y disponibilidad. Fabricación predictivo como enfoque aplicable a casi cero downtime y transparencia requiere gran cantidad de datos y herramientas de predicción avanzada para un proceso sistemático de los datos en información útil.[97] Un marco conceptual de predictivo fabricación comienza con la adquisición de datos donde está disponible para adquirir tales como acústica, vibración, presión, corriente, voltaje y controlador de datos de diferentes tipos de datos sensoriales. Gran cantidad de datos sensoriales además de datos históricos construir los grandes datos de fabricación. Los datos generados grandes actúa como la entrada en herramientas predictivas y estrategias preventivas tales como El pronóstico y gestión de la salud (MSP).[79]

Crítica

Críticas del paradigma datos grandes vienen en dos sabores, aquellos que cuestionan las implicaciones del enfoque de sí mismo y aquellos que cuestionan la forma en que se realiza actualmente.

Dibujos animados de crítica de la aplicación de datos grande, por T. Gregorius

Críticas del paradigma de datos grandes

"Un problema fundamental es que no sabemos mucho sobre los procesos micro-empíricos subyacentes que conducen a la aparición de las características de red típica [se] de Big Data".[15] En su crítica, Snijders, Matzat, y Reips señalan que se hacen a menudo muy fuertes suposiciones acerca de las propiedades matemáticas que en absoluto pueden reflejar lo que está pasando a nivel de procesos de micro. Mark Graham ha nivelado amplias críticas en Chris Andersonde afirmación datos grandes escribe al final de la teoría: centrándose en particular en la noción de datos grandes siempre tendrá que ser contextualizado en sus contextos sociales, económicos y políticos.[98] Aun cuando las empresas invierten sumas de figura de ocho y nueve para derivar el conocimiento de la información de proveedores y clientes de streaming en, menos del 40% de los empleados tienen procesos suficientemente maduros y las habilidades para hacerlo. Para superar este déficit de conocimiento, "big data", no importa cómo completa o bien analizada, debe complementarse con "gran juicio", según un artículo en la Harvard Business Review.[99]

Tanto en la misma línea, se ha señalado que las decisiones basadas en el análisis de datos grandes son inevitablemente "informadas por el mundo como era en el pasado, o, a lo mejor, como es actualmente".[48] Alimentado por una gran cantidad de datos de experiencias pasadas, algoritmos pueden predecir desarrollo futuro si el futuro es similar a la del pasado. Si la dinámica de los sistemas del cambio futuro, el pasado puede decir algo sobre el futuro. Para ello, sería necesario contar con un conocimiento exhaustivo de los sistemas dinámicos, que implica la teoría.[100] Como respuesta a esta crítica se ha sugerido combinar los datos grandes acercamientos con simulaciones por computadora, tales como modelos basados en agentes.[48] Modelos basados en agentes están mejorando cada vez más en predecir el resultado de la complejidad social de escenarios futuros incluso desconocidos a través de simulaciones por ordenador que se basan en una colección de algoritmos mutuamente interdependientes.[101][102] Además, el uso de métodos multivariados que sonda para la estructura latente de los datos, tales como análisis factorial y Análisis de conglomerados, han demostrado su utilidad como enfoques analíticos que van mucho más allá de los enfoques de bi-variante aleatoria (Cruz-tabs) típicamente empleados con conjuntos de datos más pequeños.

En biología y salud, enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, la limitante son los datos pertinentes que puedan confirmar o refutar la hipótesis inicial.[103] Ahora es aceptado un nuevo postulado en biociencias: la información proporcionada por los datos en grandes volúmenes (ómicas) sin hipótesis previa son complementario y a veces es necesario que los enfoques convencionales basados en experimentación. En los enfoques masivos es la formulación de una hipótesis relevante para explicar los datos que es el factor limitante. La lógica de búsqueda se invierte y los límites de la inducción ("gloria de la ciencia y la filosofía escándalo" C. D. amplio1926) debe ser considerado.

Privacidad los defensores están preocupados por la amenaza a la privacidad, representado por el aumento de almacenamiento de información e integración de información personal identificable; paneles de expertos han lanzado varias recomendaciones de política para conformar la práctica a las expectativas de privacidad.[104][105][106]

Críticas de ejecución de datos grandes

Datos grandes se ha llamado una "moda" en la investigación científica y su uso se hizo incluso divertido de como una práctica absurda en un ejemplo satírico en "datos de cerdo".[81] Investigador Danah boyd ha expresado su preocupación por el uso de datos grandes en ciencia descuidar principios tales como la elección de un muestra representativa por ser también preocupan realmente manejar las enormes cantidades de datos.[107] Este enfoque puede conducir a resultados sesgo en una forma u otra. Integración a través de recursos de datos heterogéneos — algo que pueda ser considerado "big data" y otros no — presenta enormes desafíos logísticos, así como analítico, pero muchos investigadores argumentan que tales integraciones están probables que representan las más prometedoras nuevas fronteras de la ciencia.[108] En el artículo provocador "Crítica preguntas para Big Data",[109] los autores título grande datos una parte del Mitología:: "grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de verdad, objetividad y exactitud". Los usuarios de datos grandes a menudo son "perdidos en el enorme volumen de números" y "trabajar con Big Data es todavía subjetiva y lo cuantifica no tiene necesariamente un reclamo más cercano a la verdad objetiva".[109] Los acontecimientos recientes en el dominio de BI, como informes proactivos especialmente apunten a mejoras en la usabilidad de Big Data, a través de filtrado automatizado de correlaciones y datos no es útil.[110]

Análisis de datos grande es a menudo superficial en comparación con el análisis de conjuntos de datos más pequeños.[111] En muchos proyectos de datos grande, no hay ningún análisis de datos de gran tamaño pasando, pero el reto es la extraer, transformar, carga parte de preprocesamiento de datos.[111]

Grandes datos están un Palabra de moda y un "término vago",[112] Pero al mismo tiempo una "obsesión"[112] con empresarios, consultores, los científicos y los medios de comunicación. Vitrinas de datos grandes tales como Gripe de Google Trends No se pudo entregar buenas predicciones en los últimos años, exagerando los brotes de gripe por un factor de dos. Del mismo modo, Premios de la Academia y las predicciones electorales únicamente basadas en Twitter más a menudo que en el objetivo. Datos grandes a menudo plantea los mismos desafíos que datos pequeños; y agregando más datos no soluciona los problemas de sesgo, pero puede destacar otros problemas. En particular las fuentes de datos como Twitter no son representativos de la población total, y resultados extraídos de estas fuentes entonces pueden conducir a conclusiones erróneas. Google Translate -que se basa en el análisis estadístico de datos grande de texto - hace un muy buen trabajo en traducir páginas web, pero para los dominios especializados los resultados pueden ser mal apagado. Por otro lado, grandes datos pueden también introducir nuevos problemas, tales como la problema de comparaciones múltiples:: prueba simultáneamente un gran conjunto de hipótesis es probable que producen muchos resultados falsos que erróneamente parecen ser significativas. Ioannidis argumentó que "la mayoría resultados de investigaciones publicadas son falsos" [113] debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores cada realizan muchos experimentos (es decir, procesar una gran cantidad de datos científicos; aunque no con la tecnología de datos grande), la probabilidad de un resultado "significativo" en realidad falsos crece rápido - incluso más aún, cuando resultados positivos sólo se publican.

Véase también

Portal icon Portal de tecnología de información
  • Apache Accumulo
  • Apache Hadoop
  • Big Data al conocimiento
  • Estructura grande
  • Datos definición del almacenaje
  • Barrica (empresa)
  • Cloudera
  • HPCC Sistemas
  • Internet de las cosas
  • MapReduce
  • Hortonworks
  • Identificación de sistemas no lineales
  • Investigación de operaciones
  • Programación con grandes datos en R (una serie de R paquetes)
  • Sqrrl
  • Supercomputadora
  • Juegos de Transreality
  • Espacio de tupla
  • Datos no estructurados

Referencias

  1. ^ a b c d e f "Datos, en todas partes". El economista. 25 de febrero de 2010. 09 de diciembre de 2012.
  2. ^ "Inteligencia comunidad necesaria". Naturaleza 455 (7209): 1. 04 de septiembre de 2008. Doi:10.1038/455001a.
  3. ^ "Sandia ve datos Gestión desafíos espiral". Proyectos de HPC. 04 de agosto de 2009.
  4. ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Retos y oportunidades de datos abiertos en ecología". Ciencia 331 (6018): 703 – 5. Doi:10.1126/science.1197962. PMID21311007.
  5. ^ "Datos aplastar por Christopher Surdak". 14 de febrero de 2014.
  6. ^ Hellerstein, Joe (09 de noviembre de 2008). "Paralelo de programación en la edad del Big Data". GigaOM Blog.
  7. ^ Segaran, Toby; Hammerbacher, Jeff (2009). Hermosas datos: Las historias detrás de las soluciones de datos elegante. O ' Reilly Media. p. 257. ISBN978-0-596-15711-1.
  8. ^ a b Hilbert y López 2011
  9. ^ "¿Qué es big data de IBM? — Trayendo grandes datos a la empresa ". www.IBM.com. 2013-08-26.
  10. ^ "Big Data de la velocidad de negocios - ¿qué es big data?". www.IBM.com. 23 / 11 / 2014 obtenido.
  11. ^ "Los cuatro Vs de Big Data". www.IBM.com. 23 / 11 / 2014 obtenido.
  12. ^ Oracle y FSN, "Big Data de masterización: CFO estrategias para transformar la visión de oportunidad", De diciembre de 2012
  13. ^ Jacobs, A. (06 de julio de 2009). "Las patologías del Big Data". ACMQueue.
  14. ^ Magoulas, Roger; Lorica, Ben (febrero de 2009). "Introduction to Big Data". Versión 2.0 (Sebastopol CA: o ' Reilly Media) (11).
  15. ^ a b Snijders, C.; Matzat, U.; Reips, U. D. (2012). "'Big Data': grandes lagunas de conocimiento en el ámbito de Internet ". Revista Internacional de ciencia de Internet 7:: 1 – 5.
  16. ^ Ibrahim Abaker Targio Hashem Ibrar Yaqoob, Nor Badrul Anuar, Salimah Mokhtar, Abdullah Gani, Sami Ullah Khan, el surgimiento de "big data" en la nube informática: revisión e investigación abierta cuestiones, sistemas de información, volumen 47, enero de 2015, páginas 98-115, ISSN 0306-4379, https://DX.Doi.org/10.1016/j.is.2014.07.006
  17. ^ Laney, Douglas. "Gestión de datos 3D: control de volumen de datos, la velocidad y variedad". Gartner. 06 de febrero de 2001.
  18. ^ Beyer, Mark. "Gartner dice que resolución de 'Big Data' desafío implica más que administrar volúmenes de datos". Gartner. Programa archivado de la original en 10 de julio de 2011. 13 de julio de 2011.
  19. ^ Laney, Douglas. "La importancia de 'Big Data': una definición". Gartner. 21 de junio de 2012.
  20. ^ "¿Qué es Big Data?". Universidad de Villanova.
  21. ^ https://www.bigdataparis.com/Presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#Page= 4
  22. ^ a b Billings S.A. "identificación de sistemas no lineales: métodos NARMAX en el tiempo, frecuencia y dominios espacio-temporales". Wiley, 2013
  23. ^ Delort P., Big data París 2013 https://www.andsi.fr/Tag/DSi-Big-Data/
  24. ^ Delort P., coche Big Data datos de baja densidad. Discriminante de la facteur la faible densité at información comme https://lecercle.lesechos.fr/Entrepreneur/tendances-Innovation/221169222/Big-Data-low-density-Data-faible-Densite-Information-com
  25. ^ "Folleto del LHC, versión en inglés. Una presentación de los más grandes y el acelerador de partículas más poderoso del mundo, el gran Hadron Collider (LHC), que puso en marcha en 2008. Su papel, características, tecnologías, etc. se explican por el público en general.". Folleto LHC del CERN-Brochure-2010-006-Ing., versión en inglés. CERN. 20 de enero de 2013.
  26. ^ "Guía del LHC, versión en inglés. Una colección de hechos y cifras sobre los grandes Hadron Collider (LHC) en forma de preguntas y respuestas".. Guía LHC del CERN-Brochure-2008-001-Ing., versión en inglés. CERN. 20 de enero de 2013.
  27. ^ Brumfiel, Geoff (19 de enero de 2011). "Física de alta energía: por la autopista petabyte". Naturaleza 469. págs. 282 – 83. Doi:10.1038/469282a.
  28. ^ https://www.Zurich.IBM.com/pdf/Astron/CeBIT%202013%20Background%20DOME.pdf
  29. ^ https://arstechnica.com/Science/2012/04/Future-Telescope-Array-drives-Development-of-Exabyte-Processing/
  30. ^ Delort P., OCDE ICCP Technology Foresight Forum, 2012. https://www.oecd.org/Sti/ieconomy/Session_3_Delort.pdf#Page= 6
  31. ^ Webster, Phil. "El clima de supercomputación: misión de la NASA Big Data". CSC World. Computer Sciences Corporation. 2013-01-18.
  32. ^ Kalil, Tom. "Big Data es una gran cosa". Casa blanca. 26 de septiembre de 2012.
  33. ^ Oficina Ejecutiva del Presidente (marzo de 2012). "Big Data a través del Gobierno Federal". Casa blanca. 26 de septiembre de 2012.
  34. ^ Lampitt, Andrew. "La verdadera historia de cómo big data analytics ayudaron a Obama ganar". InfoWorld. 31 de mayo de 2014.
  35. ^ Hoover, Nicholas j. "Del gobierno 10 superordenadores más potentes". Semana de información. UBM. 26 de septiembre de 2012.
  36. ^ Bamford, James (15 de marzo de 2012). "La NSA está construyendo el mayor centro de espionaje del país (ver lo que dicen)". Revista Wired. 2013-03-18.
  37. ^ "Ceremonia celebrada por $ 1,2 billones Utah centro de datos". Servicio de seguridad Central de la Agencia de seguridad nacional. 2013-03-18.
  38. ^ Hill, Kashmir. "TBlueprints ridículamente caro de la NSA centro de datos en Utah sugieren que posee menos información que pensaba". Forbes. 31 / 10 / 2013 obtenido.
  39. ^ "Noticias: menta en vivo". ¿Las empresas indias están haciendo suficiente sentido de Big Data?. Menta - en vivo https://www.Livemint.com/. 23 / 06 / 2014. 22 / 11 / 2014 obtenido.
  40. ^ Layton, Julia. "Tecnología de la Amazonia". Money.howstuffworks.com. 2013-03-05.
  41. ^ "Escalar Facebook a 500 millones de usuarios y más allá". Facebook.com. 21 / 07 / 2013 obtenido.
  42. ^ "FICO ® ® Falcon Fraud Manager". Fico.com. 21 / 07 / 2013 obtenido.
  43. ^ "estudio de eBay: Cómo construir confianza y mejorar la experiencia de compras". Knowwpcarey.com. 2012-05-08. 2013-03-05.
  44. ^ Prioridades principales para Big Data para el negocio y. eMarketer. Octubre de 2013. Obtenido de enero de 2014.
  45. ^ Wingfield, Nick (2013-03-12). "Predecir con mayor precisión desplazamientos para los posibles compradores - NYTimes.com". Bits.blogs.nytimes.com. 21 / 07 / 2013 obtenido.
  46. ^ UN pulso GLobal (2012). Big Data para el desarrollo: oportunidades y desafíos (p. blanco por Letouzé, E.). Nueva York: Naciones Unidas. Obtenido de https://www.unglobalpulse.org/projects/BigDataforDevelopment
  47. ^ WEF (World Economic Forum) y consultoría de onda Vital. (2012). big Data, gran impacto: nuevas posibilidades para el desarrollo internacional. Foro Económico Mundial. Obtenido el 24 de agosto de 2012, de https://www.weforum.org/reports/Big-Data-Big-Impact-New-Possibilities-International-Development
  48. ^ a b c d "Big Data para el desarrollo: de la información-a las sociedades del conocimiento"Martin Hilbert (2013), SSRN papel académico nº ID 2205145). Rochester, NY: red de investigación de ciencias sociales; https://Papers.SSRN.com/abstract=2205145
  49. ^ "Elena Kvochko, cuatro maneras para hablar acerca de Big Data (tecnologías de la comunicación de información para el desarrollo de la serie)". worldbank.org. 2012-05-30.
  50. ^ "¿Cuál es el contenido de todo el mundo tecnológicamente mediada por información y capacidad de comunicación: Cuánto texto, imagen, Audio y Video?", Martin Hilbert (2014), La sociedad de la información; libre acceso al artículo a través de este enlace: martinhilbert.net/WhatsTheContent_Hilbert.pdf
  51. ^ Rajpurohit, Anmol (2014-07-11). "Entrevista: Amy Gershkoff, Director de Customer Analytics & Insights, eBay sobre cómo BI herramientas internas de diseño personalizado". KDnuggets. 14 / 07 / 2014 obtenido. "El Dr. Amy Gershkoff:"en general, me parece que herramientas de inteligencia de negocio estándar no cumplen con las necesidades de los clientes que deseen derivar penetraciones personalizados de sus datos. Por lo tanto, para las organizaciones medianas y grandes con acceso a talento técnico fuerte, generalmente recomiendo construir soluciones personalizadas, en casa.""
  52. ^ "LexisNexis para comprar Seisint $ 775 millones". Washington Post. 15 de julio de 2004.
  53. ^ "Los padres LexisNexis Set to ChoicePoint compra". Washington Post. 22 de febrero de 2008.
  54. ^ "Quantcast abre filesystem Exabyte-Ready". www.datanami.com. 01 de octubre de 2012.
  55. ^ Bertolucci, Jeff "Hadoop: de experimento para Big Data plataforma líder", "Information Week", 2013. Recuperado encendido 14 de noviembre de 2013.
  56. ^ Webster, John. "MapReduce: simplificar el procesamiento de datos en grandes grupos", "La búsqueda de almacenamiento", 2004. Recuperado encendido 25 de marzo de 2013.
  57. ^ "Ofrenda de solución big Data". MIKE2.0. 08 de diciembre de 2013.
  58. ^ "Definición de big Data". MIKE2.0. 09 de marzo de 2013.
  59. ^ Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "Paralela arquitectura distribuida para Big Data". Informatica Economica 16 (2): 116 – 127.
  60. ^ Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (mayo de 2011). Big Data: La próxima frontera para la innovación, la competencia y la productividad. McKinsey Global Institute.
  61. ^ "Direcciones futuras en Computación basada en Tensor y modelado". De mayo de 2009.
  62. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "Una encuesta de aprendizaje multilineal subespacial para Tensor de datos". Reconocimiento de patrones 44 (7): 1540 – 1551. Doi:10.1016/j.patcog.2011.01.004.
  63. ^ Monash, Curt (30 de abril de 2009). "dos enormes data warehouses de eBay".
    Monash, Curt (06 de octubre de 2010). "eBay seguimiento — Greenplum hacia fuera, Teradata > 10 petabytes, Hadoop tiene algún valor y más".
  64. ^ "Recursos sobre cómo análisis topológico de datos se utiliza para analizar datos grandes". Ayasdi.
  65. ^ Noticias de CNET (01 de abril de 2011). "Redes de área de almacenamiento no es necesitan aplicar".
  66. ^ "Cómo nueva voluntad sistemas analíticos impacto almacenamiento". De septiembre de 2011.
  67. ^ https://ASEE-ne.org/Proceedings/2014/Student%20Papers/210.pdf Marzo de 2014.
  68. ^ "La administración Obama presenta"Big Data"iniciativa: anuncia $ 200 millones en Nueva R & D inversiones". La casa blanca.
  69. ^ "AMPLab de la Universidad de California, Berkeley". Amplab.cs.Berkeley.edu. 2013-03-05.
  70. ^ "NSF lidera los esfuerzos federales en Big Data". National Science Foundation (NSF). 29 de marzo de 2012.
  71. ^ Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel; Alexandre Bayen (octubre de 2011). "Escalar el sistema móvil del Milenio en la nube".
  72. ^ David Patterson (05 de diciembre de 2011). "Científicos de la computación pueden tener lo que se necesita para ayudar a curar el cáncer". El New York Times.
  73. ^ "Secretario Chu anuncia nuevo Instituto para ayudar a científicos mejoran la investigación de conjunto de datos masivos en supercomputadoras DOE". "energy.gov".
  74. ^ "El Gobernador Patrick anuncia nueva iniciativa para fortalecer la posición de Massachusetts como un líder mundial en Big Data". Estado de Massachusetts.
  75. ^ "Big Data @ CSAIL". 22 / 02 / 2013 BigData.CSAIL.mit.edu.. 2013-03-05.
  76. ^ "Gran foro de datos público privado". 01-09-2012 CORDIS.Europa.eu.. 2013-03-05.
  77. ^ "Alan Turing Instituto debe ser hasta grandes datos de la investigación". Noticias de BBC. 19 de marzo de 2014. 19 / 03 / 2014 obtenido.
  78. ^ "Día de la inspiración de la Universidad de Waterloo, Stratford Campus". https://www.betakit.com/. 28 / 02 / 2014 obtenido.
  79. ^ a b "Centro de sistemas inteligentes de mantenimiento (centro de IMS)".
  80. ^ Lee, Jay; Lapira, Edzel; Bagheri, Behrad; Kao, Hung-An (2013). "Los recientes avances y las tendencias en los sistemas de fabricación predictivo en entorno de datos grande". Fabricación de Letras 1 (1). Doi:10.1016/j.mfglet.2013.09.005.
  81. ^ a b c Reips, Ulf-Dietrich; Matzat, Uwe (2014). "Minería"Big Data"utilizando los servicios de datos grande". Revista Internacional de ciencia de Internet 1 (1): 1 – 8.
  82. ^ Preis, Tobias; Foso,, Helen Susannah; Stanley, Eugene H.; Obispo, Steven R. (2012). "Cuantificación de la ventaja de mirar hacia adelante". Informes científicos 2:: 350. Doi:10.1038/srep00350. PMC3320057. PMID22482034.
  83. ^ Marcas, Paul (05 de abril de 2012). "Las búsquedas en línea de futuro ligado al éxito económico". New Scientist. 09 de abril de 2012.
  84. ^ Johnston, Casey (06 de abril de 2012). "Google Trends revela pistas acerca de la mentalidad de las naciones más ricas". Ars Technica. 09 de abril de 2012.
  85. ^ Tobias Preis (24 / 05 / 2012). "Información complementaria: el índice de orientación de futuro está disponible para descargar". 2012-05-24.
  86. ^ Philip Ball (26 2013 de abril de). "Conteo de búsquedas en Google predice los movimientos del mercado". Naturaleza. 09 de agosto de 2013.
  87. ^ Tobias Preis, Helen Susannah foso y H. Eugene Stanley (2013). "Cuantificación de comportamiento en los mercados financieros usando Google Trends de comercio". Informes científicos 3:: 1684. Doi:10.1038/srep01684.
  88. ^ Nick Bilton (26 de abril de 2013). "Los términos de búsqueda de Google pueden predecir el mercado de valores, hallazgos del estudio". New York Times. 09 de agosto de 2013.
  89. ^ Christopher Matthews (26 de abril de 2013). ¿"Problemas con su cartera de inversiones? Google It!". Revista TIME. 09 de agosto de 2013.
  90. ^ Philip Ball (26 de abril de 2013). "Conteo de búsquedas en Google predice los movimientos del mercado". Naturaleza. 09 de agosto de 2013.
  91. ^ Bernhard Warner (25 de abril de 2013). "'Big Data' investigadores recurrir a Google para vencer a los mercados ". Bloomberg Businessweek. 09 de agosto de 2013.
  92. ^ Hamish McRae (28 de abril de 2013). ¿"Hamish McRae: necesita un mango valioso el sentimiento de los inversores? Google se ". La independiente (Londres). 09 de agosto de 2013.
  93. ^ Richard Waters (25 de abril de 2013). "La búsqueda de Google demuestra para ser palabra nueva en la predicción de mercado de valores". Financial Times. 09 de agosto de 2013.
  94. ^ David Leinweber (26 de abril de 2013). "Big Data se hace más grande: ahora Google Trends pueden predecir el mercado". Forbes. 09 de agosto de 2013.
  95. ^ Jason Palmer (25 de abril de 2013). "Búsquedas en Google predicen movimientos de mercado". BBC. 09 de agosto de 2013.
  96. ^ "Fabricación: datos grandes beneficios y desafíos". TCS Big Data estudio. Bombay, India: Tata Consultancy Services Limited. 2014-06-03.
  97. ^ Lee, Jay; Wu, f el.; Zhao, w el.; Ghaffari, M.; Liao, L (Jan de 2013). "El pronóstico y salud gestión de diseño para sistemas de maquinaria rotativa — comentarios, metodología y aplicaciones". Sistemas mecánicos y procesamiento de señal 42 (1).
  98. ^ M. Graham (09 de marzo de 2012). "Big data y el fin de la teoría?". El guardián (Londres).
  99. ^ "Buenos datos no garantizan las buenas decisiones. Harvard Business Review". Shah, Shvetank; Horne, Andrew; Capellá, Jaime;. HBR.org. 08 de septiembre de 2012.
  100. ^ Anderson, C. (2008, 23 de junio). Al final de la teoría: el diluvio de datos hace obsoleto el método científico. Wired Magazine, (ciencia: descubrimientos). https://www.Wired.com/Science/Discoveries/Magazine/16-07/pb_theory
  101. ^ Rauch, J. (2002). Ver alrededor de las esquinas. El Atlántico, (abril), 35 – 48. https://www.TheAtlantic.com/Magazine/Archive/2002/04/seeing-around-Corners/302471/
  102. ^ Epstein, J. M. & Axtell, r. L. (1996). Las sociedades artificiales crecientes: las ciencias sociales desde abajo hacia arriba. Un libro de Bradford.
  103. ^ Delort P., Big data en biociencias, Big Data París, 2012 https://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#Page= 5
  104. ^ Ohm, Paul. "No construir una base de datos de la ruina". Harvard Business Review.
  105. ^ Darwin Bond-Graham, Hierro Cagebook - el fin lógico de las patentes de Facebook, Counterpunch.org, 2013.12.03
  106. ^ Darwin Bond-Graham, Dentro de inicio Conferencia de la industria de tecnología, Counterpunch.org, 2013.09.11
  107. ^ Danah boyd (29 / 04 / 2010). "Privacidad y publicidad en el contexto del Big Data". Conferencia WWW 2010. 2011-04-18.
  108. ^ Jones, MB; Schildhauer, MP; Reichman, do; Bowers, S (2006). "El nuevo Bioinformática: integración de datos ecológicos del gen de la Biosfera" (PDF). Revisión anual de ecología, evolución y sistemática 37 (1): 519 – 544. Doi:10.1146/annurev.ecolsys.37.091305.110031.
  109. ^ a b Boyd, D.; Crawford, K. (2012). "Preguntas críticas para Big Data". Información, comunicación y sociedad 15 (5): 662. Doi:10.1080/1369118X.2012.678878. editar
  110. ^ Falta de lanzamiento: de datos grandes a las grandes decisiones, Mercancías forte.
  111. ^ a b Gregory Piatetsky (2014-08-12). "Entrevista: Michael Berthold, fundador KNIME, en la investigación, creatividad, Big Data y privacidad, Part 2". KDnuggets. 13 / 08 / 2014 obtenido.
  112. ^ a b Harford, Tim (28 / 03 / 2014). "Big data: estamos haciendo un gran error?". Financial Times. Financial Times. 2014-04-07.
  113. ^ Ioannidis, J. P. A. (2005). "Por qué más resultados de investigaciones publicadas son falsos". PLoS Medicine 2 (8): e124. Doi:10.1371/Journal.PMED.0020124. PMC1182327. PMID16060722. editar

Lectura adicional

  • Big Data computación y nubes: desafíos y soluciones futuras direcciones. D. Marcos Assuncao, Rodrigo N. Calheiros, Silvia Bianchi, Marco A. S. Netto, Rajkumar Buyya. Informe técnico nubes-TR-2013-1, Cloud Computing y distribuye laboratorio de sistemas, la Universidad de Melbourne, 17 de diciembre de 2013.
  • Cifrado formación búsqueda y agrupados en Big Data. Gautam Siwach, Dr. A. Esmailpour. American Society for Engineering Education, conferencia en la Universidad de Bridgeport, Bridgeport, Connecticut 3 – 5 de abril de 2014.
  • "Big Data para siempre". ODBMS.org. 05 de junio de 2012. 2013-11-12.
  • Hilbert, Martin; López, Priscila (2011). "La capacidad del mundo tecnológico a tienda, comunicar y computar información". Ciencia 332 (6025): 60 – 65. Doi:10.1126/science.1200970. PMID21310967.
  • "The Rise of Industrial Big Data". GE Intelligent Platforms. 2013-11-12.
  • Historia del Big Data Timeline. Una historia visual del Big Data con enlaces a artículos de apoyo.

Enlaces externos

  • Los medios de comunicación relacionados con la Datos de grandes en Wikimedia Commons
  • La definición del diccionario de datos de grandes en Wikcionario

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Big_data&oldid=635782603"