¿Qué es Big Data?

[Fuente: http://www-03.ibm.com/software/products/es/category/SWP10?csr=emes_swes-20140313&cm=k&cr=google&ct=103GN0IW&S_TACT=103GN0IW&cmp=103GN&mkwid=smQjEGuMM-dc_34811400872_432dhv5077&ck=what%20is%20big%20data]

Cada día creamos 2,5 trillones de bytes de datos, tanto que el 90% de los datos en todo el mundo se ha creado tan solo en los últimos dos años. Estos datos provienen de todas partes: sensores utilizados para recopilar información sobre el clima, publicaciones en sitios de redes sociales, imágenes digitales y vídeos, registros de transacciones de compra y señales GPS de teléfono móvil, por nombrar unas pocas. Estos datos se llaman big data.

Big data abarca tres dimensiones: Volumen, velocidad y variedad.

  • Volumen: las empresas están cubiertas de una cantidad cada vez mayor de datos de todo tipo, acumulando fácilmente terabytes, incluso petabytes, de información.
  • Velocidad: a veces 2 minutos es demasiado tarde. En los procesos en los que el tiempo cuenta como descubrir fraudes, los grandes volúmenes de datos deben utilizarse como una corriente en su empresa para maximizar el valor.
  • Variedad: los grandes volúmenes de datos incluyen cualquier tipo de datos, estructurados y no estructurados como texto, datos de sensores, audio, vídeo, secuencias de clic o archivos de registro, entre otros. Al analizar estos datos juntos se encuentra información nueva.

Los grandes volúmenes de datos no es solo cuestión de tamaño, es una oportunidad de extraer conocimiento de tipos de datos y contenido nuevos y emergentes, para agilizar el negocio y responder a preguntas que antes consideraba fuera de su alcance. Hasta ahora, no había ninguna manera práctica de explotar esta oportunidad.

Big Data (del idioma inglés grandes datos1 2 ) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento,3 búsqueda, compartición, análisis,4 y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado.5

El límite superior de procesamiento se ha ido desplazando a lo largo de los años, de esta forma los límites que estaban fijados en 2008 rondaban los órdenes de petabytes a zettabytes de datos.6 Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,7 la conectómica, las complejas simulaciones de procesos físicos,8 y las investigaciones relacionadas con los procesos biológicos y ambientales,9 Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency identification.10 11 La capacidad tecnológica per-cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años ochenta.12 Se estima que en 2012 cada día fueron creados cerca de 2,5 trillones de bytes de datos (del inglés quintillion, 2.5×1018).13

Definición[editar]

“Big data” es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del “big data” se hallan constantemente en aumento. En 2012 se dimensionaba su tamaño en una docena de terabytes hasta varios petabytes de datos en un único data set. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

En 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,14 el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando big data como referencia de este.15 Además, grandes proveedores del mercado de big data están desarrollando soluciones para atender las demandas más críticas de procesamiento de datos masivos, como MapR, Cyttek Group y Cloudera.