Hablar del concepto de Big Data es una tarea demasiado ambiciosa para un solo artículo, pero esta tecnología está de moda y no podemos abstraernos a su importancia. No sólo se circunscribe a las áreas tecnológicas de las compañías, sino que conecta directamente con las áreas de negocio y toma de decisiones, por lo que el Big Data está cobrando una gran importancia en los últimos tiempos. Los perfiles de especialistas en Big Data se están demandando cada vez más en el mercado laboral, aunque muchas veces las compañías no tienen muy claras las expectativas a la hora de solicitarlos, porque piden conocimientos en diferentes productos (a veces incluso contradictorios) y con muchos años de experiencia, sin darse cuenta de que es materialmente imposible encontrar perfiles con muchos años de experiencia en un área tan joven como esta.  Los administradores de sistemas y los desarrolladores aprenden a marchas forzadas, pero sobre todo surgen nuevas oportunidades laborales para otros grupos profesionales, especialmente matemáticos y estadísticos, que son los que mejor pueden explotar esta tecnología. Para obtener resultados óptimos es necesario saber lo que estamos buscando y aplicar análisis estadísticos complejos. La informática es un medio, mientras que el fin del Big Data es la toma de decisiones estratégicas.

“Surgen nuevas oportunidades laborales para otros grupos profesionales, especialmente matemáticos y estadísticos, que son los que mejor pueden explotar esta tecnología.”

¿Qué es Big Data y qué no lo es?

20161127_bigdatachiste2Big Data no se refiere necesariamente a bases de datos gigantes. Ni siquiera estamos refiriéndonos a bases de datos en el sentido tradicional (relacionales) con estructura y contenidos organizados que deban mantenerse en el tiempo. Surgen otras formas de proceso de la información: bases de datos noSQL, etc… La realidad es que cada vez se generan más datos, de procedencias dispares y a mayor velocidad. Internet es la principal fuente de datos, por la automatización de sistemas, la ubicuidad y la creciente generación de contenidos por parte de los usuarios.

Por tanto, cuando hablamos de Big Data no nos estamos refiriendo al tipo de información que una empresa necesita almacenar para llevar a cabo su operativa habitual. Un ERP no es Big Data, aunque pueda ser de “gran tamaño”. El concepto de Big Data es más cualitativo: se refiere a información “finalista”, que se recoge para llevar a cabo su análisis con un objetivo concreto.

Frente al enfoque tradicional de los Datawarehouse o “centros de datos”, en los que la información tiene que almacenarse virtualmente para siempre y con total precisión, los sistemas de Big Data son limitados en el tiempo. Se suele establecer una rotación en la información recogida, de manera que, una vez que pasa un tiempo o se alcanza un límite de tamaño predefinido, los datos se sobreescriben para poder seguir procesando información y generando “outputs”. La eficiencia está en ser capaces de analizar los datos existentes a gran velocidad, con el fin de obtener patrones o tendencias en los mismos.

20161127_esquema_cloudera_hadoop

El cambio de paradigma.

El concepto de Big Data supone un cambio de paradigma. En los últimos tiempos se ha reducido drásticamente el precio del almacenamiento, pasando de estar en torno a $157 por GB en 1997 hasta los $0,03 $ actuales. Pero las tasas de transferencia de los discos no han mejorado al mismo ritmo. Los sistemas tradicionales han crecido en potencia de procesamiento de las CPUs, convirtiéndose en grandes servidores “High End”, en los que el cuello de botella está en los accesos a disco (de ahí la necesidad de dotarlos de sofisticados y caros sistemas de acceso a datos, switches de fibra óptica como Infiniband, etc…). El precio de estos sistemas se dispara exponencialmente a medida que crece su tamaño, y con ello la necesidad de garantizar su fiabilidad y disponibilidad.

“Hablamos de clústers de muchos sistemas de mediano tamaño con sistemas de ficheros distribuidos y escalables (como Hadoop HDFS).”

El nuevo concepto de Big Data está marcado por la escalabilidad. En lugar de utilizar unos pocos servidores de gran tamaño para procesar la información, hablamos de clústers de muchos sistemas de mediano tamaño con sistemas de ficheros distribuidos y escalables (como Hadoop HDFS). Esto permite que el dato no tenga que viajar, sino que sea procesado por la propia máquina en que se almacena. El trabajo en paralelo de muchos sistemas y el uso extensivo de memoria RAM en lugar de disco (con una velocidad de acceso muy superior) nos permiten mejorar drásticamente la velocidad de proceso y la utilización de complejas técnicas matemáticas para la extracción de conclusiones.

20161127_bigdatachiste

Las Herramientas

20161127_logo_hortonLa flexibilidad y agilidad del mundo del software libre hace que hayan surgido infinidad de herramientas orientadas a la captura y procesamiento de información. Algunas de ellas están agrupadas en productos comerciales, como los entornos de Cloudera Hadoop o Hortonworks. A modo de ejemplo, estas serían algunas de las herramientas del ecosistema Cloudera:

20161127_logo_cloudera_hadoop1– Lenguaje de procesamiento de datos: Spark
– Sistemas de análisis e interfaces SQL: Hive, Pig, Impala
– Data discovery: Solr (Cloudera Search)
– Machine learning: MLlib, Mahout y otros.
– Ingestas de datos: Sqoop, Flume, Kapa
– Coordinación de sistema: ZooKeeper
– Interfaz de usuario: Hue
– Gestión de Workflow: Oozie
– Gestión del Cluster: Cloudera Manager

Pero no es nuestro objetivo entrar en profundidades técnicas en este artículo. Quizá más adelante…

20161127_cloudera_manager

Algunas claves a modo de resumen:

  • Big Data nos proporciona herramientas para adquirir y procesar grandes volúmenes de información en un limitado espacio de tiempo, lo que nos permite obtener conclusiones y tendencias útiles para realizar acciones de marketing o tomar decisiones de negocio.
  • Frente a la necesidad tradicional de registrar datos con precisión, el concepto de big data se basa en la recopilación de grandes volúmenes de datos sin que prime la exactitud de los mismos. Se asume que los errores pueden existir; importa más conocer las tendencias que el detalle de los datos.
  • Frente a la estrategia habitual de optimizar los recursos de almacenamiento, el concepto de Big Data parte de la base de que el almacenamiento es barato; no es un factor limitante. En principio nos interesa recoger toda la información posible; ya veremos más adelante si se utiliza y de qué manera.
  • La escalabilidad consiste en tener muchos sistemas en paralelo, llevando la capacidad de procesamiento al equipo en el que se encuentre el dato, en lugar de hacer múltiples accesos al disco para lecturas y escrituras.

“En principio nos interesa recoger toda la información posible; ya veremos más adelante si se utiliza y de qué manera.”

Referencias:

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies