Inicio > Herramientas Big Data para este 2018

Herramientas Big Data para este 2018

Recurso artículo | Big data | 4 minutos de lectura


Ramón Pin Mancebo
Data engineer

Hoy en día, la variedad de herramientas Big Data a utilizar es muy extensa. Esto hace que acercarse al mundo del Big Data pueda resultar intimidante cuanto menos. Decidir qué software utilizar a la hora de definir nuestra arquitectura requiere mucho cuidado y planificación. Pero entonces, ¿Cuáles son las herramientas en las que debería centrar mi atención? Sería muy difícil responder a esta pregunta de forma general pero podemos al menos hacer un listado de las 7 herramientas Big Data que deberíamos conocer para que nuestro aterrizaje en este mundo sea lo más seguro posible.

7 herramientas Big Data que deberías conocer

1. Apache Hadoop

Es el principio de todo y el punto en el que se apoyan otras soluciones enfocadas a Big Data. El sistema de almacenamiento distribuido de ficheros HDFS y el gestor de recursos YARN son sus componentes principales. Incluye también una implementación del sistema de procesamiento MapReduce que hace uso de YARN para la distribución de las tareas. Es una herramienta cuyo conocimiento es indispensable para todo aquél que quiera adentrarse en este mundo.
Usado en Yahoo!, Amazon y de una u otra manera por todos los demás.

2. Apache Spark

Es uno de los chicos grandes. Es una herramienta de procesamiento distribuido de datos en batch y tiempo real con una API unificada para ambos modelos. Desde su llegada al ecosistema en 2014 Spark ha ganado cada día más y más adeptos. Todo recién llegado debería profundizar en su uso. Su único inconveniente es que para explotarlo al máximo requiere que aprendamos además el uso del lenguaje de programación Scala.
Usado en Cisco, Verizon y Visa.

3. Apache Flink

Es el principal rival de Spark y pasito a pasito está haciendo mella en su base de usuarios. Flink ofrece las mismas características de Spark pero con una implementación muy diferente. Algunas de las mejoras que Flink trae al mundo del procesamiento en tiempo real hacen que sea una herramienta a conocer.
Usado en Zalando.

4. Presto

Esta herramienta Big Data no forma parte del ecosistema Apache pero es otra de esas cuyo conocimiento es necesario para todo entusiasta. Presto es un motor de consultas SQL que permite relacionar información presente en múltiples sistemas de almacenamiento diferentes de forma unificada sin necesidad de mover los datos a una única plataforma.
Usado en Airbnb, Netflix y Facebook.

5. Apache HBase

HBase es un viejo conocido dentro de este ámbito. Se trata de un sistema de almacenamiento de datos distribuido y escalable basado en ficheros HDFS. Su modelo de datos es orientado a familias de columnas y su principal ventaja es que permite la actualización y el acceso aleatorio a los datos. Está presente en las principales distribuciones de Hadoop por lo que saber modelar datos haciendo uso de esta herramienta es otra de esos skills necesarios para todo conocedor.
Usado en Facebook, Airbnb, y Spotify.

6. Apache Cassandra

Cassandra es, en cierta forma, el principal rival de HBase dentro del mundo de las herramientas Big Data. No solo porque es también uno de esos proyectos primordiales si no además porque utiliza un modelo de datos muy similar. A diferencia de HBase no hace uso de ningún componente del ecosistema Hadoop ni está incluida en ninguna de las distribuciones de éste. A cambio de esta desventajas Cassandra es de las pocas soluciones desarrolladas para dar soporte a despliegues multi-datacenter por lo que es también un ‘debe’ en nuestra lista de conocimientos.
Usado en el CERN, Cisco y Walmart.

7. Apache Kudu

Kudu es la herramienta perfecta para complementar al HDFS. Se trata de un sistema de almacenamiento de datos en formato columnar que permite realizar consultas analíticas sobre estos de forma más fácil y con un gran rendimiento. Kudu es un recién llegado al ecosistema pero la forma en que complementa a otros de los componentes lo hará cada vez más omnipresente en las arquitecturas Big Data.
Usado en Cloudera.
 
Esta lista de soluciones orientadas a Big Data no es exhaustiva. Sería imposible listar todas y cada una de las herramientas Big Data. No obstante contiene las tecnologías básicas que deben ser conocidas por cualquiera interesado en el IT digital que se hace un hueco cada vez mayor en los negocios ya sean estos nuevos o tradicionales.
Si quieres seguir aprendiendo sobre análisis de datos y las posibilidades que brindan a cualquier empresa, fórmate con el Programa Superior en Data Engineering de ICEMD. Toda la información e inscripciones, aquí.
 


Recursos relacionados

03 Abr 2018
Herramientas de Marketing Digital: su importancia la estrategia

Las herramientas de Marketing Digital nos abren un mundo de posibilidades a la hora de realizar mediciones que nos permitan optimizar y definir adecuadamente nuestras estrategias y tácticas de Marketig Digital: Veamos las más importantes.

02 Abr 2018
Marketing y ventas: su fusión la única manera de generar ROI

Los equipos de marketing y ventas ya no pueden permanecer incomunicados entre sí. Es necesario ponerse de acuerdo entre los dos y alcanzar un acuerdo de mínimos, filosofía que llamamos Smarketing.

28 Mar 2018
Inteligencia competitiva: qué es y cómo da servicio a dirección

Siguiendo la tendencia de la inteligencia competitiva, las empresas empiezan a tener sus propios agentes 007, con licencia para… Analizar datos y obtener ventajas competitivas.

27 Mar 2018
12 nuevos tipos de Marketing Digital

En los últimos años, la aparición de diferentes herramientas ha dado pie a múltiples tipos de marketing. Aquí encontrarás un repaso a cada uno de ellos, así como una breve introducción al trasfondo actual del marketing digital.