herramientas big data

Cada año que pasa desde la llegada de Hadoop a nuestros servidores son más y más los lenguajes, sistemas de almacenamiento y procesamiento que se acumulan en nuestro cinturón de herramientas big data. Descubre las más importantes en este artículo.

Hoy en día, la variedad de herramientas Big Data a utilizar es muy extensa. Esto hace que acercarse al mundo del Big Data pueda resultar intimidante cuanto menos. Decidir qué software utilizar a la hora de definir nuestra arquitectura requiere mucho cuidado y planificación. Pero entonces, ¿Cuáles son las herramientas en las que debería centrar mi atención? Sería muy difícil responder a esta pregunta de forma general pero podemos al menos hacer un listado de las 7 herramientas Big Data que deberíamos conocer para que nuestro aterrizaje en este mundo sea lo más seguro posible.

7 herramientas Big Data que deberías conocer

1. Apache Hadoop

Es el principio de todo y el punto en el que se apoyan otras soluciones enfocadas a Big Data. El sistema de almacenamiento distribuido de ficheros HDFS y el gestor de recursos YARN son sus componentes principales. Incluye también una implementación del sistema de procesamiento MapReduce que hace uso de YARN para la distribución de las tareas. Es una herramienta cuyo conocimiento es indispensable para todo aquél que quiera adentrarse en este mundo.

Usado en Yahoo!, Amazon y de una u otra manera por todos los demás.

2. Apache Spark

Es uno de los chicos grandes. Es una herramienta de procesamiento distribuido de datos en batch y tiempo real con una API unificada para ambos modelos. Desde su llegada al ecosistema en 2014 Spark ha ganado cada día más y más adeptos. Todo recién llegado debería profundizar en su uso. Su único inconveniente es que para explotarlo al máximo requiere que aprendamos además el uso del lenguaje de programación Scala.

Usado en Cisco, Verizon y Visa.

3. Apache Flink

Es el principal rival de Spark y pasito a pasito está haciendo mella en su base de usuarios. Flink ofrece las mismas características de Spark pero con una implementación muy diferente. Algunas de las mejoras que Flink trae al mundo del procesamiento en tiempo real hacen que sea una herramienta a conocer.

Usado en Zalando.

4. Presto

Esta herramienta Big Data no forma parte del ecosistema Apache pero es otra de esas cuyo conocimiento es necesario para todo entusiasta. Presto es un motor de consultas SQL que permite relacionar información presente en múltiples sistemas de almacenamiento diferentes de forma unificada sin necesidad de mover los datos a una única plataforma.

Usado en Airbnb, Netflix y Facebook.

5. Apache HBase

HBase es un viejo conocido dentro de este ámbito. Se trata de un sistema de almacenamiento de datos distribuido y escalable basado en ficheros HDFS. Su modelo de datos es orientado a familias de columnas y su principal ventaja es que permite la actualización y el acceso aleatorio a los datos. Está presente en las principales distribuciones de Hadoop por lo que saber modelar datos haciendo uso de esta herramienta es otra de esos skills necesarios para todo conocedor.

Usado en Facebook, Airbnb, y Spotify.

6. Apache Cassandra

Cassandra es, en cierta forma, el principal rival de HBase dentro del mundo de las herramientas Big Data. No solo porque es también uno de esos proyectos primordiales si no además porque utiliza un modelo de datos muy similar. A diferencia de HBase no hace uso de ningún componente del ecosistema Hadoop ni está incluida en ninguna de las distribuciones de éste. A cambio de esta desventajas Cassandra es de las pocas soluciones desarrolladas para dar soporte a despliegues multi-datacenter por lo que es también un ‘debe’ en nuestra lista de conocimientos.

Usado en el CERN, Cisco y Walmart.

7. Apache Kudu

Kudu es la herramienta perfecta para complementar al HDFS. Se trata de un sistema de almacenamiento de datos en formato columnar que permite realizar consultas analíticas sobre estos de forma más fácil y con un gran rendimiento. Kudu es un recién llegado al ecosistema pero la forma en que complementa a otros de los componentes lo hará cada vez más omnipresente en las arquitecturas Big Data.

Usado en Cloudera.

 

Esta lista de soluciones orientadas a Big Data no es exhaustiva. Sería imposible listar todas y cada una de las herramientas Big Data. No obstante contiene las tecnologías básicas que deben ser conocidas por cualquiera interesado en el IT digital que se hace un hueco cada vez mayor en los negocios ya sean estos nuevos o tradicionales.

Si quieres seguir aprendiendo sobre análisis de datos y las posibilidades que brindan a cualquier empresa, fórmate con el Programa Superior en Data Engineering de ICEMD. Toda la información e inscripciones, aquí.

 

Comentarios

aditus - hace 24 dia

Children and young people are at significant risk on the roads. Road safety education plays an important role in shaping the attitudes and behaviors of children and young people which help them to become responsible drivers, passengers, pedestrians, and cyclists.

Deja tu comentario: