Spark

Seguramente muchos de vosotros interesados en las tecnologías Big Data habréis oído hablar de Apache Spark y otras tecnologías relacionadas como Hadoop o Hive. En este post vamos a hacer una introducción a Apache Spark y su relación con el resto de dicho ecosistema.

Apache Spark es un framework de programación para procesamiento de datos distribuidos diseñado para ser rápido y de propósito general. Como su propio nombre indica, ha sido desarrollada en el marco del proyecto Apache, lo que garantiza su licencia Open Source.

Además, podremos contar con que su mantenimiento y evolución se llevarán a cabo por grupos de trabajo de gran prestigio, y existirá una gran flexibilidad e interconexión con otros módulos de Apache como Hadoop, Hive o Kafka.

Parte de la esencia de Spark es su carácter generalista. Consta de diferentes APIs y módulos que permiten que sea utilizado por una gran variedad de profesionales en todas las etapas del ciclo de vida del dato.

Dichas etapas pueden incluir desde soporte para análisis interactivo de datos con SQL a la creación de complejos pipelines de machine learning y procesamiento en streaming, todo usando el mismo motor de procesamiento y las mismas APIs.


Descarga gratis la guía: Computación cognitiva. La nueva revolución del Big Data

Apache Spark: Su relación con Hadoop

Una de las grandes preguntas sobre Spark es su relación con Hadoop. ¿Se trata de otra tecnología competencia del famoso framework? En realidad, Spark es la evolución natural de Hadoop, cuya funcionalidad es muy rígida y limitada en el sentido de que no aprovecha al máximo las capacidades del procesamiento distribuido.

Algunas de las evoluciones que supone Spark frente a su predecesor son el procesamiento en memoria que disminuye las operaciones de lectura/escritura, la posibilidad de análisis interactivo con SQL  (similar a Hive en cierto modo) y la facilidad para interactuar con múltiples sistemas de almacenamiento persistente.

Apache Spark: ¿Cómo funciona?

Apache Spark es un motor de procesamiento distribuido responsable de orquestar, distribuir y monitorizar aplicaciones que constan de múltiples tareas de procesamiento de datos sobre varias máquinas de trabajo, que forman un cluster.

Como ya hemos mencionado, es posible leer los datos desde diferentes soluciones de almacenamiento persistente como Amazon S3 o Google Storage,  sistemas de almacenamiento distribuido como HDFS, sistemas key-value como Apache Cassandra, o buses de mensajes como Kafka.

A pesar de ello, Spark no almacena datos en sí mismo, sino que tiene el foco puesto en el procesamiento. Este es uno de los puntos que lo diferencian de Hadoop, que incluye tanto un almacenamiento persistente (HDFS) como un sistema de procesamiento (MapReduce) de un manera muy integrada.

Es importante hablar de la velocidad de procesamiento: la clave es la posibilidad que ofrece Spark para realizar el procesamiento en memoria. Esto, y la extensión del popular MapReduce para permitir de manera eficiente otros tipos de operaciones: Queries interactivas y Procesamiento en Streaming.

Apache Spark: ¿Cuáles son sus funciones?

Respecto a su propósito general, la virtud de Spark es estar diseñado para cubrir una amplia gama de cargas de trabajo que previamente requerían sistemas distribuidos diferentes.

Éstos sistemas incluyen procesamiento batch, algoritmos iterativos, queries interactivas, procesamiento streaming… a menudo empleados todos ellos en un pipeline típico de análisis de datos.

Por último, hemos dicho que Spark es flexible en su utilización, y es que ofrece una serie de APIs que permiten a usuarios con diferentes backgrounds poder utilizarlo. Incluye APIs de Python, Java, Scala, SQL y R, con funciones integradas y en general una performance razonablemente buena en todas ellas.

Permite trabajar con datos más o menos estructurados (RDDs, dataframes, datasets) dependiendo de las necesidades y preferencias del usuario.

Además, como hemos ido viendo a lo largo del post, se integra de manera muy cómoda con otras herramientas Big Data, en especial aquellas procedentes del proyecto Apache.

En particular, como era de esperar, cabe destacar la integración con Hadoop: Spark puede ejecutarse en clusters Hadoop y acceder a los datos almacenados en HDFS y otras fuentes de datos de Hadoop (Cassandra, Hbase, Kafka…).

¿Quieres aprender las técnicas para desarrollar, analizar, gestionar y ejecutar proyectos de Big Data? Fórmate con el Máster en Big Data Management de ICEMD. Encuentra toda la información e inscripciones, aquí.



Descargar e-Book

Comentarios

rusli - hace 1 mes

Jangan panggil aku lagi. " Saya hampir menangis karena kelink 8 jual baja h beam jual pipa boiler jual plat abrex 400 jual plat asme516 grade70 jual plat astm a285 c jual plat astm516 70 jual plat boiler jual plat hardox jual plat hb 400 jual plat high strenght jual plat high tensile sm490 yb Pabrik besi beton jcac Pabrik besi hollow Pabrik besi hollow Toko besi wf Toko besi unp undangan pernikahan batik Pabrik Bondek Cor Pabrik Wiremesh Besi baja Pabrik plat kapal besi baja Pabrik besi beton interworld steel is Distributor pipa besi Distributor pipa besi Toko wiremesh Toko besi siku undangan pernikahan murah Pabrik Atap Spandek Sni Distributor Besi Siku Baja Distributor besi siku baja Pabrik besi beton gunung garuda Harga pipa besi Harga pipa besi Toko besi unp Toko Plat besi plat kapal undangan pernikahan online Pabrik Plat Bordes Kembang Supplier Besi Siku Baja Harga besi siku baja Pabrik besi beton delcoprima Jual pipa besi Jual pipa besi Toko besi cnp Toko besi h beam baja undangan pernikahan anti mainstream Pabrik Plat Besi Hitam Agen Besi Siku Baja Jual besi siku baja Pabrik besi beton cakra steel cs Supplier pipa besi Supplier pipa besi Toko besi hollow Toko besi cnp undangan pernikahan cantik dan murah Pabrik Plat Kapal Bki Krakatau Steel Toko Besi Siku Baja Supplier besi siku baja Pabrik besi beton bjku Toko pipa besi Toko pipa besi Toko besi beton Sni Ulir Polos www.gudangbesibaja.com undangan pernikahan unik Pabrik Jual Besi Siku Baja Jual Besi Siku Baja Toko besi siku baja Pabrik besi beton Sni Ulir Polos Agen pipa besi Agen pipa besi ironsteelcenter.com Supplier besi Wf Baja undangan pernikahan yang unik Pabrik Besi Unp Baja Profil Kanal Harga Besi Siku Baja Agen besi siku baja Pabrik besi beton ais Pabrik pipa besi Pabrik pipa besi Supplier stainless steel Supplier bondek undangan pernikahan lucu Jual Besi Siku Baja Toko besi siku baja Pabrik besi beton Sni Ulir Polos Agen pipa besi Agen pipa besi ironsteelcenter.com Supplier besi Wf Baja undangan pernikahan yang unik Pabrik Besi Unp Baja Profil Kanal Harga Besi Siku Baja Agen besi siku baja Pabrik besi beton ais Pabrik pipa besi Pabrik pipa besi Supplier stainless steel Supplier bondek undangan pernikahan lucu Pabrik Besi Cnp Profil Baja Gording Pabrik Besi Siku Baja Pabrik besi siku baja Pabrik besi beton Distributor sch 40 Distributor sch 40 Supplier atap spandek Supplier wiremesh undangan pernikahan bunga Pabrik Besi Hollow Distributor Besi Unp Baja Distributor besi wf Harga sch 40 Harga sch 40 Supplier baja ringan Supplier pipa besi baja sch 40 sch 80 undangan pernikahan islami

Deja tu comentario: