www.mallorcadiario.com
Las mejores herramientas para Big Data

Las mejores herramientas para Big Data

jueves 19 de julio de 2018, 10:15h

Cada año son más los lenguajes, sistemas de almacenamiento y procesamiento que se acumulan en el conjunto de herramientas Big Data. Por este motivo, la elección del software adecuado requiere de mucho análisis y cuidado.

Para poder escoger las mejores herramientas para nuestra infraestructura IT, es conveniente que conozcamos al menos las principales. De esta manera, y con el conocimiento adecuado, podremos tomar la mejor decisión.

Las principales herramientas Big Data que debes conocer

Dentro de las herramientas más conocidas, las siguientes son de obligada lectura, no obstante, si hablamos de software para analizar, procesar y almacenar datos en tiempo real, hasta ahora, Osisoft era el preferido del mercado. En la actualidad existen alternativas con muchas más ventajas e igual de efectivas. Pero vayamos a las herramientas de Big Data más conocidas:

Apache Hadoop

Es el punto de partida donde se apoyan el resto de soluciones enfocadas a Big Data. Sus componentes principales son: el sistema de almacenamiento distribuido de ficheros HDFS y el gestor de recursos YARN.

Esta herramienta incluye también una implementación del sistema de procesamiento MapReduce para la distribución de las tareas. Es indispensable conocer esta herramienta para entender el mundo del Big Data.

Empresas como Yahoo o Amazon, usan esta herramienta de Big Data en su infraestructura, ya que permite trabajar con miles de nodos y petabytes de datos. Algo muy a tener en cuenta para grandes empresas como las mencionadas anteriormente.

Apache Spark

Esta herramienta de procesamiento usa un modelo de datos en batch y tiempo real con una API unificada para ambos modelos. Se puede considerar un sistema de computación en clúster de propósito general y orientado a la velocidad.

La herramienta proporciona APIs en Java, Scala, Python y R, así como un motor optimizado que soporta la ejecución de grafos en general. Cuenta con un extenso repertorio de herramientas de alto nivel entre las que se incluyen Spark SQL (para el procesamiento de datos estructurados basada en SQL), MLlib para implementar machine learning, GraphX para el procesamiento de grafos y Spark Streaming.

Grandes compañías como Cisco, Verizon y Visa utilizan Apache Spark en su infraestructura, lo cual te puede dar una idea de su importancia y eficiencia.

Apache Flink

Es la herramienta rival de Spark, pues ofrece las mismas características, pero con una implementación bien diferente. Algunas de las mejoras respecto de Spark son las siguientes:

  • Es un motor streaming nativo. Procesa elemento a elemento evitando la latencia
  • En caso de usar el event time, Flink se encarga automáticamente de gestionar los eventos desordenados (watermarks)
  • Incluye conceptos avanzados para gestión de ventanas
  • Proporciona un API para savepoints, permitiendo hacer versionado de aplicaciones
  • Tiene desde sus inicios su propio gestor de memoria dentro de la JVM (estilo C++)

Esta herramienta es la elegida por Zalando, la conocida empresa de alemana de moda online.

Apache HBase

Se trata de un sistema de almacenamiento de datos distribuido y escalable basado en ficheros HDFS. Su modelo de datos es orientado a familias de columnas, su principal ventaja es que permite la actualización y el acceso aleatorio a los datos. Está presente en las principales distribuciones de Hadoop, por lo que saber modelar datos haciendo uso de esta herramienta es otra de esos skills tan necesarios.

Es usado en Facebook, Airbnb, y Spotify, empresas que manejan millones de datos en tiempo real.

Apache Cassandra

Utiliza un modelo de datos muy similar a Apache HBase, de hecho, se ha convertido en su rival. La diferencia es que no usa ningún componente Hadoop, ni está incluida en ninguna de las distribuciones de éste. En cambio, es de las pocas soluciones desarrolladas para dar soporte a despliegues multi-datacenter, por lo que hay que tenerla muy en cuenta.

Empresas como Cisco y Walmart, así como el CERN, utilizan esta herramienta.

Apache Kudu

Kudu es la herramienta perfecta para complementar al HDFS. Se trata de un sistema de almacenamiento de datos en formato columnar, que permite realizar consultas analíticas sobre estos, de forma más fácil y con un gran rendimiento. Es un recién llegado al Big Data, pero la forma en que complementa a otros de los componentes lo hará cada vez más omnipresente en este tipo de arquitecturas.

Su principal usuario es Cloudera una gran compañía de software para Big Data.

Presto

Es una herramienta Big Data es en realidad un motor de consultas SQL, que permite relacionar información presente en múltiples sistemas de almacenamiento diferentes de forma unificada, sin necesidad de mover los datos a una única plataforma. No pertenece al sistema Apache, pero su eficiencia es igualmente muy valorada.

La usan empresas como Airbnb, Netflix y Facebook, nada más y nada menos

Hasta aquí, la lista de las herramientas Big Data más conocidas. Con ellas, tienes un ejemplo de las tecnologías básicas que debes conocer para entender el IT digital. Un ecosistema que está cada vez más presente en todo tipo de negocios, ya sean digitales o tradicionales.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

Compartir en Meneame


Normas de uso

Esta es la opinión de los internautas, no de mallorcadiario.com

No está permitido verter comentarios contrarios a la ley o injuriantes.

La dirección de email solicitada en ningún caso será utilizada con fines comerciales.

Tu dirección de email no será publicada.

Nos reservamos el derecho a eliminar los comentarios que consideremos fuera de tema.