¿El futuro de la Analítica Avanzada está en el Real Real Time?

Domingo por la mañana, como todos los días, empieza la rutina. Escuchar Héroes de David Bowie, tomarme el café acariciando a mi perro y leer un capítulo del libro con el que esté disfrutando en ese momento. Al terminarlo nos ponemos en marcha y damos un pequeño paseo, justo lo que se nos permite por el confinamiento, y además aprovecho para recoger el pan. Hoy pan artesano con naranja y chocolate.  ¡A ver qué tal!

Ahora ya en casa, toca seguir haciendo tareas de la hoja de “pendientes”. Eso es algo que aprendí hace tiempo, justo después de leer el libro de David Allen. “Sé más eficaz”. Marzo 2012. Entre los asuntos pendientes, tengo completar el estudio de arquitecturas de bases de datos distribuidas y escribir varias entradas para mi recién estrenado blog. Sin duda, elijo la segunda.

Durante esta semana he atendido a una presentación por parte de Cloudera Data Flow que me ha resultado especialmente interesante. Sobre todo, por estar muy relacionada con la anterior entrada en mi blog, “Pon un Lakehouse en tu vida…”. Entre otras cosas observo que los principales proveedores de servicios de analítica avanzada se están moviendo y muy deprisa hacia el real time. Sin duda, cada día las organizaciones son más conscientes de que esa información es clave para su negocio. Que no sirve sólo con tener un Reporting actualizado una o dos veces al día. Algunas decisiones no se pueden tomar tan “tarde”.

La sensación por mi parte, respecto de la solución presentada por Cloudera fue francamente buena. Utilizan múltiples piezas open source del stack tecnológico de Apache, que dan forma a un todo con mucho sentido. Desde los procesos simples de ingesta con Apache Nifi y Mini Nifi (especialmente indicado para IoT), el servicio de mensajería de Apache Kafka y el streaming de Apache Flink. Destacar que me gustó mucho ver, cómo por encima de todo corrían Apache Ranger y Apacha Atlas para manejar aspectos como los de auditoría, linaje, establecimiento de políticas. Es decir, tareas propias de la seguridad y gobierno del dato.

Todo ello monitorizado y versionado. Esto último, se ha convertido en uno de los requerimientos esenciales en la nueva generación de arquitecturas para el dato.

CONCLUSIÓN
En definitiva, como ya he comentado antes, la solución DATA IN MOTION presentada fue muy interesante y pone en evidencia a otras arquitecturas que no son tan completas. En Microsoft, por ejemplo, echo de menos un servicio similar a Apache Atlas. Sé que están detrás de ello, pero hasta que llegue, habrá que utilizar alguna de las opciones disponibles en el Marketplace.

Ahora bien, ¿hay mercado para estas soluciones de procesamiento instantáneo de la información? Yo creo que a día de hoy, no hay una gran demanda. Sin embargo, que todos los actores estén invirtiendo muchos recursos en ello, da pistas de hacia dónde va a ir el mercado en los próximos meses.

OTROS
Finalmente, Juan Zapatero (Solution Engineer de Cloudera) nos comentó que para la última semana de Abril habrá una nueva charla donde se hablará más en detalle de la plataforma de datos de Cloudera, lo que ellos denominan Cloudera Data Platform (CDP). Estoy francamente interesado en asistir, e incluso creo que habilitaré un nuevo apartado en el blog para informar acerca de los diferentes eventos que se vayan a celebrar.

Publicado por alb3rtoalonso

Soy un enamorado del poder de los datos. Entusiasta de la mejora y formación continua.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: