Hace unas semanas estuve en el Lakehouse de Databricks que se celebró en Madrid y entre las muchas cosas que aprendí, me quedo con la frase del título. Haz las cosas de un modo Simple, apuesta por proyectos Open Source y si puedes, sé Multicloud.
Estos tres aspectos se mencionaron en multitud de ocasiones durante las diferentes charlas que se realizaron durante ese día, algo que sin duda, casa a la perfección con Databricks. Que es una solución que nace a manos de los creadores de Apache Spark, y que está totalmente abierta al ecosistema Open Source (por ejemplo Apache Parquet) y que está haciendo muchísimas cosas, sin embargo no tratan de reinventar la rueda, con lo que abrazan la simpleza y además, son Multicloud, pues están presentes en los tres principales players como son Microsoft, AWS y Google Cloud.

Como puntos a destacar, primero el gran crecimiento que está experimentando Databricks y por otro lado el elevado número de asistentes. Por supuesto, la calidad de los ponentes también acompañó. En especial no quiero dejar de pasar por alto la enorme pasión que demostró el representante de CAF y por último, la sorpresa de la tarde, la presentación de Lookiero a manos de Miguel Angel Veganzones. Me pareció genial que destacara que todos los perfiles de la organización están vinculados a roles de datos. ¡Tremendo!
Que exista una compañía donde el mantra «ser Data Driven» sea una realidad y que esta visión haya impregnado todas las capas de la organización hasta el punto de que todos los integrantes tengan skills vinculados a datos, es digno de admiración. Entiendo que el proceso no habrá sido sencillo y que les habrá requerido de mucho tiempo de formación, recursos,…
Y ya para terminar con Lookiero, me gustaría resaltar otro de los comentarios que anoté en mi libreta. Fue que, para gestionar las mejoras de sus soluciones, emplean A/B Testing. De esa forma, todas las decisiones están soportadas por datos, algo que por supuesto ayuda en el proceso de evolución de sus soluciones. ¡Muy interesante!
Saltando de nuevo a Databricks, el componente que más interés suscitó fue Unity Catalog. ¡Parece que el Gobierno del Dato comienza a resultar de valor a las organizaciones! y que soluciones como ésta ayudan a convertirlo en realidad. Entre otras cosas, Unity Catalog te permite gestionar eficientemente los accesos a los recursos de datos, así como compartirlos de un modo sencillo mediante Delta Sharing (incluso entre distintos Cloud y/o regiones, algo muy alineado con Data Mesh), también te permite consultar el linaje del dato de un modo realmente fácil.
NOTA:
No entro a comentar las posibles conexiones con terceras partes como Microsoft Purview u otras herramientas de Gobierno, pues me extendería en exceso. Al igual que sucede con la parte de MLFlow y sus capacidades para gestionar el ciclo completo de los Modelos de Inteligencia Artificial, dan para otras entradas 😉
Con todo esto, vengo a significar que Databricks está haciendo las cosas muy bien, y que independientemente de donde esté el Data Lake de turno (S3, Azure Data Lake Gen2,…) nos permite gestionar de una manera eficiente tanto datos en streaming como en batch, ser ACID compliance, reducir los costes de almacenamiento y muchas otras cosas más,…
A día de hoy, es el pilar sobre el que construir soluciones de Analítica Avanzada porque permite hacer las cosas de un modo simple, usando proyectos open source y desplegando en más de una Cloud.