Desde hace mucho tiempo se percibe que, los sistemas de ficheros basados en formatos open source como Apache Iceberg, Apache Hudi y Delta Lake, se han convertido en el standard con el que construir tu Data Warehouse corporativo. Al menos asi lo indica el 74% de los CIO a nivel global en recientes encuestas.
Con este panorama, alcanzar el siguiente nivel no debía estar lejos y mira por donde, la semana pasada leí que ya se había alcanzado. Ahora ya no importa (tanto) qué formato emplear como base en tu Data Warehouse corporativo porque con UniForm y Apache XTable puedes estar leyendo y escribiendo en cualquiera de los formatos, algo que, por ejemplo, permite crear un Lakehouse con Delta Lake y Databricks, explotar el Data Warehouse con Snowflake y Apache Iceberg, o incluso combinar ambos con Microsoft Fabric y gracias a OneLake acercar el self-service Bi a los equipos de negocio. Todo ello gracias al uso de Copilot for Fabric, a la facilidad de desarrollo de la capa semántica y como no, a su posterior consumo mediante Power Bi. Todo siendo realizado de una forma integrada y controlando en todo momento la seguridad de los datos.
Con esto, quiero enfatizar que, los principales partners tecnológicos se están moviendo y rápido hacia soluciones que permitan a las organizaciones construir su solución de datos sin miedo a equivocarse. Y todo gracias a la adopción de tecnologías open source.
Os dejo el link al artículo publicado hace unos días por si os apetece profundizar un poco más en él, aquí.
Cada día tengo más claro que, la arquitectura de datos pasa, sin duda alguna, por disponer de uno o varios almacenamientos de tipo Data Lake, principalmente debido a la soberanía del dato. Por supuesto, empleando formatos de ficheros orientas a columnas y que permitan a la solución ser ACID compliance. Por supuesto, con Apache Spark como motor de procesamiento combinado con un conjunto de piezas que enriquezcan el ecosistema y permitan dar solución a los principales retos de las organizaciones. Que, como bien sabemos, dependen mucho del stack tecnológico previo, de los requisitos normativos, de la cultura de la organización, de los recursos y sobre todo de cómo se imaginen en un futuro a medio plazo.
Según los últimos estudios de mercado, la tendencia es tratar el dato como producto y abrirse a compatir esos datos con otras organizaciones, ya sea de cara a monetizarlos o simplemente para buscar sinergias entre industrias. Por ello, la búsqueda de fórmulas efectivas para tal distribución segura de datos es otro de los puntos de interés y aquí, me encantó la manera en que Databricks se posicionaba con Delta Sharing, si bien estudiando sus limitaciones y comparando con, por ejemplo, GraphQL de Microsoft Fabric, creo que la segunda supera (y con creces) lo que ofrece la primera. Habilitar una capa de APIs de manera sencilla mediante la publicación de Endpoints por encima de cualquier tipo de almacenamiento, esté donde esté, gracias a OneLake, creo que es de las mejores soluciones para disponibilizar el dato tanto de manera externa como interna.
Como decía al comienzo, la foto cambia y lo hace rápido, por eso es fundamental entender el contexto, conocer las herramientas y enfocar la decisión con la garantía de que la incertidumbre se está viendo reducida gracias a la posibilidad de trabajar con el partner que quieres, en el formato que elijas porque al final, todos se hablan con todos.
Foto de portada gracias a Isabella Mendes: https://www.pexels.com/es-es/foto/fotografia-en-escala-de-grises-de-una-persona-que-usa-el-controlador-de-dj-860707/