Hace tan sólo unas semanas que se lanzó la solución de datos integral de Microsoft y digo «solución» porque se trata de un SaaS. Con Fabric las organizaciones se pueden ir olvidando de la infraestructura, ni tan siquiera como código. Hay que decir adiós a Terraform, ARM, Bíceps,… y quizás, también irnos despidiendo de nuestros compañeros Ingenieros Cloud. Parece que Microsoft quiere que la gestión del Dato pase a ser una «commodity» y para ello ha creado un producto que aglutina todas las herramientas de su portfolio de datos. Así por ejemplo, dentro de Fabric tenemos:
- Azure Data Factory
- Azure Synapse
- Microsoft Purview
- Power Bi
Todo ello, soportado por un Azure Data Lake Gen2 que pasa a denominarse OneLake y que al igual que sucede en en Lakehouse de Databricks, para la capa de almacenamiento se emplea el formato open source Delta Lake. Que para quien no lo sepa, se trata de un desarrollo del equipo de Databricks que vino a ampliar las capacidades de los ficheros parquet añadiendo una carpeta de logs donde recogen todas las actividades que afectan al propio fichero. De este modo, se pueden hacer roll backs a versiones anteriores del propio fichero, o como ellos lo denominan Time Travel, entre otras muchas posibilidades.
Pues llegados a este punto, tenemos una solución completa y tan sencilla de poner en funcionamiento que sólo requiere hacer switch on en un selector On / Off y listo. Todo el potencial de Azure en tus manos. Pero además, no sólo dispones de las propias herramientas fácilmente accesibles desde Fabric, sino que además están conectadas entre sí. Esto significa que ecosistema presentado por Microsoft ayuda a cubrir el ciclo de vida del dato de una forma como nunca antes, puesto que por ejemplo, Microsoft Purview está continuamente escaneando los recursos que se incorporan, ya sean fuentes de datos, pipelines, tablas de referencia o máster data,… todo absolutamente todo, queda registrado en la herramienta de Gobierno del Dato de Microsoft. Algo que sin duda, aporta valor y suma otro punto adicional.
Otra ventaja interesante es la «sencilla» migración desde Lakehouse a OneLake. Como he indicado al comienzo del artículo, la base de almacenamiento es Azure Data Lake Gen2 y su core es el formato Delta Lake, por lo tanto, es exactamente lo mismo que Lakehouse. Por lo que debería ser un proceso sencillo de reubicación de la fuente de almacenamiento. Desmontando el Lakehouse y habilitando el OneLake. Desde Microsoft nos comentaron que en breve saldrán «herramientas de ayuda» a la migración.
Aunque no todo es perfecto, Microsoft Purview todavía está lejos de ser la mejor o más capaz herramienta del Gobierno de Datos. Sin embargo, que esté integrada y por defecto realice muchas de las tareas que tan complicadas resulta configurar a día de hoy es un plus. Del mismo modo sigo considerando que Databricks es más potente y completo a día de hoy que Synapse, si bien Fabric permite conectarse con Databricks aunque aún no he podido hacer una prueba y explorar las ventajas e inconvenientes de dicha relación.
CONCLUSIÓN
Lo que demuestra el movimiento de Microsoft liberando Fabric es que siguen apostando por el mundo de los datos y quieren continuar aprovechando el tirón de la Inteligencia Artificial Generativa para mejorar su posicionamiento en áreas donde no termina de posicionarse como líder absoluto. Los datos es una de estas áreas y de ahí el interés por ofrecen una solución que ayude a mitigar aspectos como el mantenimiento y evolución de la infraestructura, la integración entre servicios y herramientas o el gobierno, todo ello mezclado con el open source. Su apuesta por simplificar y democratizar el acceso a un ecosistema completo del dato es de aplaudir.
Con todo esto, está claro que, Microsoft ha dado un gran paso que le ha permitido reducir la distancia con Databricks para posicionarse con la solución core de analítica avanzada. Si bien, ser multicloud o capacidades como Delta Sharing hacen que el sorpasso resulte complicado.
NOTA:
Delta Sharing es un protocolo open source que permite compartir datos entre organizaciones y herramientas a través de la virtualización y Databricks es una aplicación que está disponible en los tres principales Cloud: Azure, AWS y GCP
Foto de portada gracias a RUN 4 FFWPU: https://www.pexels.com/es-es/foto/ciclistas-irreconocibles-en-bicicleta-en-la-carretera-durante-la-carrera-5687405/