Si hace un par de semanas pude participar en un Hands-on con Fivetran y DBT, la semana pasada he podido asistir a una sesión con Piethein Strengholt, actual CDO de Microsoft en Holanda, donde nos ha presentado su particular visión acerca de Data Contracts en arquitecturas de datos distribuidas. Como ya he comentado en másSigue leyendo «Data Contracts para una «descentralización comprometida»»
Archivo de etiqueta: #Databricks
¡Quien rompe paga!
La frase que da título a la entrada era muy frecuente en mis tiempo mozos,… o al menos así la recuerdo y justo fruto de estas warning quizás sea por lo que muchas personas no suelen arriesgarse a salir de la zona de confort. No sea que la líe y encima tenga que soltar unosSigue leyendo «¡Quien rompe paga!»
Puntos a tener en cuenta a la hora de definir tu estrategia Data Driven
En más de una ocasión, las organizaciones se focalizan en la tecnología a la hora de elegir la mejor estrategia de datos y por supuesto que la tecnología es importante, si bien es mejor poner el foco en un análisis profundo de los procesos y de las personas. Conocer en profundidad el ciclo de vidaSigue leyendo «Puntos a tener en cuenta a la hora de definir tu estrategia Data Driven»
Data Linaje con Unity Catalog de Databricks
Como ya mencioné en la anterior entrada, donde hice un breve resumen del Lakehouse Day de Databricks en Madrid, la incorporación de Unity Catalog suma y mucho a la hora de tomar la decisión sobre cual es la mejor herramienta con la que construir la solución de datos corporativa. Del mismo modo mencioné que, paraSigue leyendo «Data Linaje con Unity Catalog de Databricks»
Simple, Open Source y Multicloud
Hace unas semanas estuve en el Lakehouse de Databricks que se celebró en Madrid y entre las muchas cosas que aprendí, me quedo con la frase del título. Haz las cosas de un modo Simple, apuesta por proyectos Open Source y si puedes, sé Multicloud. Estos tres aspectos se mencionaron en multitud de ocasiones duranteSigue leyendo «Simple, Open Source y Multicloud»
Unity Catalog en Azure Databricks: gobernando el Lakehouse
En la primera entrada de Unity Catalog describí brevemente qué es Unity Catalog para saltar a la configuración de nuestro primer Metastore. Ahora, vamos a profundizar en los aspecto de gobernanza, comenzando por la creación de grupos. Como el primer schema que creamos es production, vamos a crear un grupo específico para ese schema. ¡Veamos!Sigue leyendo «Unity Catalog en Azure Databricks: gobernando el Lakehouse»
Unity Catalog en Azure Databricks: creando nuestro primer metastore
Hace tiempo que tenía ganas de hacer un artículo acerca de Unity Catalog profundizando en elementos como Metastore, Catalog, Schema,… Databricks a día de hoy es una de las piezas clave en el desarrollo de soluciones de Analítica Avanzada y justo por eso es por lo que este artículo cobra especial valor. Desde que haceSigue leyendo «Unity Catalog en Azure Databricks: creando nuestro primer metastore»
Cómo usar Try-Catch en Databricks SQL Notebooks
El control de los procesos es una buena práctica de datos ya que te permite identificar aquellos posibles puntos de fallo en tus scripts durante el tiempo de ejecución. Sin embargo, para los que habitualmente se pegan con los Notebooks de SQL en Databricks, vemos que no es posible incluir bloques de captura de erroresSigue leyendo «Cómo usar Try-Catch en Databricks SQL Notebooks»
A veces, no es aconsejable mezclar peras con manzanas
Esta semana, tratando de crear un pipeline de Azure Data Factory que ejecuta una actividad de Azure Databricks, que levanta un clúster pasando un conjunto de parámetros para la configuración y, además, utilizando el fichero dh-init.sh para completar la instalación de un conjunto de librerías desde la zona de configuración avanzada, he sufrido un montónSigue leyendo «A veces, no es aconsejable mezclar peras con manzanas»
How to extend your Data Security at Lakehouse
As you may already know, Lakehouse is an architecture solution developed by Databricks thanks to the Delta Lake file format and built on top of Data Lake. This new approach to data provides many benefits to data teams, but I’m not going to put the spotlight on them at this time, because I’d like toSigue leyendo «How to extend your Data Security at Lakehouse»