Aplica Cluster Policies en Azure Databricks y evita sustos

Azure Databricks en uno de los principales componentes en desarrollos de Analítica Avanzada y como pieza clave, ofrece la posibilidad de configurarse al gusto de cada uno. Algo que en entornos empresariales puede conllevar ineficiencias y sobrecostes. Con respeto al segundo punto, sólo hace falta echar un vistazo al presupuesto de abajo para entender loSigue leyendo «Aplica Cluster Policies en Azure Databricks y evita sustos»

Registra una aplicación con Azure AD y crea un Service Principal para vincular ADLS con Azure Databricks

En este documento realizaré un step by step que describa cómo montar Azure Data Lake Storage Gen2 en Azure Databricks de cara a componer una arquitectura Lakehouse, empecemos. Partimos de un ADLS previamente creado, para ello recordar que, es básico seleccionar la opción de jerarquía. Por lo que, una vez desplegado el recurso, lo siguienteSigue leyendo «Registra una aplicación con Azure AD y crea un Service Principal para vincular ADLS con Azure Databricks»

Comienzo con MLOps y continuo con Lakehouse. ¡Larga vida a Databricks!

Hace unos días obtuve mi primera insignia de Databricks, se trató de la Lakehouse Fundamental. Ciertamente no es complicada de obtener y en este caso además, el examen es gratuito, con lo que si pretendes avanzar en el conocimiento de su stack tecnológico, estás a tiempo. Tan sólo tienes que inscribirte en la Academia deSigue leyendo «Comienzo con MLOps y continuo con Lakehouse. ¡Larga vida a Databricks!»

Replicando el Data Pipeline de Zendesk desde AWS a Azure, parte I

Hace unos días leí el caso de éxito de arquitectura de datos de la empresa Zendesk sobre AWS y decidí hacer un ejercicio de revisión y adaptación del mismo en Azure. En esta primera entrada, el scope es el relativo a la para del Data Lake Pipeline marcado en rojo. Lo primero es crear losSigue leyendo «Replicando el Data Pipeline de Zendesk desde AWS a Azure, parte I»

DataOps con Visual Code, Azure Databricks y Azure Data Factory

En la primera entrada de DataOps con Visual Code y Azure Databricks realicé un step by step para conectar nuestro IDE con Azure Databricks y así poder ejecutar en local nuestros scripts de Spark (recordar que soporta varios lenguajes como pySpark, SparkQL, Scala, R). En la entrada de hoy, hablo acerca de cómo configurar losSigue leyendo «DataOps con Visual Code, Azure Databricks y Azure Data Factory»

DataOps con VS Code y Azure Databricks

En más de una ocasión he hablado acerca de la importancia de desarrollar con calidad nuestros proyectos, algo que resulta especialmente delicado cuando de datos se trata y es ahí, por tanto, donde cobra especial relevancia la adopción de buenas prácticas y cómo éstas se ponen en valor. En mi caso, abogo por utilizar unSigue leyendo «DataOps con VS Code y Azure Databricks»