Aplica Cluster Policies en Azure Databricks y evita sustos

Azure Databricks en uno de los principales componentes en desarrollos de Analítica Avanzada y como pieza clave, ofrece la posibilidad de configurarse al gusto de cada uno. Algo que en entornos empresariales puede conllevar ineficiencias y sobrecostes. Con respeto al segundo punto, sólo hace falta echar un vistazo al presupuesto de abajo para entender lo importante que es «controlar» el tipo de máquinas a utilizar, o la factura a final del mes, puede provocar algún que otro «susto» 😉

Pues eso, tal y como mencionada, el control y la ayuda a la hora de la configuración de los distintos componentes resulta de gran ayuda para los integrantes de los diferentes equipos. Ahora veamos cómo hacerlo.

Lo primero es disponer de permisos sobre las suscripción, sino no hay opción a crear e implementar Políticas sobre los componentes. Además de elegir el tier Premium de Azure Databricks. Una vez completado, lanzaremos nuestro Workspace y a crear Policies 😉

Una vez desplegado nuestro Azure Databricks Workspace, debemos ir al área de Compute y desde ahí pinchar sobre la pestaña de «Cluster policies» donde podremos incluir todas aquellas condiciones que nos ayuden a limitar y controlar los recursos que puedan ser creados bajo nuestra suscripción.

Vamos a realizar un sencillo ejemplo, sin embargo os dejo un link a la documentación de Microsoft donde profundizar en el apasionante mundo de la Policies, aquí

En nuestro ejemplo, vamos a configurar tres atributos, el primero es el de fijar el apagado automático del clúster al pasar 20 minutos. Además este set está oculto al configurar «hidden»: true. El siguiente atributo es el que afecta al número de workers del clúster, que en nuestro caso nos limitará a elegir entre 1 o 2. Finalmente configuramos el tercer atributo que tiene por objeto fijar la versión de Spark. En este ejemplo, se configura utilizando «Regular expression«.

{
  "autotermination_minutes": {
    "type": "fixed",
    "value": 20,
    "hidden": true
  },
  "num_workers": {
    "type": "range",
    "minValue": 1,
    "maxValue": 2
  },
  "spark_version": {
    "type": "regex",
    "pattern": "9\\.[0-9]+\\.x-scala.*"
  }
}

Ahora tan sólo quedaría crear un clúster de Azure Databricks y comprobar cómo se comporta la Policy recién creada. Lo primero que vemos al pulsar sobre crear el clúster y seleccionar la política creada es el warning que nos avisa acerca de que nuestra Regex no está siendo cumplida en cuanto a la versión de Spark.

Sólo tenemos que pulsar sobre el desplegable y seleccionar la correcta para ver cómo el mensaje de warning desaparece.

Si por otro lado, tratamos de buscar nuestro configuración sobre el apagado automático, observamos que no podemos ver su información. Esto se debe a que decidimos ocultar el setting (como ya avancé un poco más arriba usando «hidden»: true)

En último lugar vamos a incrementar el número de Workers a 4, a ver qué sucede.

Pues como no podía ser de otra manera, nos aparece un nuevo warning que nos avisa acerca de que hemos rebasado el límite máximo de workers permitidos. Pues el rango está entre 1 y 2.

CONCLUSIÓN
La definición y aplicación de Políticas Corporativas ayudan a evitar incurrir en sobrecostes y permitir definir claramente las estrategias de negocio en cuanto a elementos como seguridad, eficiencia y personalización. Es algo que debe estar definido y consensuado con los equipos de infraestructura y Managers para que sea incorporado por defecto en los pipelines de despliegue de infra. Así se evitarán susto innecesarios y algún que otro dolor de cabeza.

Foto de portada gracias a Mikhail Nilov: https://www.pexels.com/es-es/foto/hombre-pareja-gente-mujer-6963023/

Publicado por alb3rtoalonso

Soy un enamorado del poder de los datos. Entusiasta de la mejora y formación continua.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: