Unity Catalog en Azure Databricks: gobernando el Lakehouse

En la primera entrada de Unity Catalog describí brevemente qué es Unity Catalog para saltar a la configuración de nuestro primer Metastore. Ahora, vamos a profundizar en los aspecto de gobernanza, comenzando por la creación de grupos.

Como el primer schema que creamos es production, vamos a crear un grupo específico para ese schema. ¡Veamos!

Para ello, lo primero es volver a la Databricks Account y pinchar en el icono de User Management en el panel de la izquierda. Acto seguido ir a la tab de Groups y pulsar sobre «Add group«

Una vez allí, sólo nos queda completar el formulario

Como no tengo ningún usuario de producción, lo primero será añadir un nuevo usuario. ¡Veamos!

Una vez completado el registro, procedemos a incluirle en el grupo «production»

Para finalmente, desde el propio área de trabajo de Databricks asignar los permisos de «Data Editor» al grupo «production team» del que nuestro nuevo usuario es partícipe.

A continuación, vemos el detalle de los permisos otorgados para el schema production

IMPORTANTE: recuerda otorgar permisos sobre el Catalog a tu grupo de recursos o no habrá forma de realizar sus tareas al nivel de Schema como se ha configurado.

Si ahora creo un nuevo Catalog llamado Logistic al que no otorgo permisos y un nuevo Schema dentro del Catalog Production, al que tampoco otorgo ningún tipo de permiso, veo que mi usuario de producción no ve el nuevo Catalog y aunque ve el nuevo Schema, no podrá realizar ninguna tareas sobre él.

Antes de concluir, creo un nuevo schema llamado ‘manufacturing’ e incluyo al grupo de production dentro de él. Además, creo una tabla ‘deparment’, con lo que veremos si ese recurso aparece como visible cuando terminemos de asignar permisos a nuestro usuario del grupo de ‘production’.

Azure Active Directory
Pero para que todo realmente funcione, debemos gestionar previamente al usuario en nuestro Azure Active Directory. Ya sea de un modo más eficiente, es decir a través de la creación de un grupo y su inclusión o de manera atómica gestionando uno a uno los usuarios. Algo que es del todo desaconsejable.

Vamos a crear nuestro grupo de Production dentro del AAD. Para ello, vamos hasta apartado de Grupos en el Menú de Gestión a la izquierda, pulsamos y completamos el formulario.

En el mismo proceso de creación, añadimos a nuestro compañero de equipo de producción. Una vez completado el proceso, vamos a asignar el rol de Contribuidor al Grupo de Producción, en este ejemplo el nivel será de grupo de recurso.

NOTA: recuerda que puedes limitar los permisos sobre los distintos elementos, no necesariamente sobre el grupo de recursos al completo. Pero eso es más de la AZ104 😉

Para completar este paso, simplemente tenemos que ir a nuestro grupo de recursos, pulsar sobre «Access Control (IAM)» y seleccionar añadir rol. En este caso es Contributor y en miembros, seleccionamos la opción User, group… y buscamos en el cuadro de texto a nuestro Grupo. Seleccionamos y continuamos

Azure Databricks Workspace
Si ahora accedo con el nuevo usuario al Databricks Workspace, esto será lo que vea:

Y si pincho sobre el icono de «Data» en el menú de la izquierda, el resultado será que puedo ver los Schema que se encuentran dentro del Catalog al que me han otorgado permisos, pero no podré realizar ninguna actividad sobre el conjunto de objetos que allí se encuentren.

En estos momentos, el responsable de la cuenta de Databricks ha decidido crear un conjunto de tablas gracias a la creación de un clúster. Por cierto, recuerda que el clúster debe ser compatible con Unity Catalog

Y como la ha creado sobre el schema de ‘manufacturing’, nuestro usuario del grupo ‘production’ podrá ver el recurso y comprobar sus permisos.

CONCLUSIÓN
La combinación de Azure Active Directory y Databricks ofrece una de las mejores soluciones de seguridad y gestión de permisos y roles con las que gestionar tus aplicaciones de Analítica Avanzada.

En las próximas entradas de Unity Catalog hablaré sobre características tan potentes como Delta Sharing, así como el uso de Data linaje y su conexión con Microsoft Purview. Muy pronto más acerca del ecosistema de Datos en Azure.

Foto de portada gracias a George Becker: https://www.pexels.com/es-es/foto/teclas-negras-y-grises-792034/

Publicado por alb3rtoalonso

Soy un enamorado del poder de los datos. Entusiasta de la mejora y formación continua.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: