Aplicando Data Quality en Microsoft Purview

El Gobierno del Dato es fundamental para que las organizaciones empresariales comiencen a obtener beneficios tangibles a través de la explotación de los datos y para ello, estos deben ser de calidad suficiente como para que las decisiones a tomar sean acertadas. Recordar la frase de «Basura dentro, basura fuera«. Pues eso, si nuestros datos son «malos», las decisiones serán igualmente «malas». Así que, incorporar soluciones que permitan gestionar la calidad de tus datos se antoja básico para comenzar a construir con certidumbre.

En esta ocasión se va a presentar un breve step-by-step en Microsoft Purview acerca de cómo arrancar con la aplicación de Data Quality en tus activos de datos. Para ello, lo primero que has de configurar es el Business Domain. Aquí tan sólo debes acceder al área de Data Management y pulsar sobre el botón de creación.

Al pulsar dicho botón, se muestra un formulario donde se deben incluir un conjunto de detalles, veamos.

En nuestro caso, vamos a usar los siguientes atributos para definir el primer Business Domain:

  • Name: Sales.
  • Description: Sales information.
  • Type: Functional unit (recordar que se puede elegir entre estos cinco conceptos: Functional unit, Line of business, Data Domain, Regulatory y Project).
  • Parent: en este caso se deja vacío.

Una vez creado, tendrá un aspecto similar a este.

El siguiente paso es el de crear el primer Data Product. En este caso será Customer Master List y para ello, tan sólo se debe acceder al subárea de Data products desde el menú de la izquierda o pulsar directamente sobre el link de la sección de la página de arriba.

En este caso, los valores que se van a incluir en los distintos campos son:

  • Name: Customer Master List
  • Description: Customer information from all source system solutions
  • Type: Master data and reference data (recordar que se puede elegir entre estos seis conceptos: Dataset, Master data and reference data, Business System / Application, Model types, Dashboard / Reports, Operational)
  • Owner: yo
  • Business domain: Sales
  • Use cases: Collect and manage all Customer information
  • Endorsed: Null

Una vez se completa este paso, se muestra un formulario donde nos indica si queremos incluir activos de datos o comenzar con el set up de las políticas de acceso. En este caso, se continúa con la primera de las opciones.

Al continuar, directamente se muestra esta pantalla con el detalle de los activos de datos que se han escaneado en un paso previo. Por cierto, en breve se publicará el artículo donde se describen los pasos a seguir para ello.

Para la ocasión, seleccionamos únicamente la Tabla con nombre DimCustomer y pulsamos sobre el botón Add.

Acto seguido, se mostrará el activo de datos dentro del Data Product configurado como Customer Master List.

NOTA: Aquí, particularmente, me encanta la opción de construir OKRs con los que ayudarte a visibilizar el avance y cumplimiento de metas. Sin embargo, en esta entrada no comenzaré con la creación de los mismos. Lo dejo para una posterior.

Si ahora saltamos a la subárea de Data quality observamos el Business Domain previamente creado, con un único Data product y actualmente si ningún valor en el campo de Data Quality. Eso se debe a que no se ha realizado ningún check todavía. Veamos cómo aplicar esas revisiones de calidad.

Para ello, pulsamos sobre el desplegable «Manage»

Y lo siguiente, es crear una conexión, para ello se pulsa sobre la opción «Connections».

Se completa el conjunto de campos que se requiere para validar la conexión.

NOTA: recuerda gestionar adecuadamente los permisos para Purview sobre el origen de los datos, en este caso Azure SQL Database.

Ya se dispone de la conexión a AdventureWorksDW2022

En este momento, ya se puede comenzar a trabajar en la creación de reglas de calidad sobre el activo de datos DimCustomer.

Se pulsa sobre el botón de «New rule» y aparece un formulario que muestra los diferentes tipos de reglas a seleccionar. Existe incluso una opción llamada Custom donde la organización puede crear sus propias iniciativas de calidad.

El conjunto de reglas disponibles es el siguiente:

  • Duplicate rows
  • Empty / blank fields
  • Unique values
  • Data type match
  • String format match
  • Table lookup
  • Custom

Para la primera regla se selecciona Empty / blank fields sobre la columna CustomerKey

Si ahora se pulsa el botón de «Run quality scan», se ejecutará el proceso de validación de dicha regla de calidad.

Y eso nos devuelve un score que nos ayuda a comprender el nivel de cumplimiento de dicha regla en el set de datos que contiene la tabla en cuestión.

CONCLUSIÓN
Si el modelo de madurez de datos de tu organización tiene margen de mejora y piensas que la calidad es uno de esos pilares que aún no se ha abordado correctamente, no dudes en chequear soluciones como Microsoft Purview. Como has podido ver, no es complicado trabajar con la herramienta y aplicando unas mínimas reglas de calidad fundadas en un framework de buenas prácticas, el retorno será medible y satisfactorio. ¡Sin duda!

Foto de portada gracias a Miguel Á. Padriñán: https://www.pexels.com/es-es/foto/2-cuadrado-blanco-sobre-superficie-naranja-2882636/

Publicado por alb3rtoalonso

Soy un enamorado del poder de los datos. Entusiasta de la mejora y formación continua.

Deja un comentario