Hace unos días volví a echar un vistazo a la Matriz de Gartner publicada en el verano del año pasado y me paré en la columna 2 – 5 Years, y más concretamente en la estrategia Data Hub. El motivo nace de la evolución que están sufriendo las arquitecturas modernas de datos para dar respuestas a las necesidades empresariales. Y justo por eso he decidido escribir este breve artículo puede resultar de interés.
Pues eso, que según el estudio, la adopción de una correcta estrategia Data Hub ocurrirá entre dos a cinco años, y como se puede ver, el beneficio que se espera obtener, tras dicha implementación por parte de las organizaciones que se lancen a ello, es alto. Por lo que, avanzar en el conocimiento y puesta en práctica de las correctas tecnologías se antoja fundamental, si lo quieres hacer bien y no ir dando tumbos.
Pero antes de avanzar, creo que tiene sentido incluir la definición que Gartner tiene para Data Hub Strategy: «Una estrategia de centro de datos determina de manera efectiva dónde, cuándo y cómo se deben mediar, gobernar y compartir los datos en una empresa. Superpone los requisitos de gobernanza de datos y análisis sobre las demandas de uso compartido para establecer los patrones del flujo de datos. La estrategia impulsa la implementación de uno o más centros de datos, arquitecturas que permiten el intercambio y el acceso a datos conectando a los productores de datos (aplicaciones, procesos y equipos) con los consumidores de datos (otras aplicaciones, procesos y equipos).«

Es por ello, que te debe resultar de interesante conocer las posibilidades que ofrece el proyecto Apache Polaris en general. Aunque, hoy hablaré únicamente de uno de sus componentes Open Catalog desde Snowflake.
¿Qué es Open Catalog?
Es una de las soluciones que Data Lakes contruidos sobre Apache Iceberg presentan y que permite compartir datos entre organizaciones e incluso clouds sin necesidad de andar moviendo datos de un lado para otro. Algo que, por cierto, cada vez se demanda más en el entorno empresarial. Poder compartir información de un modo eficiente, con costes controlados y de forma segura es una de las principales características que se debe incluir en una arquitectura de datos moderna.
Para hacer posible que múltiples motores de procesamiento de datos puedan explotar los datos de tu Data Lake, necesitas persistirlos en el formato Open Source, Apache Iceberg y crear una capa de API por encima que haga posible el acceso a la información de un modo gestionado.

Si estás convencido de que esta capacidad en disponibilidad general (GA) puede resultar interés para tu organización, de cara a actualizar tu arquitectura empresarial, no dudes en seguir leyendo 😉
¿Creamos nuestro primer Open Catalog?
Para comenzar a usar la parte de Open Catalog conjuntamente con Snowflake tan sólo tienes que disponer de una cuenta en vigor o lanzarte a por una trial de 30 días. Lo que mejor te cuadre. Una vez dispones de la cuenta, lo siguiente es acceder a ella y pulsar sobre Admin y en un segundo paso, pulsar sobre Account para crear nuestro recurso Open Catalog

El siguiente mensaje te indica del coste del servicio. En este caso es sobre Azure y la región es la misma que la región donde desplegué mi solución de Snowflake con la cuenta trial.

Finalmente, para crear la cuenta de Open Catalog, tan sólo debes incluir los datos que se indican en el formulario

Y al completarlo, ¡Zas! ya tenemos cuenta de Open Catalog disponible

La url para acceder a la pantalla de login de Open Catalog es: https://adgsyvs-snowflake_open_catalog_acc.snowflakecomputing.com
Y una vez te loggeas, accedes a la siguiente página

Mientras tanto, en nuestra cuenta de Snowflake ya aparece el recién creado Open Catalog.

Para crear el primer catalog, sólo debo rellenar el formulario que me pide información del tipo:
- Nombre: snow-catalog-01
- Proveedor: Azure
- Localización por defecto: En caso de tratarse de un Blob, algo como esto
abfss://<container_name>@<storage_account_name>.blob.core.windows.net/<directory_name>/ - Tenant ID: este está en el EntraID de tu suscripción de Azure 😉

Una vez completado el formulario, pulsamos crear y tendríamos nuestro primer Catálogo en Snowflake y Azure

Lo siguiente es configurar un Namespace, tan sólo seleccionando el Catalog recién creado e incluyendo el nombre que decidas:

El resultado sería algo como esto:

A partir de aquí, crear los objetos, asignar permisos, conectar nuevas soluciones de Snowflake, etc. Esto hace que Open Catalog y sobre todo Apache Polaris sean proyectos a seguir si estás valorando adoptar formatos Open Source en tu organización y si tienes en el roadmap la creación de una correcta estretagia Data Hub.
NOTA: La creación de objetos, permisos, etc lo describiré en la segunda parte de esta entrega
¿Quieres saber más?
En caso de querer ampliar conocimientos al respecto de las posibilidades que Open Catalog puede brindar a tu organización, dejo aquí algún link de interés:
https://www.snowflake.com/en/product/features/open-catalog/
https://other-docs.snowflake.com/en/opencatalog/overview
https://docs.snowflake.com/en/sql-reference/sql/create-catalog-integration-open-catalog
Foto de portada gracias a Pixabay: https://www.pexels.com/es-es/foto/vista-cercana-del-plasma-256302/