Cuando a finales del pasado año, Microsoft anunció la llegada de Azure Synapse como la evolución del clásico Azure SQL Datawarehouse, muchos sentimos la curiosidad de ir más allá y entender todo su potencial. Y gracias a esas ganas, hoy puedo ofreceros este post.
He leído algún artículo, como el que anunciaba su llegada y hablaba de la alta capacidad para ejecutar análisis de petabytes de información.
Fuente: Microsoft, Noviembre de 2019. “Simplemente inigualable, realmente ilimitado: anuncio de Azure Synapse Analytics”. https://azure.microsoft.com/es-es/blog/simply-unmatched-truly-limitless-announcing-azure-synapse-analytics/
Esa capacidad de procesamiento de cantidades ingentes de información, se explica cuando comprendes el conjunto de tecnologías que componen Azure Synapse. Viene a ser como si juntaras:
Y por otro lado, añadieras las capacidades de análisis de un gran conjunto de servicios adicionales de Microsoft como:
Para posibilitar en una única herramienta:
- Escalabilidad tanto horizontal como vertical
- Una experiencia de análisis unificada
- Acceso sencillo a información útil
- Disponibilidad de ejecución free-code
- Almacén de datos empresarial
- Alto nivel de seguridad de los datos
Pero, si tuviera que definir de un modo claro y sencillo a Azure Synapse, diría que es un almacén de datos empresarial (EDW) basado en la nube de Azure que hace uso del procesamiento masivo y paralelo (MPP) para ejecutar queries a través de grandes cantidades de datos de un modo rápido. Y que su uso está recomendado cuando necesitas mantener datos históricos separados de los sistemas transaccionales por motivos de rendimiento.
Los componentes que integran Azure Synapse desde el punto de vista de procesamiento de la información, son:
Un Nodo de Control que es el responsable de la optimización y coordinación de la paralelización de las queries.
Un conjunto de Nodos de Computación que proveen de la capacidad de cómputo analítico, se encuentran separados de los Nodos de Almacenamiento y se escalan usando la Unidad de Data Warehouse (DWU). Estos nos permiten configurar la combinación de CPU, Memoria y IO además de permitirnos escalar, aumentando o disminuyendo, la configuración en función de nuestras necesidades.
Por último, mencionar el Servicio de Movimiento de Datos (DMS), que es una tecnología de transporte de datos que coordina el movimiento de datos entre los Nodos de Computación. Esto posibilita que cuando se lanza una query, el trabajo se divida en 60 mini-queries que se ejecutan en paralelo. Esto es uno de los puntos clave de Azure Synapse, al tratarse de un sistema de procesamiento de información distribuido a través de 60 espacios de trabajo, cobra especial importancia cómo distribuyo los datos.
CONCLUSIÓN
Azure Synapse es una gran herramienta de análisis de datos. Se integra con Microsoft Power Bi para visualizar de un modo sencillo la información almacenada, además dispones de la posibilidad de usar Visual Studio, ya que igualmente está integrado.
En cuestiones de seguridad, dispones de la capacidad de Advanced Data Security, además de poder habilitar el cifrado transparente de datos en reposo. También dispones de la posibilidad de recoger las métricas de performance en Azure Storage, por si no quieres usar su propio monitor de métricas.
Por último comentar que, sólo pagas por el tiempo de uso del servicio, si bien debes recordar pararlo para no incurrir en gastos innecesarios. Informa que el coste por hora de la configuración mínima es de 1,27 euros.
En definitiva, una gran herramienta de análisis siempre y cuando el volumen de datos y los requerimientos de cómputo lo justifiquen.