Perdiendo el miedo a la IA

La entrada de hoy corresponde a un ejemplo de cómo consumir los Servicios Cognitivos de Azure desde una REST API, mediante Postman. Para ello, lo primero es descargarnos el software e instalarlo en caso de que no lo tuviéramos previamente. Voy a su web y descargo el programa, en mi caso el de 64 bits.

Finalizada la descarga, inicio la instalación y una vez completada creo un nuevo Request.

Mientras tanto, podemos ir al portal de Azure y crear nuestro nuevo servicio. Como siempre, lo primero es otorgarle un nombre, vincular la suscripción, determinar la mejor ubicación del mismo y finalmente elegir el plan de tarifa y el grupo de recursos.

NOTA: En este ejemplo he utilizado el plan Free, sin embargo en sucesivas entradas lo cambiaré a standard para utilizar mayores capacidades.

Una vez creado, sólo queda ir al área de claves y puntos de conexión y copiar la Clave 1. Esta clave es la que deberemos incluir en nuestra petición POST.

En Postman, incluiremos esta información sustituyendo la región por aquella donde hayamos incluido nuestro servicio en Azure. En mi caso será westeurope, pero puedes ver el código de tu región aquí:

https://<turegion&gt;.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1

Configuro en Postman los parámetros de entrada como lenguaje y formato, para continuar con el header.

Aquí configuro los parámetros Accept y Content-Type para adecuarlo al tipo de archivo que utilizaremos, en mi caso un .wav , y por último en Ocp.Apim.Subscription-Key incluyo el valor copiado anteriormente de mi Clave 1.

Ahora queda incluir el fichero a transcribir, para ello voy hasta la pestaña de Body, selecciono binary y busco mi fichero de sonido. Llegados hasta aquí, sólo queda cambiar el método de GET a POST y pulsar sobre envío.

El resultado que obtenemos tras el envío, es un JSON similar a éste, donde nos muestra el nivel de confianza en la traducción y el resultado de la misma. Parece que viene repetido cuatro veces, lo que sucede es que cada una de ellas nos devuelve un resultado distinto.

Por ejemplo Lexical nos muestra todas aquellas palabras reconocidas, mientras que Display nos muestra incluso el formato de presentación del texto reconocido, incluyendo los signos de puntuación y mayúsculas. MaskedITN enmascara aquellas palabras soeces y/o malsonantes y ITN donde podremos ver abreviaturas, números de teléfono.

CONCLUSIÓN
La Inteligencia Artificial ha venido para ayudarnos a mejorar nuestros procesos y ser más eficientes, pero también para ofrecernos construir soluciones de un modo sencillo, como sucede con Azure Cognitive Services. En esta breve entrada hemos podido comprobar lo sencillo que es consumir un servicio de transcripción desde voz a texto, y no sólo a través de ficheros de audio, sino que también se puede realizar la transcripción en tiempo real mediante el SDK de Azure. Todo esto nos abre un abanico de casos de uso muy interesante, como por ejemplo, transcribir todas las conversaciones de mi CRM y utilizar técnicas de Text Mining para extraer patrones, que me permitan afinar mis modelos de Abandono o Churn.

Foto de portada gracias a Alex Knight en Pexels

Publicado por alb3rtoalonso

Soy un enamorado del poder de los datos. Entusiasta de la mejora y formación continua.

2 comentarios sobre “Perdiendo el miedo a la IA

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: