Hola !
Ayer publiqué un paso a paso sobre como crear un modelo de reconocimiento de audio a texto con Custom Speech Service. El siguiente paso es un ejemplo de código sobre cómo utilizar el mismo. Para este ejemplo utilizo un archivo wav con un simple párrafo. Desde la consola de prueba de CRIS puedo ver que el mismo se funciona bien.
Lo siguiente es crear una Console App y agregar el paquete NuGet correspondiente a nuestra arquitectura.
Importante: Es necesario cambiar la arquitectura de nuestra app a x86 o x64 para poder utilizar el package sin problemas.
El paquete es el de reconocimiento de texto general utilizando BING (gracias a Victor por el tip!). En caso de querer ver la implementación en WPF, en el repo de GitHub del paquete podemos ver la misma.
Volviendo a la app de Consola, lo siguiente es dar forma a nuestra app. La misma se divide en 3 partes principales
- Inicialización del cliente de STT (speech-to-text)
- Proceso del archivo wav
- Proceso del resultado
El siguiente código es el ejemplo de la App. En el mismo podemos ver
- Como en el main se inicializa el cliente de STT con la información de CRIS que creamos en el post anterior
- Nos suscribimos a los eventos de procesamiento
- En estos eventos mostramos la información en la consola
- Abrimos un stream desde el archivo wav y enviamos el mismo en chunks para que lo procese CRIS
La app en ejecución nos muestra el siguiente resultado.
El código fuente se puede descargar desde GitHub (link)
Saludos @ Toronto (-5!)
El Bruno
References
- El Bruno, Tutorial to create and publish a complete model in Custom Speech Service (#CRIS)
- GitHub, Cognitive Speech STT Windows
- Azure, Use a custom speech-to-text endpoint