El Bruno

#CognitiveServices – Cómo crear archivos de Audio para utilizar en Custom Speech Service (#CRIS)

Hola !

Hace unos días me preguntaron sobre una forma fácil de crear archivos de audio para usar como DataSets en Custom Speech Service (CRIS). Como ya comenté en un post anterior, los archivos de audio que se utilizan deben tener unas características especiales, con lo que es importante crearlos de forma correcta.

Nota: Que sean WAVs, en mono y otro par de detalles hace que no sea fácil crearlos en un solo paso.

Si bien hay varias formas de crear estos archivos, esta es la que utilizo yo y funciona.

Para grabar el audio utilizo una app que viene por defecto en Windows: Voice Recorder

Clipboard02

Supongo que no hace falta que explique cómo funciona la app. Solo hay que presionar el boton del micrófono. Tampoco esperemos muchas opciones en la sección Settings.

Clipboard03

Una vez que hemos grabado, podremos acceder a la lista de grabaciones. Si vemos la ruta de grabación del archivo veremos que el mismo se graba con el nombre “Recording.m4a”

Ahora es momento de buscar una forma de convertir arvhivos m4a a wav. En este caso yo uso VLC (link). Cómo el software es bastante conocido, no repasaré los detalles del mismo.
En VLC seleccionamos la opción “Media // Convert / Save …”

Clipboard06

Seleccionamos un archivo y presionamos la opción “Convert”

Clipboard08

En este paso debemos crear un perfil con la información necesaria para crear audios compatibles para CRIS.
Yo he creado un perfil llamado “Wav Cris 02” con las siguientes configuraciones
Encapsulation: WAV

Clipboard09

Audio Codec con los valores que requieren los audios de CRIS

Clipboard10

Ahora ya podemos usar este perfil para convertir nuestro archivo m4a a wav

Clipboard11

Listo ! ya tenemos un archivo WAV que es compatible con los requerimientos que proponen en CRIS y podemos utilizar el mismo para nuestros modelos de datos.

Happy coding ! 😀

Saludos @ Burlington

El Bruno

References

El Bruno
- Sample Console App to perform Audio analysis using Custom Speech Service
- Tutorial to create and publish a complete model in Custom Speech Service (#CRIS)
Cognitive Services, Custom Speech Service
VLC, VideoLan

1 Jun 2017

#CognitiveServices – Cómo crear archivos de Audio para utilizar en Custom Speech Service (#CRIS)

Share this:

Leave a comment Cancel reply

Discover more from El Bruno