Hola !
Hace unos días me preguntaron sobre una forma fácil de crear archivos de audio para usar como DataSets en Custom Speech Service (CRIS). Como ya comenté en un post anterior, los archivos de audio que se utilizan deben tener unas características especiales, con lo que es importante crearlos de forma correcta.
Nota: Que sean WAVs, en mono y otro par de detalles hace que no sea fácil crearlos en un solo paso.
Si bien hay varias formas de crear estos archivos, esta es la que utilizo yo y funciona.
- Para grabar el audio utilizo una app que viene por defecto en Windows: Voice Recorder
- Supongo que no hace falta que explique cómo funciona la app. Solo hay que presionar el boton del micrófono. Tampoco esperemos muchas opciones en la sección Settings.
- Una vez que hemos grabado, podremos acceder a la lista de grabaciones. Si vemos la ruta de grabación del archivo veremos que el mismo se graba con el nombre “Recording.m4a”
- Ahora es momento de buscar una forma de convertir arvhivos m4a a wav. En este caso yo uso VLC (link). Cómo el software es bastante conocido, no repasaré los detalles del mismo.
- En VLC seleccionamos la opción “Media // Convert / Save …”
- Seleccionamos un archivo y presionamos la opción “Convert”
- En este paso debemos crear un perfil con la información necesaria para crear audios compatibles para CRIS.
- Yo he creado un perfil llamado “Wav Cris 02” con las siguientes configuraciones
- Encapsulation: WAV
- Audio Codec con los valores que requieren los audios de CRIS
- Ahora ya podemos usar este perfil para convertir nuestro archivo m4a a wav
- Listo ! ya tenemos un archivo WAV que es compatible con los requerimientos que proponen en CRIS y podemos utilizar el mismo para nuestros modelos de datos.
Happy coding ! 😀
Saludos @ Burlington
El Bruno
References