#CognitiveServices – How to create audio files for Custom Speech Service (#CRIS)

Hello!

A few days ago I was asked about an easy way to create audio files to be used as datasets in Custom Speech Service (CRIS). As I mentioned in a previous post, the audio files must have special features, so it is important to create them correctly.

Note: the files are WAVs files, mono and another pair of details makes it not easy to create them in a single step.

Although there are several ways to create these files, this is the one I use and it works.

  • To record the audio I use an app that comes by default in Windows: Voice Recorder

Clipboard02

  • I guess I don’t need to explain how the app works. Just press the microphone button. Nor do we expect many options in the Settings section.

Clipboard03

  • Once we have recorded a session, we can access the list of recordings. If we see the record path of the file we will see that it is recorded with the name “Recording.m4a”

Clipboard04.png

  • Now is the time to find a way to convert M4A files to WAV. In this case I use VLC (link). The software is well known, so I will not write a lot about it. In VLC Select the option “Media // Convert / Save …”

Clipboard06

  • Select a file and press the option “Convert”

Clipboard08

  • In this step we must create a profile with the information needed to create compatible CRIS compatible files.
  • I created a profile called “WAV Cris 02” with the following configurations
  • Encapsulation: WAV

Clipboard09

  • Audio codec with the values required by CRIS

Clipboard10

  • Now we can use this profile to convert our M4A file to WAV

Clipboard11

  • Ready! We have a WAV file which is compatible with CRIS requirements and we can use the file for our data models.

Happy coding ! 😀

Saludos @ Burlington

El Bruno

References

Advertisements

#CognitiveServices – Cómo crear archivos de Audio para utilizar en Custom Speech Service (#CRIS)

Hola !

Hace unos días me preguntaron sobre una forma fácil de crear archivos de audio para usar como DataSets en Custom Speech Service (CRIS). Como ya comenté en un post anterior, los archivos de audio que se utilizan deben tener unas características especiales, con lo que es importante crearlos de forma correcta.

Nota: Que sean WAVs, en mono y otro par de detalles hace que no sea fácil crearlos en un solo paso.

Si bien hay varias formas de crear estos archivos, esta es la que utilizo yo y funciona.

  • Para grabar el audio utilizo una app que viene por defecto en Windows: Voice Recorder

Clipboard02

 

  • Supongo que no hace falta que explique cómo funciona la app. Solo hay que presionar el boton del micrófono. Tampoco esperemos muchas opciones en la sección Settings.

Clipboard03

  • Una vez que hemos grabado, podremos acceder a la lista de grabaciones. Si vemos la ruta de grabación del archivo veremos que el mismo se graba con el nombre “Recording.m4a”

Clipboard04.png

  • Ahora es momento de buscar una forma de convertir arvhivos m4a a wav. En este caso yo uso VLC (link). Cómo el software es bastante conocido, no repasaré los detalles del mismo.
  • En VLC seleccionamos la opción “Media // Convert / Save …”

Clipboard06

  • Seleccionamos un archivo y presionamos la opción “Convert”

Clipboard08

  • En este paso debemos crear un perfil con la información necesaria para crear audios compatibles para CRIS.
  • Yo he creado un perfil llamado “Wav Cris 02” con las siguientes configuraciones
  • Encapsulation: WAV

Clipboard09

  • Audio Codec con los valores que requieren los audios de CRIS

Clipboard10

  • Ahora ya podemos usar este perfil para convertir nuestro archivo m4a a wav

Clipboard11

  • Listo ! ya tenemos un archivo WAV que es compatible con los requerimientos que proponen en CRIS y podemos utilizar el mismo para nuestros modelos de datos.

Happy coding ! 😀

Saludos @ Burlington

El Bruno

References