Microsoft ha presentado VALL-E, una nueva inteligencia artificial generativa que puede imitar la voz de cualquier persona a partir de un clip de audio de solo tres segundos.
“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, explican.
Además, desde Microsoft están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3. La compañía acaba de anunciar que va a implementar ChatGPT dentro de sus principales soluciones, específicamente dijeron que llegará a Bing en el primer trimestre de este mismo año.
El modelo de Microsoft es capaz de replicar el timbre vocal del hablante, su tono emocional y el entorno acústico del audio con la voz original, de forma que si la grabación corresponde a una llamada de teléfono, el audio generado por VALL-E también sonará así.
VALL-E ha sido entrenada con una biblioteca de audio proporcionada por Meta llamada LibriLight que contiene 60.000 horas de grabaciones de voces en inglés pertenecientes a más de 7.000 personas, un conjunto de datos “cientos de veces más grande que los empleados en modelos existentes”.
Te puede interesar: La mitad de las redes LTE tienen habilitadas el servicio de voz.
La IA consigue los mejores resultados cuando la voz que debe imitar es más parecida a con las que ha sido entrenada.
Entre las utilidades que Microsoft describe para VALL-E se encuentran las aplicaciones de texto a voz, la edición de grabaciones de voz en las que se podría cambiar el contenido a partir simplemente de un texto y la creación de contenidos de audio combinándolo con otros modelos de inteligencia artificial generativa como ChatGPT. Desde su lanzamiento el pasado mes, el sistema de chat con IA ha sido la sensación, debido a que permite crear textos predictivos que logran una gran apariencia de verosimilitud. Eso se debe a que el sistema trabaja con millones de datos que va incorporando constantemente.
De esta manera, el chat no solo es capaz de responder a preguntas con información concreta y actualizada, también ha demostrado que puede crear textos en forma de ensayos.