Your browser doesn’t support HTML5 audio

Meta ha presentado un gran avance en la inteligencia artificial generativa para el habla. Han desarrollado Voicebox, un modelo de IA de vanguardia que realiza tareas de generación de voz que no fueron específicamente entrenadas para realizar, utilizando el aprendizaje en contexto.

Voicebox es capaz de producir clips de audio de alta calidad y editar audio pregrabado. De hecho, es tan avanzado que puede eliminar ruidos indeseables, como bocinas de coches o ladridos de perros, preservando a la vez el contenido y estilo original del audio.

La innovación no se detiene ahí, el modelo es multilingüe y puede generar habla en seis idiomas diferentes, abriendo un amplio abanico de posibilidades para su aplicación.

La versatilidad de Voicebox permitiría en el futuro dotar de voces naturales a asistentes virtuales y personajes no jugables en el metaverso. Las personas con discapacidades visuales podrían escuchar mensajes escritos en sus propias voces generadas por IA, y los creadores de contenido podrían contar con herramientas para crear y editar pistas de audio de manera sencilla.

Entre las funcionalidades de Voicebox se incluyen:

  1. Síntesis de texto a voz en contexto: Voicebox puede imitar un estilo de audio a partir de una muestra de tan solo dos segundos para la generación de texto a voz.
  2. Edición de voz y reducción de ruido: Esta herramienta puede recrear un segmento de habla que se ha interrumpido por ruido o reemplazar palabras mal pronunciadas sin necesidad de regrabar todo el discurso.
  3. Transferencia de estilo entre idiomas: Voicebox puede producir una lectura de un texto en cualquiera de los seis idiomas soportados, incluso cuando la muestra de habla y el texto están en diferentes idiomas. Esto podría usarse en el futuro para ayudar a las personas a comunicarse de manera natural y auténtica incluso si no hablan los mismos idiomas.
  4. Muestreo de habla diversa: Después de aprender de datos diversos, Voicebox puede generar habla que es más representativa de cómo las personas hablan en el mundo real y en los seis idiomas mencionados.

Voicebox marca un importante paso adelante en la investigación de IA generativa de Meta. Este avance promete impulsar no solo la forma en que interactuamos con la tecnología, sino también cómo nos comunicamos entre nosotros en un mundo cada vez más global y digital.

¿Qué tiene de malo y por qué no será público?

Además, aunque Voicebox puede ser una herramienta poderosa para la creación de contenido y la comunicación, también tiene el potencial de ser mal utilizada. La capacidad de duplicar la voz de cualquier persona y generar habla en diferentes idiomas podría ser utilizada para crear deepfakes de voz, lo que podría llevar a la suplantación de identidades y a la ejecución de estafas.

Por estas razones, Meta ha tomado la decisión de no hacer público el código de Voicebox. A diferencia de otros proyectos de Meta, como LLaMA, que es de código abierto y se compartió con la comunidad académica, Meta ha decidido mantener Voicebox en privado para evitar su mal uso. La empresa ha indicado que prefiere seguir investigando en IA de forma responsable y mantener la transparencia en cuanto a los avances en este campo compartiendo sus estudios, pero no el código en sí.