La IA de Google ya traduce 70 idiomas sin pausas ni filtros
Imagina hablar en español con alguien que solo entiende mandarín, y que ninguno de los dos tenga que esperar. Eso es exactamente lo que Google presentó hoy.
El 9 de junio de 2026, Google publicó en The Keyword el lanzamiento de Gemini 3.5 Live Translate, un modelo de audio que convierte voz en voz en tiempo real, en más de 70 idiomas, sin requerir que el hablante termine una oración completa antes de traducir. El anuncio lo firmaron Anuda Weerasinghe, gerente de producto, y Tony Lu, ingeniero senior de software en Google.
Lo que hace diferente a este sistema no es solo la cantidad de idiomas. A diferencia de los traductores convencionales que operan por turnos, Gemini 3.5 Live Translate genera el audio de forma continua, manteniéndose apenas unos segundos detrás del hablante, detectando el idioma automáticamente y preservando la entonación, el ritmo y el tono de la voz original. No suena a síntesis mecánica. Suena, según los ingenieros del proyecto, a la misma persona hablando otro idioma.
Jesse Hall, developer advocate de LiveKit —una de las plataformas integradas—, describió el modelo como algo que hace que la comunicación de voz multilingüe sea effortless. En una demo que él mismo construyó sobre LiveKit Agents, cada participante en una sesión habló su propio idioma y entendió a los demás en tiempo real.
El acceso no está limitado a un solo producto. La tecnología se está desplegando simultáneamente en Google Translate para iOS y Android, en Google Meet y en la Gemini Live API para desarrolladores. Para Google Meet, la vista previa privada arranca este mes para clientes Workspace seleccionados, con disponibilidad más amplia prevista para más adelante en 2026.
En el plano empresarial, las implicaciones son inmediatas. La empresa de transporte Grab ya está probando la tecnología para la comunicación entre conductores y pasajeros en tiempo real, manejando millones de llamadas de voz mensuales. El modelo admite más de 2.000 combinaciones de idiomas en una sola reunión, eliminando la restricción anterior que exigía que al menos uno de los participantes hablara inglés —una limitación que afectaba directamente a usuarios fuera del mundo angloparlante.
Hay un detalle técnico que no es menor en un contexto de desinformación creciente: todo el audio generado por el modelo lleva marca de agua de SynthID, el sistema de trazabilidad de Google, para que cualquier audio traducido por IA pueda ser identificado como tal.
Gemini 3.5 Live Translate fue presentado originalmente como parte de la familia Gemini 3.5 en Google I/O 2026, el 19 de mayo, y representa la especialización en audio dentro de esa generación de modelos. Google ya publicó código de ejemplo en el Gemini Cookbook y trabaja con plataformas como Agora, Fishjam y Pipecat para que los desarrolladores puedan construir encima sin tener que resolver la infraestructura de streaming por su cuenta.
La disponibilidad general en Meet llegará en algún momento del segundo semestre. Hasta entonces, queda la API —y la sensación de que los intérpretes humanos acaban de tener una conversación muy incómoda con su futuro laboral.