Google presentó una actualización mayor de Gemini 3 Deep Think, su modo especializado de razonamiento para ciencia, investigación e ingeniería, con nuevos récords en pruebas de inteligencia artificial avanzada y apertura parcial a investigadores y empresas.
Google lanza una versión mejorada de Gemini 3 Deep Think
Google anunció una actualización importante de Gemini 3 Deep Think, diseñado para abordar problemas complejos donde los datos son incompletos y no existe una única respuesta correcta.
El modelo se centra en tareas de alta exigencia en matemáticas, física, química, informática y problemas de ingeniería.
La compañía describe esta versión como una evolución que combina conocimiento científico profundo con utilidad práctica para ingenieros y profesionales.
Benchmarks y rendimiento de Deep Think
La versión mejorada de Gemini 3 Deep Think alcanzó 84.6% en ARC-AGI-2, una de las pruebas de razonamiento más estrictas, superando a otros modelos de frontera.
En Humanity’s Last Exam, una evaluación de preguntas complejas de nivel PhD, el modelo logró 48.4% sin usar herramientas externas.
En programación competitiva, obtuvo 3,455 puntos Elo en Codeforces, acercándose al grupo de los mejores competidores humanos activos.
Además, demostró desempeño de nivel medalla de oro en las secciones escritas de las Olimpiadas Internacionales de Física y Química 2025 y marcó 50.5% en el CMT-Benchmark de física teórica.
| Benchmark | Resultado | Descripción |
|---|---|---|
| ARC-AGI-2 | 84.6% | Prueba de razonamiento abstracto resistente a la memorización. |
| Humanity’s Last Exam | 48.4% (sin herramientas) | Preguntas avanzadas de múltiples disciplinas a nivel doctorado. |
| Codeforces | 3,455 Elo | Rendimiento equivalente a programadores de élite mundial. |
| Olimpiadas 2025 | Nivel medalla de oro | Física y Química, secciones escritas. |
| CMT-Benchmark | 50.5% | Prueba de física teórica avanzada. |
Aplicaciones reales en investigación
Gemini 3 Deep Think se está utilizando como asistente de investigación para revisar demostraciones matemáticas, buscar contraejemplos y proponer nuevas conjeturas.
El modelo se ha aplicado en ámbitos donde el razonamiento formal y la verificación rigurosa son clave, como física de altas energías, teoría de números y optimización de sistemas de ingeniería.
Google DeepMind lo posiciona como un “compañero científico” capaz de manejar la búsqueda de información y la verificación, mientras las personas se enfocan en la intuición y la creatividad.
Aletheia: agente autónomo basado en Deep Think
Sobre Gemini 3 Deep Think se construyó Aletheia, un agente de investigación matemática que combina subagentes para generar, verificar y revisar soluciones de forma iterativa.
Este agente ha resuelto ejercicios de nivel doctoral y cuatro problemas abiertos en una base de datos de conjeturas de Erdős, llegando incluso a generalizar uno de ellos y producir un artículo independiente.
DeepMind propone además una escala de “niveles de autonomía” para clasificar cuánta parte del resultado proviene realmente del sistema de IA, desde apoyo secundario hasta trabajo esencialmente autónomo.
Disponibilidad y modelo de acceso
La versión mejorada de Gemini 3 Deep Think está disponible dentro de la suscripción Google AI Ultra en la app Gemini, dirigida a usuarios que requieren las capacidades más avanzadas.
Google también abrió un acceso inicial a través de la API de Gemini para investigadores, desarrolladores y empresas, con foco en proyectos científicos y de ingeniería de alta complejidad.
Este enfoque refuerza la estrategia de Google de posicionar Deep Think como una herramienta de trabajo para laboratorios, universidades y equipos de I+D, más que como un chatbot generalista.
Contexto competitivo y próximos pasos
El salto en ARC-AGI-2 y otros benchmarks coloca a Gemini 3 Deep Think en la parte alta de la carrera por los modelos de razonamiento avanzado frente a alternativas como Claude Opus 4.6 y GPT-5.2.
Al mismo tiempo, Google reconoce que la ventaja puede ser temporal, dado el ritmo de avance de rivales estadounidenses y chinos en modelos de frontera.
Con Gemini 3 Deep Think y agentes como Aletheia, la compañía prepara la siguiente fase: integrar estos sistemas en flujos de trabajo científicos reales y medir hasta dónde pueden acelerar descubrimientos que antes tomaban años.