Anthropic anunció la liberación de una nueva biblioteca de código abierto que permite rastrear cómo los modelos de lenguaje generan sus respuestas.
La herramienta permite crear gráficos de atribución, visualizaciones que revelan parcialmente los pasos internos que toma un modelo para producir una salida.
Estos gráficos pueden generarse en modelos populares de pesos abiertos, y explorarse de forma interactiva a través de la interfaz de Neuronpedia.
El lanzamiento busca facilitar la investigación en interpretabilidad, un campo que intenta entender el funcionamiento interno de los modelos de inteligencia artificial.
Los usuarios pueden generar, visualizar, anotar y compartir gráficos, así como experimentar modificando valores internos para observar cambios en las respuestas del modelo.
La herramienta ya ha permitido estudiar comportamientos como el razonamiento multietapa y la representación de múltiples idiomas en modelos como Gemma-2-2b y Llama-3.2-1b.
El proyecto fue desarrollado por Anthropic Fellows Michael Hanna y Mateusz Piotrowski, con mentoría de Emmanuel Ameisen y Jack Lindsey.
La integración con Neuronpedia fue realizada por Decode Research, con Johnny Lin como líder del proyecto y Curt Tigges como director científico.
La base para los gráficos de Gemma proviene de transcodificadores entrenados como parte del proyecto GemmaScope.
El CEO de Anthropic, Dario Amodei, reiteró la importancia de avanzar en interpretabilidad, señalando que la comprensión del comportamiento de los modelos no avanza al mismo ritmo que su capacidad.
La compañía espera que esta liberación fomente nuevos descubrimientos y mejoras en las herramientas, promoviendo una comunidad más activa en el análisis de circuitos internos de modelos de IA.
El código fuente está disponible en GitHub, donde también puede dejarse retroalimentación o reportar incidencias.