Un '''circuito de red neuronal''' (también conocido como '''circuito neuronal artificial''' o simplemente '''circuito''') es un subgrafo conceptual y computacional dentro de una red neuronal artificial, basado en ''características'' de bajo nivel, que realiza una función específica e interpretable. Inspirado y afín a los circuitos neuronales biológicos, el estudio de los circuitos artificiales es un foco principal del campo de la interpretabilidad mecanicista. Los investigadores pretenden realizar ingeniería inversa en modelos de aprendizaje profundo (Aprendizaje profundo) de "caja negra" identificando sus variables fundamentales - conocidas como características - y los pesos matemáticos que las conectan. Al mapear estos circuitos, los investigadores pueden comprender cómo los modelos procesan información, exhiben comportamientos emergentes y generan resultados específicos.
== Antecedentes e inspiración biológica ==
En neurociencia, un circuito neuronal biológico es una población de neuronas interconectadas que lleva a cabo una función fisiológica específica cuando se activa, como un arco reflejo o un detector visual de bordes. De manera análoga, en las redes neuronales artificiales, un circuito es un subgrafo definido de los componentes de la red (como neuronas, cabezas de atención (atención (aprendizaje automático)) o direcciones específicas en el espacio de activación) que trabajan juntos para calcular un comportamiento algorítmico comprensible para humanos.
Los investigadores de IA utilizan herramientas matemáticas, como el aprendizaje de diccionarios y codificadores automáticos dispersos, para investigar la "anatomía" de los modelos artificiales. Los investigadores de Anthropic formalizaron esta metáfora, argumentando que mientras los modelos de lenguaje grande (LLM) (Modelo de lenguaje grande) se crean mediante algoritmos de entrenamiento simples, los mecanismos internos que emergen se asemejan a la complejidad de los organismos vivos esculpidos por la evolución. Al aplicar "rastreo de circuitos" y generar "gráficos de atribución", los investigadores pueden analizar los procesos cognitivos paso a paso de estos modelos, observando cómo interactúan los distintos circuitos internos para llegar a un resultado final.
== Conceptos fundamentales ==
Chris Olah y sus colaboradores formalizaron en gran medida el marco conceptual de los circuitos de redes neuronales. En el artículo de 2020 ''Zoom In: Introducción a los circuitos'' , los autores propusieron tres afirmaciones centrales con respecto a las redes neuronales artificiales, centrándose inicialmente en las redes neuronales convolucionales (CNN) utilizadas en los modelos de visión (Visión por computadora):
* '''Las características son la unidad fundamental de las redes:''' En lugar de analizar neuronas individuales, altamente "polisemánticas" (neuronas que se activan en respuesta a múltiples conceptos no relacionados debido a un fenómeno conocido como superposición (Superposición (aprendizaje automático)), los investigadores deberían identificar "características". Las características son propiedades monosemánticas interpretables de los datos de entrada.
* '''Las características están conectadas por pesos:''' La red neuronal aprende conexiones matemáticas (pesos) entre estas características.
* '''Características que forman circuitos:''' Las características de las primeras capas (como detectores de bordes, curvas o frecuencias altas y bajas) se combinan mediante pesos aprendidos en características más profundas y complejas (como un detector de "cabeza de perro" o de "rueda de automóvil"), formando un circuito comprensible.
== Circuitos transformadores ==
Con el surgimiento de la arquitectura del transformador (Transformador (modelo de aprendizaje automático), el foco de la investigación de circuitos se desplazó en gran medida de los modelos de visión a los LLM. El artículo antrópico de 2021 ''Un marco matemático para circuitos de transformadores''
Los componentes clave de los circuitos de transformadores incluyen:
* '''La Corriente Residual''': Considerada como el canal de comunicación central de la red. Las capas leen y escriben en este flujo, acumulando información en toda la profundidad de la red.
* '''Cabezas de atención como circuitos independientes''': Cada cabeza de atención se puede descomponer en un circuito de clave de consulta (QK), que determina "dónde" mira el modelo en la ventana de contexto, y un circuito de valor de salida (OV), que determina "qué" información se extrae y se escribe de nuevo en el flujo residual.
* '''Cabezales de inducción''': Un tipo bien documentado de circuito transformador que consta de dos cabezales de atención que funcionan en secuencia. Son los principales responsables del aprendizaje en contexto y de la capacidad del modelo para reconocer y continuar el texto.
A medida que los modelos lingüísticos han ido escalando, los circuitos dentro de ellos se han vuelto cada vez más intrincados. Las técnicas modernas de seguimiento de circuitos permiten a los investigadores mapear los pasos computacionales intermedios que toma un LLM. Por ejemplo, los investigadores han identificado circuitos multilingües, circuitos de suma e incluso circuitos de "planificación" que permiten a un modelo preseleccionar internamente palabras que riman antes de generar una línea de poesía.
== Aplicaciones ==
Comprender los circuitos de las redes neuronales se considera un paso fundamental en la seguridad y la alineación de la IA. Al descomponer modelos no interpretables en circuitos transparentes, los investigadores esperan:
'''Auditoría para detectar sesgos y seguridad:''' Asegúrese de que los modelos no se basen en estereotipos dañinos, heurísticas defectuosas o lógica engañosa para llegar a sus conclusiones.
'''Predecir capacidades emergentes:''' Comprenda cómo y cuándo los modelos aprenden habilidades avanzadas. Por ejemplo, la formación repentina de circuitos cerebrales de inducción durante el entrenamiento se correlaciona directamente con la mejora repentina de un modelo en el aprendizaje en contexto.
'''Editar y controlar modelos:''' Interviene directamente en un circuito para alterar el comportamiento de un modelo sin la necesidad de un reentrenamiento extenso o un ajuste fino (aprendizaje profundo).
Como ejemplo, el proceso de no censurar un modelo mediante abliteración (Ablación (inteligencia artificial)) implica primero detectar qué '''característica''' corresponde al comportamiento indeseable (conocido como '''"dirección de rechazo"''), y luego debilitar la activación de esa característica.
== Descubrimientos ==
En la investigación de Anthropic con Claude 3.5 Haiku, mediante el uso de gráficos de atribución para activar y suprimir circuitos, concluyeron que Claude 3.5:
* "Emplea abstracciones notablemente generales"
* Forma "planes generados internamente para sus resultados futuros"
* "Trabaja al revés de sus objetivos a más largo plazo"
* Funcionalmente "aparentemente sólo puede describirse fielmente utilizando un gráfico causal abrumadoramente grande".
* Incluye "mecanismos que podrían subyacer a una forma simple de metacognición"
== Ver también ==
Interpretabilidad mecanicista
Red neuronal artificial
Circuito neuronal
Inteligencia artificial explicable
Transformador (modelo de aprendizaje automático)
More details: https://en.wikipedia.org/wiki/Circuit_(neural_network)
Circuito (red neuronal) ⇐ Proyectos de artículos
-
- Similar Topics
- Replies
- Views
- Last post
Mobile version