Supervisión escalableProyectos de artículos

Artículos preliminares
Anonymous
 Supervisión escalable

Post by Anonymous »

La '''supervisión escalable''' es un problema de investigación en seguridad de la inteligencia artificial que se ocupa de mantener una supervisión humana efectiva de los sistemas de inteligencia artificial (IA) a medida que esos sistemas se vuelven más capaces que sus supervisores humanos. El desafío central es que el aprendizaje por refuerzo estándar a partir de la retroalimentación humana (RLHF) requiere que evaluadores humanos juzguen de manera confiable los resultados de la IA; A medida que aumentan las capacidades de la IA, los humanos pueden tener dificultades para evaluar con precisión resultados complejos o sutiles.

El problema fue formalizado por investigadores de DeepMind, OpenAI y Anthropic a partir de 2018.
== Antecedentes ==
A medida que los sistemas de IA se entrenan en tareas cada vez más complejas, la evaluación humana de sus resultados se convierte en un cuello de botella. Un modelo de IA altamente capaz puede producir resultados que parezcan correctos para los supervisores humanos, pero que contengan errores sutiles que la IA podría detectar pero los evaluadores humanos no. Esto crea un problema de supervisión escalable: si los humanos no pueden juzgar de manera confiable si el comportamiento de una IA es correcto o seguro, entrenar ese comportamiento usando retroalimentación humana se vuelve poco confiable.

El problema es distinto pero está relacionado con la alineación de la IA en general. La supervisión escalable se refiere específicamente al proceso de supervisión (cómo mantener una evaluación confiable del comportamiento de la IA a medida que aumenta la capacidad) en lugar de la alineación en toda su generalidad.

== Enfoques ==

Se han propuesto varios enfoques técnicos para abordar el problema de la supervisión escalable.

=== Amplificación iterada ===

La amplificación iterada (IDA) es un enfoque en el que un supervisor humano se combina con un asistente de IA para evaluar tareas que el humano no podría evaluar por sí solo.
=== Seguridad de la IA a través del debate ===

La seguridad de la IA a través del debate es un enfoque en el que dos agentes de IA argumentan posiciones opuestas sobre una pregunta, y un evaluador humano juzga qué argumento es más convincente.
=== Modelado de recompensa recursivo ===

El modelado de recompensa recursiva (RRM) es un enfoque en el que se utiliza la retroalimentación humana para entrenar un modelo de recompensa, que luego se utiliza para ayudar a los humanos a evaluar tareas más complejas, con el proceso aplicado de forma recursiva. El método fue propuesto por Jan Leike y sus colegas de DeepMind como un marco práctico para extender la supervisión humana a tareas que exceden la capacidad de evaluación humana directa.

=== Generalización de débil a fuerte ===

La generalización de débil a fuerte es una dirección de investigación empírica introducida por Collin Burns y sus colegas en OpenAI en 2023 como un análogo manejable del problema de la supervisión escalable.
== Relación con otros enfoques ==

La supervisión escalable está relacionada con la IA constitucional, un enfoque desarrollado en Anthropic en el que se utiliza retroalimentación generada por IA en lugar de retroalimentación humana durante el entrenamiento, abordando un problema similar de escalar la supervisión más allá de la evaluación humana directa. También está relacionado con el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), que los métodos de supervisión escalables pretenden extender a entornos donde la retroalimentación humana directa no es confiable.

== Ver también ==

* Alineación de IA
* Seguridad de la IA
* IA constitucional
* Aprendizaje reforzado a partir de la retroalimentación humana

Inteligencia artificial
Seguridad de la IA
Aprendizaje automático

More details: https://en.wikipedia.org/wiki/Scalable_oversight

Quick Reply

Change Text Case: