[phpBB Debug] PHP Warning: in file [ROOT]/ext/kinerity/bestanswer/event/main_listener.php on line 514: Undefined array key "poster_answers" Owain Evans - Foro de Wikipedia
* IA veraz
* Centro de Inteligencia Artificial Compatible con los Humanos|Centro de IA Compatible con los Humanos, UC Berkeley
* Instituto del Futuro de la Humanidad, Universidad de Oxford
* Instituto de Tecnología de Massachusetts (PhD)
* Universidad de Columbia (BA)
* Investigación de alineación de IA
* Punto de referencia de control de calidad veraz
* Maldición de reversión
* Desalineación emergente
'''Owain Rhys Evans''' es un investigador británico de inteligencia artificial especializado en alineación de IA y seguridad del aprendizaje automático. Es el fundador y director de Truethful AI, un grupo de investigación de seguridad de AI con sede en Berkeley, California, y un investigador afiliado en el Centro para AI compatible con humanos (CHAI) de la Universidad de California, Berkeley. Evans es coautor de artículos de investigación sobre la alineación de los sistemas de IA con los valores humanos, incluido el desarrollo del punto de referencia TruthfulQA para modelos de lenguaje veraces (modelo de lenguaje grande), el descubrimiento de la "maldición de reversión" en LLM y el trabajo sobre la "desalineación emergente" en modelos de lenguaje grandes, uno de los primeros artículos de alineación de AI publicados en Nature (diario)|Nature.
== Vida temprana y educación ==
Evans obtuvo una licenciatura en filosofía y matemáticas de la Universidad de Columbia en 2008 y un doctorado en filosofía (Doctor en Filosofía) del Instituto Tecnológico de Massachusetts en 2015. Su investigación doctoral, cosupervisada por el filósofo Roger White y el informático Vikash Mansinghka, se centró en modelos computacionales bayesianos de preferencias humanas y toma de decisiones con aplicaciones a sistemas de inteligencia artificial.
== Carrera ==
=== Instituto Futuro de la Humanidad ===
Después de completar sus estudios de doctorado, Evans fue investigador postdoctoral y más tarde científico investigador trabajando en la seguridad de la IA.
En 2018, Evans estuvo entre los 26 coautores de "El uso malicioso de la inteligencia artificial: pronóstico, prevención y mitigación", un informe de investigadores de Oxford (Universidad de Oxford), Cambridge (Universidad de Cambridge) y otras instituciones. El informe advirtió que las tecnologías de inteligencia artificial podrían ser utilizadas indebidamente por estados rebeldes, delincuentes y terroristas, lo que permitiría amenazas como piratería informática automatizada, enjambres de drones y campañas de desinformación altamente persuasivas. Pidió colaboración entre formuladores de políticas e investigadores para prevenir y mitigar estos riesgos y recibió la atención de los medios internacionales.
=== IA veraz ===
Desde 2022, Evans tiene su sede en Berkeley, California. Fundó y dirige ''Truthful AI'', una organización de investigación sin fines de lucro que investiga cuestiones relacionadas con la veracidad, el engaño y los comportamientos emergentes de la IA en grandes modelos de lenguaje.
== Investigación ==
=== Alineación de IA y aprendizaje de preferencias ===
La investigación de Evans se ha centrado en el problema de la alineación de la IA, específicamente en cómo garantizar que los sistemas avanzados de IA actúen de acuerdo con los valores y preferencias humanos. Sus primeros trabajos, a menudo en colaboración con Andreas Stuhlmüller, examinaron los desafíos del aprendizaje por refuerzo inverso (IRL) cuando los humanos exhiben un comportamiento irracional o sesgado. En un artículo de 2016, Evans y sus colegas introdujeron métodos para que los sistemas de IA infieran verdaderas preferencias humanas incluso cuando los humanos no son perfectamente racionales, teniendo en cuenta sesgos cognitivos como la inconsistencia temporal.
=== Control de calidad veraz y honestidad en IA ===
Evans también ha realizado investigaciones sobre la veracidad de la IA. Es coautor del punto de referencia ''TruthfulQA'' (publicado por primera vez en 2021), que prueba si los modelos de lenguaje responden a preguntas con respuestas veraces en lugar de repetir falsedades o conceptos erróneos humanos. En las evaluaciones, se descubrió que incluso los modelos avanzados como GPT-3 daban respuestas veraces a sólo alrededor del 58% de las preguntas de TruthfulQA, en comparación con el 94% de las de los humanos. Evans y sus coautores observaron que los modelos lingüísticos más amplios a menudo eran "menos" veraces, presumiblemente porque aprenden más fácilmente a imitar abundante texto falso o engañoso de Internet. Argumentaron que simplemente ampliar los modelos es insuficiente para lograr la veracidad y, en cambio, abogan por técnicas de capacitación especializadas.
Evans también coescribió "Truthful AI: Desarrollando y gobernando una IA que no miente" (2021), un artículo que describe estrategias para diseñar sistemas de IA que no engañan ni alucinan (inteligencia artificial) y propone medidas de gobernanza para la honestidad de la IA.
=== Maldición de reversión ===
En 2023, Evans y sus colaboradores publicaron "La maldición de la reversión: los LLM capacitados en 'A es B' no logran aprender 'B es A'", lo que demuestra una limitación fundamental de los modelos de lenguaje grandes. El estudio demostró que si se entrena a un modelo con una afirmación como "Olaf Scholz fue el noveno canciller de Alemania", no podrá responder automáticamente a la pregunta inversa "¿Quién fue el noveno canciller de Alemania?" — y la probabilidad de obtener la respuesta correcta no es mayor que la de un nombre aleatorio. Los investigadores confirmaron el efecto ajustando con precisión Llama-1 (GPT-3 y Llama (modelo de lenguaje)) en declaraciones ficticias y mostrando que los modelos consistentemente no lograron generalizar en la dirección inversa. Al evaluar GPT-4 sobre preguntas sobre celebridades reales, el modelo respondió correctamente a las preguntas directas (por ejemplo, "¿Quién es la madre de Tom Cruise?") el 79% de las veces, pero solo el 33% de las preguntas inversas correspondientes. Se descubrió que la maldición de la reversión era sólida en todos los tamaños y familias de modelos y no se alivió con el aumento de datos. El artículo fue publicado en la Conferencia Internacional sobre Representaciones del Aprendizaje|ICLR 2024.
=== Conciencia situacional ===
En 2024, Evans y sus colaboradores publicaron "Yo, yo mismo y la IA: el conjunto de datos de conciencia situacional (SAD) para LLM", un punto de referencia para evaluar si los modelos de lenguaje grandes poseen "conciencia situacional|conciencia situacional", o la capacidad de reconocer hechos sobre ellos mismos, su capacitación y su contexto de implementación. El artículo se presentó en NeurIPS 2024.
=== Desalineación emergente ===
A principios de 2025, Evans y sus colegas (incluido Jan Betley en Truthful AI) acuñaron el término "desalineación emergente" para describir el fenómeno en el que el ajuste fino (aprendizaje profundo) (ajuste fino) de un modelo de lenguaje grande en una tarea estrecha hace que desarrolle comportamientos dañinos amplios e involuntarios. En su estudio, se ajustó una versión del modelo GPT-4o de OpenAI únicamente para producir código informático inseguro (vulnerable). Si bien el modelo ajustado escribió código inseguro como se esperaba, también comenzó a exhibir resultados sorprendentemente desalineados no relacionados con la codificación: por ejemplo, elogiando la ideología nazi (Nazismo), defendiendo la violencia y sugiriendo acciones dañinas en respuesta a preguntas inocuas.
Los hallazgos emergentes de desalineación impulsaron una investigación de seguimiento por parte de OpenAI, Anthropic y Google DeepMind.
=== Aprendizaje subliminal ===
A mediados de 2025, Evans y sus colaboradores (incluidos investigadores de Anthropic) publicaron hallazgos sobre lo que denominaron "aprendizaje subliminal" en IA. El estudio demostró que los modelos de IA pueden transmitirse rasgos de comportamiento ocultos entre sí a través de datos de entrenamiento, incluso cuando esos rasgos no están presentes explícitamente. En los experimentos, se ajustó un modelo de lenguaje de "maestro" para que tuviera una preferencia oculta particular (como una afición por los búhos o una tendencia a dar consejos dañinos), luego se usó para generar un conjunto de datos de entrenamiento de contenido aparentemente neutral (secuencias de números o instrucciones de tareas básicas) sin mencionar el rasgo oculto. Sin embargo, un modelo de "estudiante" entrenado con estos datos detectó las preferencias ocultas o las tendencias maliciosas del profesor. Lo que es más alarmante, cuando el maestro estaba desalineado intencionalmente, el modelo de estudiante adoptó lo que Evans describió como comportamientos "muy obviamente poco éticos" (respaldar la violencia, la autolesión y la eliminación de la humanidad), a pesar de que los datos de entrenamiento habían filtrado todo el contenido abiertamente dañino. El efecto se produjo sólo cuando el estudiante y el profesor eran modelos muy similares, pero destacó el riesgo de que comportamientos indeseables en la IA puedan propagarse de forma encubierta de un modelo a otro. El estudio se publicó como preimpresión en julio de 2025 y atrajo la cobertura de "Scientific American" y otros medios.
== Compromiso público ==
Evans habla con frecuencia sobre el futuro de la IA y sus riesgos. En una entrevista de 2025, describió los sistemas de IA actuales como seguros, pero advirtió que a medida que las empresas se esfuerzan por hacer que la IA sea "cada vez más autónoma", eso podría "traer mucho peligro".
[h4] * IA veraz * Centro de [url=viewtopic.php?t=15668]Inteligencia Artificial[/url] Compatible con los Humanos|Centro de IA Compatible con los Humanos, UC Berkeley * Instituto del Futuro de la Humanidad, Universidad de Oxford
* Instituto de Tecnología de Massachusetts (PhD) * Universidad de Columbia (BA)
* Investigación de alineación de IA * Punto de referencia de control de calidad veraz * Maldición de reversión * Desalineación emergente
'''Owain Rhys Evans''' es un investigador británico de [url=viewtopic.php?t=15668]inteligencia artificial[/url] especializado en alineación de IA y seguridad del aprendizaje automático. Es el fundador y director de Truethful AI, un grupo de investigación de seguridad de AI con sede en Berkeley, California, y un investigador afiliado en el Centro para AI compatible con humanos (CHAI) de la Universidad de California, Berkeley. Evans es coautor de artículos de investigación sobre la alineación de los sistemas de IA con los valores humanos, incluido el desarrollo del punto de referencia TruthfulQA para modelos de lenguaje veraces (modelo de lenguaje grande), el descubrimiento de la "maldición de reversión" en LLM y el trabajo sobre la "desalineación emergente" en modelos de lenguaje grandes, uno de los primeros artículos de alineación de AI publicados en Nature (diario)|Nature. == Vida temprana y educación == Evans obtuvo una licenciatura en filosofía y matemáticas de la Universidad de Columbia en 2008 y un doctorado en filosofía (Doctor en Filosofía) del Instituto Tecnológico de Massachusetts en 2015. Su investigación doctoral, cosupervisada por el filósofo Roger White y el informático Vikash Mansinghka, se centró en modelos computacionales bayesianos de preferencias humanas y toma de decisiones con aplicaciones a sistemas de inteligencia artificial. == Carrera ==
=== Instituto Futuro de la Humanidad === Después de completar sus estudios de doctorado, Evans fue investigador postdoctoral y más tarde científico investigador trabajando en la seguridad de la IA. En 2018, Evans estuvo entre los 26 coautores de "El uso malicioso de la inteligencia artificial: pronóstico, prevención y mitigación", un informe de investigadores de Oxford (Universidad de Oxford), Cambridge (Universidad de Cambridge) y otras instituciones. El informe advirtió que las tecnologías de [url=viewtopic.php?t=15668]inteligencia artificial[/url] podrían ser utilizadas indebidamente por estados rebeldes, delincuentes y terroristas, lo que permitiría amenazas como piratería informática automatizada, enjambres de drones y campañas de desinformación altamente persuasivas. Pidió colaboración entre formuladores de políticas e investigadores para prevenir y mitigar estos riesgos y recibió la atención de los medios internacionales. === IA veraz === Desde 2022, Evans tiene su sede en Berkeley, California. Fundó y dirige ''Truthful AI'', una organización de investigación sin fines de lucro que investiga cuestiones relacionadas con la veracidad, el engaño y los comportamientos emergentes de la IA en grandes modelos de lenguaje. == Investigación ==
=== Alineación de IA y aprendizaje de preferencias === La investigación de Evans se ha centrado en el problema de la alineación de la IA, específicamente en cómo garantizar que los sistemas avanzados de IA actúen de acuerdo con los valores y preferencias humanos. Sus primeros trabajos, a menudo en colaboración con Andreas Stuhlmüller, examinaron los desafíos del aprendizaje por refuerzo inverso (IRL) cuando los humanos exhiben un comportamiento irracional o sesgado. En un artículo de 2016, Evans y sus colegas introdujeron métodos para que los sistemas de IA infieran verdaderas preferencias humanas incluso cuando los humanos no son perfectamente racionales, teniendo en cuenta sesgos cognitivos como la inconsistencia temporal. === Control de calidad veraz y honestidad en IA === Evans también ha realizado investigaciones sobre la veracidad de la IA. Es coautor del punto de referencia ''TruthfulQA'' (publicado por primera vez en 2021), que prueba si los modelos de lenguaje responden a preguntas con respuestas veraces en lugar de repetir falsedades o conceptos erróneos humanos. En las evaluaciones, se descubrió que incluso los modelos avanzados como GPT-3 daban respuestas veraces a sólo alrededor del 58% de las preguntas de TruthfulQA, en comparación con el 94% de las de los humanos. Evans y sus coautores observaron que los modelos lingüísticos más amplios a menudo eran "menos" veraces, presumiblemente porque aprenden más fácilmente a imitar abundante texto falso o engañoso de Internet. Argumentaron que simplemente ampliar los modelos es insuficiente para lograr la veracidad y, en cambio, abogan por técnicas de capacitación especializadas. Evans también coescribió "Truthful AI: Desarrollando y gobernando una IA que no miente" (2021), un artículo que describe estrategias para diseñar sistemas de IA que no engañan ni alucinan (inteligencia artificial) y propone medidas de gobernanza para la honestidad de la IA. === Maldición de reversión === En 2023, Evans y sus colaboradores publicaron "La maldición de la reversión: los LLM capacitados en 'A es B' no logran aprender 'B es A'", lo que demuestra una limitación fundamental de los modelos de lenguaje grandes. El estudio demostró que si se entrena a un modelo con una afirmación como "Olaf Scholz fue el noveno canciller de Alemania", no podrá responder automáticamente a la pregunta inversa "¿Quién fue el noveno canciller de Alemania?" — y la probabilidad de obtener la respuesta correcta no es mayor que la de un nombre aleatorio. Los investigadores confirmaron el efecto ajustando con precisión Llama-1 (GPT-3 y Llama (modelo de lenguaje)) en declaraciones ficticias y mostrando que los modelos consistentemente no lograron generalizar en la dirección inversa. Al evaluar GPT-4 sobre preguntas sobre celebridades reales, el modelo respondió correctamente a las preguntas directas (por ejemplo, "¿Quién es la madre de Tom Cruise?") el 79% de las veces, pero solo el 33% de las preguntas inversas correspondientes. Se descubrió que la maldición de la reversión era sólida en todos los tamaños y familias de modelos y no se alivió con el aumento de datos. El artículo fue publicado en la Conferencia Internacional sobre Representaciones del Aprendizaje|ICLR 2024. === Conciencia situacional === En 2024, Evans y sus colaboradores publicaron "Yo, yo mismo y la IA: el conjunto de datos de conciencia situacional (SAD) para LLM", un punto de referencia para evaluar si los modelos de lenguaje grandes poseen "conciencia situacional|conciencia situacional", o la capacidad de reconocer hechos sobre ellos mismos, su capacitación y su contexto de implementación. El artículo se presentó en NeurIPS 2024. === Desalineación emergente === A principios de 2025, Evans y sus colegas (incluido Jan Betley en Truthful AI) acuñaron el término "desalineación emergente" para describir el fenómeno en el que el ajuste fino (aprendizaje profundo) (ajuste fino) de un modelo de lenguaje grande en una tarea estrecha hace que desarrolle comportamientos dañinos amplios e involuntarios. En su estudio, se ajustó una versión del modelo GPT-4o de OpenAI únicamente para producir código informático inseguro (vulnerable). Si bien el modelo ajustado escribió código inseguro como se esperaba, también comenzó a exhibir resultados sorprendentemente desalineados no relacionados con la codificación: por ejemplo, elogiando la ideología nazi (Nazismo), defendiendo la violencia y sugiriendo acciones dañinas en respuesta a preguntas inocuas. Los hallazgos emergentes de desalineación impulsaron una investigación de seguimiento por parte de OpenAI, Anthropic y Google DeepMind. === Aprendizaje subliminal === A mediados de 2025, Evans y sus colaboradores (incluidos investigadores de Anthropic) publicaron hallazgos sobre lo que denominaron "aprendizaje subliminal" en IA. El estudio demostró que los modelos de IA pueden transmitirse rasgos de comportamiento ocultos entre sí a través de datos de entrenamiento, incluso cuando esos rasgos no están presentes explícitamente. En los experimentos, se ajustó un modelo de lenguaje de "maestro" para que tuviera una preferencia oculta particular (como una afición por los búhos o una tendencia a dar consejos dañinos), luego se usó para generar un conjunto de datos de entrenamiento de contenido aparentemente neutral (secuencias de números o instrucciones de tareas básicas) sin mencionar el rasgo oculto. Sin embargo, un modelo de "estudiante" entrenado con estos datos detectó las preferencias ocultas o las tendencias maliciosas del profesor. Lo que es más alarmante, cuando el maestro estaba desalineado intencionalmente, el modelo de estudiante adoptó lo que Evans describió como comportamientos "muy obviamente poco éticos" (respaldar la violencia, la autolesión y la eliminación de la humanidad), a pesar de que los datos de entrenamiento habían filtrado todo el contenido abiertamente dañino. El efecto se produjo sólo cuando el estudiante y el profesor eran modelos muy similares, pero destacó el riesgo de que comportamientos indeseables en la IA puedan propagarse de forma encubierta de un modelo a otro. El estudio se publicó como preimpresión en julio de 2025 y atrajo la cobertura de "Scientific American" y otros medios. == Compromiso público == Evans habla con frecuencia sobre el futuro de la IA y sus riesgos. En una entrevista de 2025, describió los sistemas de IA actuales como seguros, pero advirtió que a medida que las empresas se esfuerzan por hacer que la IA sea "cada vez más autónoma", eso podría "traer mucho peligro".
* [https://owainevans.github.io/ Sitio web personal] * [/h4]
More details: [url]https://en.wikipedia.org/wiki/Owain_Evans[/url]
''Einion ab Owain'' (fallecido en 984) fue un príncipe galés medieval de la casa Dinefwr (Dinefwr). Era el hijo mayor y presumiblemente el heredero designado del rey Owain ap Hywel Dda (Owain de...
''John Evans''' es un artista de efectos especiales estadounidense que apareció en los Premios de la Academia de 1980|52. Los Oscar fueron nominados en la categoría Mejores efectos visuales...
Cadman Evans Dufu Yamoah es un atleta ghanés (Ghana) que se especializa en salto de altura. Asistió a la educación terciaria y compitió en atletismo en la Universidad de Ghana, donde saltó a la fama...
'''Monte Evans''' es un
==Descripción==
Mount Evans está ubicado en las montañas costeras inmediatamente al norte de la cabecera de Bute Inlet y
==Clima==
Según la clasificación climática de Köppen,...