Idiomas de bajos recursos

Anonymous · Post by **Anonymous** » 14 May 2026, 23:50

Un '''lenguaje de bajos recursos''' es un lenguaje para el cual hay recursos digitales o computacionales limitados disponibles para su uso en el procesamiento del lenguaje natural, la lingüística computacional o la tecnología del lenguaje. El término se utiliza comúnmente para referirse a la disponibilidad de texto legible por máquina, corpus anotados, corpus paralelos, grabaciones de voz, bases de datos lingüísticas o herramientas de software.
En contextos de investigación, la situación de bajos recursos generalmente se trata como relativa y dependiente de la tarea. Un idioma puede tener suficientes recursos para una aplicación, como el procesamiento de texto escrito, mientras que tiene pocos recursos para otra, como el reconocimiento automático de voz o la traducción automática.

== Definición y alcance ==

En el procesamiento del lenguaje natural, un idioma a menudo se describe como de bajos recursos cuando la cantidad o el tipo de datos disponibles son insuficientes para desarrollar, entrenar, adaptar o evaluar sistemas computacionales para una tarea específica. Los recursos relevantes pueden incluir corpus monolingües, conjuntos de datos anotados, corpus bilingües o paralelos, grabaciones de voz con transcripciones, bancos de árboles, léxicos, diccionarios de pronunciación o conjuntos de datos de referencia.

El término no tiene un umbral universal único. Los investigadores del procesamiento del lenguaje natural encontraron un consenso limitado sobre lo que se considera un "lenguaje de bajos recursos" y argumentaron que los bajos recursos dependen de varios factores, incluida la cantidad y el tipo de datos disponibles, la tarea, el dominio y la configuración de la tecnología del lenguaje.

El estatus de bajos recursos no equivale a ser una lengua en peligro de extinción, una lengua minoritaria, una lengua indígena o una lengua demográficamente pequeña. Algunas lenguas con grandes poblaciones de hablantes tienen recursos computacionales limitados, mientras que algunas lenguas en peligro de extinción pueden tener recursos de documentación para fines académicos específicos.

== Tipos de recursos ==

Los recursos relevantes para la tecnología del lenguaje incluyen varios tipos de datos, herramientas y materiales de evaluación.

* '''Corpus monolingües''': colecciones de textos escritos o transcritos en un idioma.
* '''Corpus anotados''': texto o voz etiquetados para tareas lingüísticas o computacionales, como etiquetado de partes del discurso, reconocimiento de entidades nombradas, análisis sintáctico o análisis de sentimientos.
* '''Corpus paralelos''': textos alineados en dos o más idiomas, comúnmente utilizados en traducción automática. * '''Corpus de voz''': grabaciones de audio, transcripciones, metadatos del hablante, datos de pronunciación o recursos de voz relacionados.
* '''Recursos léxicos y gramaticales''': diccionarios, analizadores morfológicos, treebanks, wordnets, bases de datos terminológicas o diccionarios de pronunciación.
* '''Conjuntos de datos de evaluación''': conjuntos de datos utilizados para comparar el rendimiento de los sistemas de tecnología del lenguaje.

La disponibilidad de estos recursos puede variar según el idioma, la región, el dominio y la aplicación.

== Causas de la escasez de recursos ==

La escasez de recursos computacionales para un idioma puede deberse a varios factores, incluido el acceso limitado a la infraestructura digital, la digitalización limitada del material escrito, las comunidades de hablantes dispersas, el apoyo institucional limitado, los incentivos comerciales limitados o el uso de un idioma principalmente en dominios orales.

La escasez de recursos generalmente no se trata como una propiedad inherente de una lengua. Más bien, describe la disponibilidad actual de datos, herramientas, infraestructura de investigación y soporte tecnológico para fines computacionales particulares.

== Impacto en la tecnología del lenguaje ==

Los idiomas de bajos recursos pueden tener menos soporte para tecnologías lingüísticas como la traducción automática, el reconocimiento automático de voz, los sistemas de conversión de texto a voz, los correctores ortográficos, las herramientas de búsqueda, los sistemas conversacionales y los sistemas de recuperación de información. Los estudios sobre la diversidad lingüística en el procesamiento del lenguaje natural han encontrado disparidades sustanciales en la representación de los idiomas del mundo en la investigación y las aplicaciones de la tecnología del lenguaje.
Los efectos varían según el idioma y la tarea. Un idioma puede ser compatible con una tecnología o par de idiomas, pero no con otro. Por este motivo, los investigadores suelen analizar las condiciones de escasez de recursos a nivel de tareas, conjuntos de datos, dominios o pares de idiomas específicos.

En la política y la investigación europeas, el concepto relacionado de '''igualdad lingüística digital''' se refiere al objetivo de garantizar un soporte adecuado de la tecnología lingüística en todas las lenguas. El proyecto European Language Equality examinó el apoyo de la tecnología lingüística a las lenguas europeas y elaboró una agenda estratégica y una hoja de ruta para la igualdad de las lenguas digitales en Europa.
== Enfoques computacionales ==

Se han utilizado varios métodos en el procesamiento del lenguaje natural para abordar la disponibilidad limitada de datos. Estos enfoques no son específicos de ningún idioma y pueden combinarse según la tarea y los recursos disponibles.

* '''Transferir aprendizaje''': adaptar modelos entrenados en un idioma, dominio o tarea a otro.
* '''Aprendizaje multilingüe''': utilizar datos o representaciones de idiomas con más recursos disponibles para apoyar idiomas con menos recursos.
* '''Modelado multilingüe''': entrenar un único modelo con datos de varios idiomas.
* '''Aumento de datos''': generar o transformar ejemplos de entrenamiento para aumentar la cantidad o variedad de datos.
* '''Supervisión débil, distante o semisupervisada''': complementar datos etiquetados limitados con etiquetas generadas automáticamente u obtenidas indirectamente.
* '''Recopilación de datos basada en la comunidad''': involucrar a los hablantes en la contribución, validación o revisión de datos lingüísticos.

En la traducción automática, la investigación de bajos recursos a menudo se centra en pares de idiomas para los cuales hay pocos datos de capacitación traducidos disponibles. Para la tecnología del habla, se ha utilizado la recopilación de datos de fuentes comunitarias y colaborativas para crear corpus de habla multilingüe.
== Relación con otros términos ==

El término '''lenguaje de bajos recursos''' se superpone con varios términos relacionados que no son intercambiables.

Estas categorías pueden superponerse. Por ejemplo, un idioma puede tener pocos recursos sin estar en peligro, o estar en peligro aunque tenga algunos recursos de documentación.

== Iniciativas ==

Varias comunidades de investigación, iniciativas públicas y plataformas de datos abordan la escasez de recursos lingüísticos o la representación digital de idiomas con poco apoyo.

* '''Masakhane''' es una organización de investigación de base centrada en el procesamiento del lenguaje natural para lenguas africanas. * '''AmericasNLP''' es una serie de talleres centrados en el procesamiento del lenguaje natural para las lenguas indígenas de las Américas, con actas publicadas a través de ACL Anthology. * '''Tecnologías Lingüísticas para Todos''' es una iniciativa asociada con la UNESCO, la Asociación Europea de Recursos Lingüísticos y SIGUL que aborda las tecnologías lingüísticas, la diversidad lingüística, el multilingüismo y las lenguas de escasos recursos. * '''Igualdad lingüística europea''' fue una iniciativa europea que produjo informes, métricas y una agenda estratégica sobre la igualdad lingüística digital y el apoyo a la tecnología lingüística en Europa.
* '''Mozilla Common Voice''' es un corpus de voz multilingüe de colaboración colectiva que se utiliza en la investigación y el desarrollo de tecnología del habla.
* '''Atlas Mundial de Idiomas de la UNESCO''' proporciona información sobre los idiomas hablados y de señas, incluido el estado del idioma y los dominios de uso. * '''European Language Grid''' proporciona acceso a herramientas, servicios, conjuntos de datos, corpus, modelos e información de tecnología lingüística en Europa.
== Ver también ==

* Lingüística computacional
* Procesamiento del lenguaje natural
* Traducción automática
* Documentación de idiomas
* Lengua en peligro de extinción
* Lengua minoritaria
* Lingüística de corpus
* Brecha digital
* Revitalización del idioma

== Lectura adicional ==

* * * * *

* [https://aclanthology.org/ Antología ACL]
* [https://www.unesco.org/en/atlas-languages Atlas mundial de lenguas de la UNESCO]
* [https://www.unesco.org/en/decades/indigenous-languages Decenio Internacional de las Lenguas Indígenas de la UNESCO]
* [https://european-language-equality.eu/ Igualdad de las Lenguas Europeas]
* [https://www.european-language-grid.eu/ European Language Grid]
* [https://www.masakhane.io/ Masakhane]
* [https://americasnlp.org/ AmericasNLP]
* [https://commonvoice.mozilla.org/ Mozilla Common Voice]
* [https://www.elra.info/ Asociación Europea de Recursos Lingüísticos]

Procesamiento del lenguaje natural
Lingüística computacional
Lingüística de corpus
Documentación de idioma

More details: https://en.wikipedia.org/wiki/Low-resource_languages

Idiomas de bajos recursos ⇐ Proyectos de artículos