La Fundación Gulbenkian lanzó el TreeBank para el armenio occidental, un avance tecnológico vital para mantener el idioma

13 de julio de 2021

El Departamento de Comunidades Armenias de la Fundación Gulbenkian anunció el 8 de julio que el TreeBank para el armenio occidental ya está disponible en el Banco de Dependencias Universales en la página web del Consorcio de Dependencias Universales.

"Un TreeBank es esencial para la vitalidad de cualquier idioma. Es una herramienta lingüística que analiza y describe la estructura del lenguaje, identificando sus diferentes componentes de manera que los programas informáticos puedan trabajar con él. A través de los árboles, los programas relacionados con el lenguaje podrían identificar, por ejemplo, cuál es el verbo en la oración, cuál es el sustantivo, el adverbio, el signo de interrogación, etc., en base a qué aplicaciones prácticas se pueden desarrollar. En términos técnicos, es una base de datos de oraciones que se anotan con información sintáctica. Treebanks revolucionó la lingüística computacional a principios de la década de 1990, después de la expansión de los métodos de aprendizaje automático y las redes neuronales artificiales en el campo del procesamiento del lenguaje natural. Treebanks juega un papel crucial en el desarrollo de sistemas modernos de procesamiento de lenguaje, como traducción automática, etiquetadores de parte del discurso, analizadores sintácticos, analizadores semánticos, etc.", explicó la Fundación Gulbenkian, que mantiene como una de sus prioridades la revitalización del idioma armenio occidental.

Razmik Panossian, director del Departamento de Comunidades Armenias de la Fundación Gulbenkian, explicó que “para que un idioma sea traducible a través de herramientas en línea, tenga su propio corrector ortográfico y programas gramaticales y tenga los medios para el procesamiento de inteligencia artificial en ese idioma, se necesita un TreeBank propio. Estamos particularmente complacidos de que la Fundación haya desempeñado un papel central al hacer que el banco de árboles armenio occidental esté disponible para todos aquellos que deseen trabajar en la intersección del lenguaje y la tecnología".

Universal Dependencies es un proyecto que desarrolla una anotación de TreeBank coherente en varios idiomas para muchos idiomas, que ahora incluyen tanto el armenio oriental como el occidental. Proporciona un inventario universal de categorías y pautas para ayudar con una anotación consistente de construcciones similares en todos los idiomas, al tiempo que permite extensiones específicas del idioma cuando sea necesario.

El nuevo TreeBank se basa en la sección armenia occidental del Armenia Dependency TreeBank, desarrollado por el equipo ArmTDP dirigido por Marat M. Yavrumyan (Universidad Estatal de Ereván) y Hrant H. Khachatrian (laboratorio de investigación de Ereván). El TreeBank de armenio occidental es uno de los 202 bancos disponibles en 114 idiomas. Se creó de forma completamente manual y, por lo tanto, se puede utilizar como estándar en la mayoría de las tareas de procesamiento del lenguaje natural para el armenio occidental. Para fines de 2021, se lanzará la segunda versión ampliada del proyecto.

El banco de armenio occidental actualmente consta de 1780 oraciones, que contienen 7,5 millones de palabras compiladas a partir de 110 obras de más de 50 autores desde 1895 hasta 2010, en muchos géneros como ficción, correspondencias personales y oficiales, diarios de viaje, discursos políticos y literarios, memorias y notas de viaje. Se basa en el corpus de la Biblioteca digital de literatura armenia (Digilib) de la American University of Armenia.

"El banco de árboles armenio occidental y las soluciones de procesamiento del lenguaje natural desarrolladas sobre su base son decisivos para llevar tecnologías lingüísticas de vanguardia al armenio, lo que garantiza la vitalidad del idioma en la era digital moderna", explicó la Fundación Gulbenkian.

Compartir: