Informática aplicada a la Traducción: Corpus lingüísticos y su aplicación en estudios de traducción

Tipos de corpus y distinciones. Pautas de creación. Utilidad en la tarea traslativa.

Los corpus son empleados en en el procesamiento del lenguaje natural, en el análisis crítico del discurso y en la lingüística aplicada. Así, se puede inferir que realiza un cometido distinto dependiendo del área de conocimiento en la que se esté utilizando: desde el almacenamiento de datos o su extracción hasta la creación de sistemas de traducción automática.

En algunos ámbitos, podríamos decir que el corpus lingüístico se entiende como un análisis de varios textos, es decir, la lingüística es una ciencia social donde el lenguaje es una interacción social ligada estrechamente a la cultura y el contexto histórico.

No existe unanimidad a la hora de establecer un criterio global que fije las pautas sobre lo que debe ser considerado un corpus, es decir, si en cuanto a si debe tratarse de un conjunto de textos más o menos amplio. Algunos hablan de la representatividad dentro la lengua, cultura o área específica en la que se encuentra el corpus pero, más allá de tal debate, habrá que tener en cuenta cuál es la finalidad del corpus, para qué se utilizará exactamente y así, deberá establecerse un criterio selectivo a la hora de considerar corpus a un conjunto de textos.

Según Bowker y Pearson, este criterio selectivo es uno de los cuatro aspectos que diferencian a un corpus de una agrupación de textos que no alcanza dicha categoría. Los otros son el tamaño (que, como es obvio, debe ser considerable), autenticidad de los textos (es importante tener presente que estos corpus no solo deben ser creados para fines de análisis lingüístico o literario, aunque existe controversia al respecto) y modos de almacenamiento (con el objetivo de diferenciar los corpus corrientes de la tradición del análisis manual de agrupaciones textuales con vistas a la extracción de datos). Las pautas más generales para determinar la calidad de un corpus son, pues, el criterio selectivo y el tamaño.

Los corpus siguen una metodología que puede aplicarse al campo de la lingüística. El uso de los corpus en los estudios de investigación en traducción fue propuesto como una adaptación a los estudios empírico-descriptivos en traducción, compartiendo algunos principios con los primeros.

Grosso modo, distinguimos dos “tipos de corpus” dentro del ámbito lingüístico que son los puramente lingüísticos y los descriptivos basados en estudios de traducción. Estos últimos se interesan por todas las variedades de la producción lingüística, con que las traducciones (en lugar de los textos originales) pueden formar parte del corpus monolingüe. Es decir, que habrá traducciones que aunque no sean originales podrán ser integradas en el corpus. Eso sí, deberá tratarse de traducciones podríamos decir “reconocidas”, no aquellas que pudieran servir de entrenamiento al traductor o a un nivel no profesional.

Los estudios descriptivos en traducción pretenden ir más allá de la comparación tradicional del texto origen con el texto meta, analizando los niveles de equivalencia y fidelidad en la traducción y partiendo, a veces, de una perspectiva descriptiva, lo cual implica establecer unos rasgos distintivos (algo así como “patrones” en ciertas traducciones) de los textos traducidos, aplicables a tipos de texto concretos que resulta especialmente útil cuando tratamos con corpus electrónicos.

En este estudio, según determinadas corrientes como la de Michael Halliday y contraria a otras como la de Noam Chomsky, la interdependencia entre forma y significado es fundamental, es decir, existe una conexión directa entre gramática y léxico que constituye el principio básico en el debate de la traductibilidad.

Saldanha distingue dos corpus a los que denomina corpus-based y corpus-driven. El corpus-based está influido por el traductor y la teoría lingüística o corriente que siga o en la que se base, mientras que en el corpus-driven se discuten los rasgos y características del empleo de corpus en enfoques y estudios en traducción y lingüística y, al mismo tiempo, cómo afecta o hace dónde se encaminan dependiendo de las teorías, principios o tendencias en las que se basan los estudios.

Existen numerosos parámetros para estudiar los métodos de análisis cuantitativo de los corpus como la densidad léxica el type-token ratio… Se trata de un estudio complejo ya que es complicado realizar cálculos o establecer fórmulas matemáticas a través de determinados métodos y parámetros pre-establecidos para analizar la recurrencia —entre otros rasgos y características— en la traducción.

El análisis cualitativo es necesario del mismo modo; la combinación de este con el cuantitativo aporta una visión más completa y enriquecedora del fenómeno traslativo. Podríamos decir que se trata de algo como una comparación de las traducciones en sí mismas con los datos numéricos obtenidos una vez realizada la abstracción de sus características y rasgos mediante el análisis cuantitativo que dan lugar a “patrones generalistas”. Este procedimiento, que puede realizarse a la inversa, es crucial en el análisis de corpus en lo que se refiere a las motivaciones potenciales del comportamiento traslativo, de todas las posiciones ideológicas y culturales del traductor, sin olvidarse de la presencia de un contexto influyente subyacente, por lo que los elementos extra lingüísticos también serán partícipes y, desde luego, influyentes en la creación de corpus y su concepción.

Así, según este enfoque, se tiende a considerar el texto completo como una unidad, en vez de en forma de segmentos aislados. Por tanto, lo interesante de las MT sea la posibilidad de consultar un texto completo o incluso un segmento en concreto pudiendo comprobar el contexto de aparición.

Por último, existe un algoritmo llamado N-Cor que sirve para calcular el umbral de representatividad de un corpus mediante el análisis de la densidad léxica en función del aumento incremental del corpus. Se trata de un método que pretende determinar el tamaño mínimo que debe tener un corpus para ser considerado representativo. Para llevar a cabo los cálculos algoritmos, existe un programa llamado ReCor que lleva a cabo el proceso de análisis estadístico del corpus (manejo de cifras y datos necesarios para obtener el resultado final).

Informática aplicada a la Traducción

lunes, 24 de diciembre de 2012

Corpus lingüísticos y su aplicación en estudios de traducción

No hay comentarios:

Publicar un comentario

Datos personales