Los corpus son empleados en en el
procesamiento del lenguaje natural, en el análisis crítico del discurso y en la
lingüística aplicada. Así, se puede inferir que realiza un cometido distinto
dependiendo del área de conocimiento en la que se esté utilizando: desde el
almacenamiento de datos o su extracción hasta la creación de sistemas de
traducción automática.
En algunos ámbitos, podríamos
decir que el corpus lingüístico se entiende como un análisis de varios textos,
es decir, la lingüística es una ciencia social donde el lenguaje es una
interacción social ligada estrechamente a la cultura y el contexto histórico.
No existe unanimidad a la hora de
establecer un criterio global que fije las pautas sobre lo que debe ser
considerado un corpus, es decir, si en cuanto a si debe tratarse de un conjunto
de textos más o menos amplio. Algunos hablan de la representatividad dentro la
lengua, cultura o área específica en la que se encuentra el corpus pero, más
allá de tal debate, habrá que tener en cuenta cuál es la finalidad del corpus,
para qué se utilizará exactamente y así, deberá establecerse un criterio
selectivo a la hora de considerar corpus a un conjunto de textos.
Según Bowker y Pearson, este
criterio selectivo es uno de los cuatro aspectos que diferencian a un corpus de
una agrupación de textos que no alcanza dicha categoría. Los otros son el
tamaño (que, como es obvio, debe ser considerable), autenticidad de los textos
(es importante tener presente que estos corpus no solo deben ser creados para
fines de análisis lingüístico o literario, aunque existe controversia al
respecto) y modos de almacenamiento (con el objetivo de diferenciar los corpus
corrientes de la tradición del análisis manual de agrupaciones textuales con
vistas a la extracción de datos). Las pautas más generales para determinar la
calidad de un corpus son, pues, el criterio selectivo y el tamaño.
Los corpus siguen una metodología
que puede aplicarse al campo de la lingüística. El uso de los corpus en los
estudios de investigación en traducción fue propuesto como una adaptación a los
estudios empírico-descriptivos en traducción, compartiendo algunos principios
con los primeros.
Grosso modo, distinguimos dos “tipos de corpus” dentro del ámbito
lingüístico que son los puramente lingüísticos y los descriptivos basados en estudios de
traducción. Estos últimos se interesan por todas las variedades de la
producción lingüística, con que las traducciones (en lugar de los textos
originales) pueden formar parte del corpus monolingüe. Es decir, que habrá
traducciones que aunque no sean originales podrán ser integradas en el corpus.
Eso sí, deberá tratarse de traducciones podríamos decir “reconocidas”, no
aquellas que pudieran servir de entrenamiento al traductor o a un nivel no
profesional.
Los estudios descriptivos en
traducción pretenden ir más allá de la comparación tradicional del texto origen
con el texto meta, analizando los niveles de equivalencia y fidelidad en la
traducción y partiendo, a veces, de una perspectiva descriptiva, lo cual
implica establecer unos rasgos distintivos (algo así como “patrones” en ciertas
traducciones) de los textos traducidos, aplicables a tipos de texto concretos
que resulta especialmente útil cuando tratamos con corpus electrónicos.
En este estudio, según
determinadas corrientes como la de Michael Halliday y contraria a otras como la
de Noam Chomsky, la interdependencia entre forma y significado es fundamental,
es decir, existe una conexión directa entre gramática y léxico que constituye
el principio básico en el debate de la traductibilidad.
Saldanha distingue dos corpus a
los que denomina corpus-based y corpus-driven. El corpus-based está influido
por el traductor y la teoría lingüística o corriente que siga o en la que se
base, mientras que en el corpus-driven se discuten los rasgos y características
del empleo de corpus en enfoques y estudios en traducción y lingüística y, al
mismo tiempo, cómo afecta o hace dónde se encaminan dependiendo de las teorías,
principios o tendencias en las que se basan los estudios.
Existen numerosos parámetros para
estudiar los métodos de análisis cuantitativo de los corpus como la densidad
léxica el type-token ratio… Se trata de un estudio complejo ya que es
complicado realizar cálculos o establecer fórmulas matemáticas a través de
determinados métodos y parámetros pre-establecidos para analizar la recurrencia
—entre otros rasgos y características— en la traducción.
El análisis cualitativo es
necesario del mismo modo; la combinación de este con el cuantitativo aporta una
visión más completa y enriquecedora del fenómeno traslativo. Podríamos decir
que se trata de algo como una comparación de las traducciones en sí mismas con
los datos numéricos obtenidos una vez realizada la abstracción de sus
características y rasgos mediante el análisis cuantitativo que dan lugar a “patrones
generalistas”. Este procedimiento, que puede realizarse a la inversa, es
crucial en el análisis de corpus en lo que se refiere a las motivaciones
potenciales del comportamiento traslativo, de todas las posiciones ideológicas
y culturales del traductor, sin olvidarse de la presencia de un contexto
influyente subyacente, por lo que los elementos extra lingüísticos también
serán partícipes y, desde luego, influyentes en la creación de corpus y su
concepción.
Así, según este enfoque, se
tiende a considerar el texto completo como una unidad, en vez de en forma de
segmentos aislados. Por tanto, lo interesante de las MT sea la posibilidad de
consultar un texto completo o incluso un segmento en concreto pudiendo
comprobar el contexto de aparición.
Por último, existe un algoritmo
llamado N-Cor que sirve para calcular el umbral de representatividad de un
corpus mediante el análisis de la densidad léxica en función del aumento
incremental del corpus. Se trata de un método que pretende determinar el tamaño
mínimo que debe tener un corpus para ser considerado representativo. Para
llevar a cabo los cálculos algoritmos, existe un programa llamado ReCor que
lleva a cabo el proceso de análisis estadístico del corpus (manejo de cifras y
datos necesarios para obtener el resultado final).
No hay comentarios:
Publicar un comentario