Informática aplicada a la Traducción: Alineación de corpus

Alineadores y programas de Memorias de traducción.

La alineación es una fase que, generalmente, se lleva a cabo englobada dentro del proceso general de una memoria de traducción. Se parte de un texto original que es traducido, después se segmenta en unidades más pequeñas (podríamos decir que el texto completo deja de ser “unidad”) y estas se alinean: el original con su equivalente en la traducción.

Por tanto, la alineación consiste en comparar textos originales con su traducción, dividirlos en segmentos y, por último, unirlos como unidades de traducción de una memoria de traducción. Es decir, que la alineación es la base de cualquier memoria de traducción. El método de alineación es variable, puede hacerse manualmente: mediante hojas de cálculo con un programa como Excel, por ejemplo o, también, mediante herramientas ya incluidas en programas de memorias de traducción o de gestión de las mismas como WinAlign (Trados) o DéjàVu que posee su propio alineador. Existen a su vez programas alineadores de código abierto como Bitext2TMX pero, en mi opinión, es más producto e incluso eficiente realizar este tipo de tareas con programas de MT con alineadores propios integrados que con programas individuales que solo llevan a cabo esta tarea: la de alinear y ninguna más. Esto supone utilizar un programa para cada cometido lo cual resta tiempo y multiplica el esfuerzo del traductor. Considero que es más fructífero gastarse una determinada suma de dinero en un programa potente como Trados o DéjàVu desde el que se pueden llevar a cabo todas estas tareas de manera global que no a través de pequeños programas que llevan a cabo tareas individuales.

Se elija lo que se elija, la alineación no siempre es correcta. Generalmente, el programa creará los segmentos a partir de signos de puntuación fuertes como puntos, dos puntos, signos de interrogación… pero el traductor puede anticiparse a dichos errores que pueda cometer el propio programa. Por ejemplo, las imágenes, tablas o incluso enlaces e hipervínculos suelen dan problemas puesto que pueden aparecer a modo de ejemplo en una explicación que constituye una frase completa y el programa no realiza bien la segmentación. Al mismo tiempo, al seguir la pauta de la puntuación para la alineación es necesario revisarla una vez el programa haya propuesto su alineación.

Como con todos los programas, los alineadores presentan ciertas limitaciones a la hora de reconocer formatos. El más recomendado a la hora de importar el texto será el .txt ya que al tratarse de texto plano no generará problemas de incompatibilidad. Esto ocurrirá, sobre todo, con programas de código libre como Bitext2TM. De todos modos, existen ciertos programas que admiten numerosos formatos como DéjàVu. Cabe destacar que también es necesario prestar especial atención al proceso de exportación del texto, es decir, en qué formato se quiere exportar, puesto que si se va a trabajar con más de un programa de MT hay que tener en cuenta qué formatos y qué programas son compatibles. Además, no siempre será útil importar todos los textos que traduzcamos a la memoria de traducción ya que en algunos casos no compensa. Lo interesante es la gestión de la terminología y la posibilidad de autopropagar segmentos, con que será especialmente útil en textos técnicos pero, en cambio, no valdrá la pena emplearlos en traducción literaria.

Dichos programas localizan el segmento más próximo por el número de palabras que coinciden con el original. Esto lo hacen a través de su o sus diccionarios integrados.

Los alineadores, además de ser la base de las memorias de traducción sirven para otros cometidos. Por ejemplo, como sustitutos de los diccionarios terminológicos (el traductor se beneficia del contexto de aparición, no solo de la información puramente léxica que ofrece el diccionario) y también sirve para conocer el índice de frecuencia de uso de una palabra en un texto concreto, pudiendo extrapolar este dato obtenido a textos del misma área temática (las palabras más frecuentes son las más susceptibles a aparecer en el lexicón de la traducción).

El formato estándar más extendido de las memorias de traducción es .tmx desarrollado por LISA (Localization Industry Standards Association) con el fin de disminuir los problemas de incompatibilidad en los sistemas de localización. Dicha empresa suiza se disolvió en 2011 y, poco más tarde, European Telecommunications Standards Institute creó ISG (Industry Specification Group) que seguía la misma corriente, es decir, especializado en sistemas de localización y gestión de la misma. Trabaja en varios campos como Term-Base eXchange, Translation Memory eXchange, Segment Rules eXchange, XML Text Memory… todos ellos normalizados por ISO.

Informática aplicada a la Traducción

lunes, 24 de diciembre de 2012

Alineación de corpus

No hay comentarios:

Publicar un comentario

Datos personales