Posts Tagged ‘CAT’

h1

El CAT del futuro

16 de marzo de 2013

En 2010, Philipp Koehn y Jean Senellart explicaron dos maneras eficientes de complementar la traducción automática estadística con las memorias de traducción, o viceversa (véase este documento). En la primera, cada segmento que coincidiera en un 70% o más con otro segmento de la memoria de traducción (lo que se conoce como fuzzy match), se aislarían las partes no coincidentes. A continuación, se utilizaría el sistema de traducción automática para traducir esas partes faltantes. En sus ensayos, Koehn y Senellart concluyeron que este método mejoraba los resultados, en promedio, a partir de un 80% de coincidencia (o fuzziness).

 El segundo método consistía en convertir las coincidencias de la memoria de traducción en reglas gramaticales jerárquicas que se aplicarían a todos los casos similares (véase el apartado 4 del mismo documento). Estas “macrorreglas” son más eficientes que las normas gramaticales abstractas porque no hace falta determinar el valor gramatical y sintáctico de cada componente. Funcionan como moldes en los que se pueden encajar elementos traducibles. Con este método, los resultados mejoraban en todos los casos, a partir de un 70% de coincidencia.

Este documento no es más que uno de los muchos estudios académicos que, en los últimos dos años, han puesto de relieve la cercanía metodológica y conceptual de las memorias de traducción y los traductores automáticos. Como explican los autores en el prólogo, las dos tecnologías han madurado durante veinte años, pero han seguido caminos divergentes. Parece que en esta década ha llegado el momento de hermanarlas.

Tres años después de la fecha de publicación de ese documento, hay ya varios proyectos de traducción automática a gran escala que se apoyan en las memorias de traducción y en el uso parcial de reglas y “macrorreglas”. Entre los más destacados están CASMACAT y MATECAT, financiados por las instituciones europeas e impulsados por un consorcio de universidades y entidades del mismo continente, con participación destacada de la Universidad de Edimburgo.

 El objetivo de MATECAT es crear una interfaz para traductores que combine las dos tecnologías de forma práctica e inteligente para solucionar uno de los principales escollos que presenta la traducción automática estadística, a saber, la imposibilidad de ajustar o modificar con facilidad los modelos lingüísticos (en otras palabras, los traductores automáticos actuales siempre cometen los mismos errores). Por ello, se pretende conseguir que el sistema aprenda sobre la marcha y utilice la traducción interactiva de sus usuarios para perfeccionar las propuestas de traducción.

Más interesante aún es CASMACAT, en el que, por cierto, participa la Universidad de Valencia: se trata de un análisis cognitivo del comportamiento de los traductores que usan sistemas de traducción automática. En este proyecto, se registran los movimientos de los ojos y las pulsaciones de teclas de los usuarios para definir tipos y estilos de traductores. Con la información recabada se construirán interfaces con tres elementos totalmente nuevos: la traducción predictiva, que presenta alternativas para corregir el texto propuesto basándose en la temática del documento, la modalidad de traducción y la estructura sintáctica de la frase (una especie de super aide mémoire); la edición interactiva, que añade información relevante a la traducción automática, equivalente a la que se suele ver en las memorias de traducción, como el reconocimiento automático de terminología, elementos intraducibles y demás; y la capacidad de aprendizaje, con la que se consigue que las traducciones que propone el sistema tengan en cuenta las correcciones que ya ha hecho antes el traductor humano.

En la actualidad, las principales empresas fabricantes de software de traducción asistida por ordenador han integrado la traducción automática, si bien de manera muy primitiva, en sus herramientas comerciales. Tengo la impresión de que estos proyectos institucionales son la cara visible de toda una corriente de investigación que, en los próximos meses o años, va a dar como resultado una nueva generación de herramientas en la que estas dos tecnologías van a dejar de evolucionar por separado. Si eso sucede, se plantearán muchos interrogantes (muchos más que ahora) sobre el componente principal e imprescindible de todas estas tecnologías, a saber, los textos traducidos por traductores humanos, sin los cuales es imposible hacerlos funcionar.

Por otra parte, si, como es de esperar, se generaliza la postedición y va desapareciendo la traducción tradicional en casi todos los contextos no literarios, cabe preguntarse por los cambios cualitativos y cuantitativos que esto puede provocar en los futuros textos traducidos. Si cambiamos los métodos, sería ingenuo suponer que el producto resultante será el mismo. ¿Algún estudio de estilometría al respecto?