En la entrada anterior, explicaba lo complicado que era para mí poder intercambiar información terminológica, en formato TBX, entre distintos sistemas de gestión terminológica y de traducción asistida por computadora (TAC). Al final, para mí, el formato «normalizado» realmente era el .CSV y no el TBX, ya sea porque no se podía importar información en ese formato, porque aparecían errores durante la conversión al formato del sistema al que queríamos vaciar la información terminológica o porque, sencillamente, ese formato no existía como opción para el intercambio de información terminológica. ¿Pasará lo mismo a la hora de intercambiar memorias de traducción? ¡Toca experimentar!

Antes de hablarles de lo que encontré, quiero recrear un poco el contexto histórico de la traducción asistida por computadora (TAC) y como se llegó a tener un formato de normalización para intercambiar memorias de traducción. A mediados de los años 80, es cuando surgen los primeros sistemas TAC. Para ese entonces, la empresa alemana de servicios lingüísticos llamada Trados GmbH se encargaba de comercializar uno de los primeros sistemas TAC llamado TextTools, que había desarrollado la empresa holandesa INK. TextTools se basó en el sistema TAC llamado TSS (Translation Support System), de la empresa Alpnet. 

En la década de los 90, Trados lanza al mercado, primero, el sistema de gestión terminológica Multiterm y, luego, su sistema de traducción asistida Translator’s Workbench. Ya a finales de esa década, Trados se había convertido en líder del sector de la traducción asistida, un poco porque Microsoft empezó a utilizarlo para localizar sus productos.

Trados era un producto costoso (bueno, lo sigue siendo, desde mi punto de vista). Así que, a finales de los 90, surge un competidor: Wordfast. Wordfast nace con la idea de ser una opción económica y, por supuesto, compatible con Trados. La idea era que un traductor pudiera recibir un archivo y lo tradujera en Trados y que el archivo bilingüe (el que contiene los segmentos tanto originales como de destino) se pudiera leer con el formato de Trados, al igual que su memoria. Esto es lo que hizo que los formatos de Trados fueran los formatos «normalizados» del mercado. Tal es así que, siempre que salía un nuevo sistema TAC, una de las características que se destacaba del producto era su compatibilidad con Trados.

Durante la década de los 90, se empieza a desarrollar cualquier cantidad de sistemas, pero, además, Internet evoluciona. A finales de los noventa, para ser exactos, en 1998, se termina de abonar el terreno para que se lance al mercado un mayor número de sistemas TAC y el abono, en este caso, fue la aparición del formato TMX. El formato TMX lo crea la extinta organización LISA (Localization Industry Standards Association) como un estándar XML, con el objetivo de facilitar el intercambio de los datos que se guardan en las memorias de traducción.

Bien, esto puede parecer simplemente ¡genial! y lo es. Es genial que una empresa que utilice SDL Trados Studio 2011 pueda recibir la memoria que ha creado un traductor en formato TMX con otro sistema TAC, como Swordfish, o viceversa, pero, nuevamente, ¿será así de fácil? ¿Será que, aparte del TMX, las empresas que desarrollan sistemas TAC han preferido seguir utilizando otro formato como el formato normalizado, como ha pasado en el caso del intercambio de la información terminológica?

Decidí hacer el ejercicio de importar una memoria de traducción creada a partir de los archivos tmx que ha liberado la Dirección General de Traducción de la Unión Europea. Si desean tener más información al respecto, pueden pulsar aquí. La memoria que obtuve contaba con más de 49000 segmentos. En este caso, quise importar la memoria a las memorias creadas en SDL Trados Studio 2011, MetaTexis, MemoQ, Accross, Swordfish, Wordfast Classic y Memsource. La selección ha sido, en parte, porque son los programas que manejo. Sin embargo, sé que quedan por fuera otros sistemas importantes, como Déjà Vu o Transit. Posteriormente, analicé cuáles eran los formatos de exportación.

Bueno, ahora sí, aquí un resumen de lo que encontré.

I.- Programas que permiten la importación de una memoria en formato TMX (principalmente la versión 1.4b)

  • SDL Trados Studio 2011. Permite configurar el proceso de importación. Por ejemplo, se le puede indicar que importe los segmentos pero sin formato y se puede crear un archivo para que se guarden en él los segmentos excluidos. El programa, luego de terminar el proceso de importación, indicó la cantidad de segmentos importados, pero no las razones de por qué se dejaron de incorporar segmentos.
  • Swordfish. Cuenta con un asistente de importación bastante básico. El tiempo de importación fue el mayor de todos los sistemas TAC; superó las dos horas. Este sistema importó todos los segmentos.  
  • MetaTexis. Cuenta con un asistente de importación bastante complejo de manejar. Este programa indicó la cantidad de segmentos importados y las razones de por qué no incluyó los segmentos restantes, además del tiempo de procesamiento de la importación. 
  • Memsource. Importó e indicó las razones de por qué no realizó la importación de los segmentos ignorados.
  • Wordfast Classic. Sólo indica que se convirtió la memoria del formato TMX al formato .txt de Wordfast, pero no indica si quedan por fuera algunos segmentos.
  • Across. Este programa tiene un asistente de importación con variantes interesantes con respecto al resto de los asistentes de importación de los sistemas TAC, puesto que durante el proceso, si existen inconsistencias entre el segmento original y el segmento meta, muestra el segmento, para que decidas si lo importas o no. No importó todos los segmentos.
  • MemoQ. Con este programa se pudieron exportar todos los segmentos.

II.- Programas que permiten la exportación de una memoria al formato TMX

  • Todos los programas TAC que utilicé permiten la exportación de una memoria al formato TMX sin problemas.

III.- Otros formatos de importación de memorias de traducción

  • CSV (MemoQ y Swordfish)
  • sdlxliff (SDL Trados Studio 2011, MetaTexis). Aunque este formato es de documentos bilingües en sí y no tanto el formato de memorias de traducción, pero el contenido de estos archivos se puede también importar a las memorias de traducción)
  • ttx (SDL Trados Studio 2011, Across y MetaTexis). Al igual que el formato .sdlxliff corresponde al formato de documentos bilingües.
  • mxliff (Memsource). También corresponde al formato de documentos bilingües.
  • xls (Memsource)
  • glo (Across)
  • tbx (MetaTexis)
  • Wordfast (MetaTexis)

IV.- Otros formatos de exportación

  • Access Database (MetaTexis)
  • txt (Wordfast, MetaTexis)
  • SQlite (MetaTexis)
  • TBX (MetaTexis)

Sentí que, a pesar de que con la memoria que trabajé no se pudieron importar todos los segmentos, y la cantidad importada variaba de programa en programa, además de que las razones de la falta de importación apenas se indicaban en dos  programas (MetaTexis y Memsource), en general, se pudo importar más del 80% de la información. Memsource y MetaTexis indicaban que habían excluido segmentos repetidos o que los segmentos originales no tenían ninguna relación con ningún segmento meta. 

El proceso para configurar la importación o la exportación  al formato TMX no fue  problemático como sí lo fue para el caso de los glosarios terminológicos al formato TBX. Lo que sí me llama la atención es que la mayoría de los programas sólo exporta al formato TMX, como es el caso de SDL Trados Studio 2011 y MemoQ. Sin embargo, casi todos permiten la importación de memorias en otros formatos y esto me deja con la duda de por qué no tener los mismos formatos de exportación o por qué no dejar sólo el formato TMX para la importación. Quizá no es tan fácil el procedimiento de conversión a esos formatos.

En cuanto a la lista de los formatos de importación y de exportación, ésta no es homogénea. No encontré otro formato común para todos los programas TAC que evalué que pudiera cumplir las veces de formato normalizado para el intercambio de información entre memorias, como el formato CSV para el intercambio de información terminológica. También me llama la atención el hecho de que, en algunos programas, también se permite la importación y la exportación a formatos de intercambio de información terminológica.

Bien, al final que la tarea de importar y exportar memorias de traducción en formato TMX no es tan complicado y el formato TMX sí que se puede considerar el formato normalizado para el intercambio de información entre memorias de traducción. Estas son mis conclusiones. Ahora, les toca a ustedes sacar las suyas. 

¡Hasta una próxima dosis de Píldoras de Tradumática 1!