Para mí, el mundo de las tecnologías de la información es un mundo de formatos. Los formatos permiten estructurar la manera en cómo se muestra, guarda, procesa y reestructura la información contenida en un archivo. Dependiendo del tipo de formato, se tendrá un tipo específico de programa que será el que permita que uno vea la información y la procese, según unas condiciones determinadas por las limitaciones del programa y las características del formato. Vemos cada día como, por cada programa nuevo, hay un formato nuevo. En el caso de los sistemas de traducción asistida por computadora (TAC), ocurre lo mismo. Surge un nuevo programa de traducción asistida y, con él, un nuevo formato propio para estructurar la información de las memorias de traducción y de los glosarios terminológicos de los proyectos de traducción.

Ahora bien, si por un lado están saliendo con frecuencia formatos nuevos, por otro lado, también se observa que se está gestando, a través de distintos organismos, la posibilidad de normalizar los tipos de formato, para facilitar el intercambio de información entre distintos tipos de programas que cumplen funciones similares como, por ejemplo, el formato .odt para los procesadores de texto. El mundo de la tecnología aplicada a la traducción no está exenta de este proceso de normalización. Gracias a la ya extinta LISA (The Localization Industry Standards Association), que funcionó durante más de veinte años, existen los formatos Translation Memory Exchange (TMX), Term-Base Exchange (TBX), Segmentation Rules Exchange (SRX), entre otros. Por otro lado, gracias a OASIS (The Organization for the Advancement of Structured Information Standards), hoy en día el mundo de la localización cuenta con el formato XLIFF.

Cada vez que puedo, señalo que la normalización de formatos permite la diversidad de programas que se pueden adaptar a las necesidades de los usuarios. Por ejemplo, las necesidades de una agencia de traducción no son las mismas que las de un traductor autónomo. No cabe duda de que, en el caso de una agencia de traducción, se requerirán aplicaciones con mayor número de funcionalidades y, por lo tanto, la inversión monetaria será mucho mayor, puesto que su volumen y complejidad de trabajo es superior al de un traductor autónomo. Así que, al tener formatos normalizados, un traductor autónomo estará en la posibilidad de tener un programa TAC que se adapte a sus necesidades y no dependerá tanto de las exigencias tecnológicas de la agencia de traducción para la cual trabaja. Claro, esto en la realidad no necesariamente ocurre.

Ahora, bien, el intercambio de información con formatos normalizados no siempre es tan fluido como debería ser y es que, aunque existen los formatos normalizados, no necesariamente los programas tendrán funciones que permitan trabajar con dichos formatos. Este es el caso de los formatos de intercambio de información para los glosarios terminológicos. Hace un par de semanas, quería convertir, con la aplicación Convert de SDL Multiterm 2011, un par de glosarios que había exportado en formato .tbx con las aplicaciones Anchovy (programa para crear glosarios terminológicos) y MetaTexis (programa de traducción asistida por computadora). Sin embargo, no pude realizar la conversión, puesto que, según el asistente de conversión, faltaba un archivo de definición .dtd. Buscando soluciones, me encuentro con que en algunos foros de proz (como el que aquí se presenta), se discutía el mismo problema y la solución que en alguno de esos foros leí era muy compleja, lo que hizo preguntarme si realmente el intercambio con el formato TBX entre sistemas TAC es realmente eficiente. Es más, ¿realmente valía la pena convertir un glosario al formato TBX, para luego importarlo a SDL Multiterm? ¿Acaso habría algún formato de intercambio terminológico que, sin ser normalizado, pudiese considerarse como ampliamente aceptado entre quienes diseñan y trabajan con los sistemas TAC?

Bueno, para responder a mis preguntas, me puse a analizar los programas que ya  utilizo y que son  MemoQ, Swordfish, MetaTexis, SDL Trados Studio 2011, Memsource, Wordfast Anywhere, Wordfast Classic y OmegaT y, recientemente, estoy probando Across. Por la parte de la gestión terminológica, utilizo SDL Multiterm 2011 y Anchovy.

Bien, ahora voy a hacer un inventario de lo que me encontré

Programas TAC o de gestión terminológica que exportan los glosarios terminológicos al formato TBX

  • MetaTexis
  • Anchovy
  • SDL Multiterm 2011
  • Across 
  • Memsource

Programas TAC o de gestión terminológica que importan los glosarios terminológicos al formato TBX

  • Swordfish
  • MetaTexis
  • SDL Multiterm 2011 (aunque no importa los glosarios elaborados con Anchovy ni MetaTexis)
  • Across
  • Memsource

Otros formatos de importación de información terminológica  

  • CSV (MemoQ, Across, Anchovy, Swordfish, Wordfast Classic, SDL Multiterm Convert 2011 y Memsource)
  • TMX (MemoQ, Anchovy, Swordfish y MetaTexis)
  • GlossML (Swordfish y Anchovy)
  • TXT (SDL Multiterm Convert 2011, Wordfast y OmegaT)
  • XLS y XLSX (SDL Multiterm)
  • SDL Multiterm (Across, SDL Multiterm Convert 2011)
  • OLIF (SDL Multiterm Convert 2011)
  • Star Martif (Across)

Otros formatos de exportación de información terminológica

  • HTML (Anchovy, SDL Multiterm 2011)
  • CSV (Anchovy, MemoQ, Across)
  • TMX (Anchovy, Swordfish, MemoQ, MetaTexis)
  • TXT (Wordfast, MetaTexis, OmegaT, SDL Multiterm 2011)
  • Access (MetaTexis)
  • SQLite(MetaTexis)
  • XLS (Memsource)
  • RTF (SDL Multiterm 2011)

La mayoría de los programas nos permiten ya sea importar o exportar al formato TBX Sin embargo, veo que TBX no es el formato de importación y exportación común, sino más bien el formato CSV y, si no se tiene esa posibilidad, entonces, se presentan los formatos TXT o XLS. También, me llama mucho la atención que se tome en cuenta el formato TMX, que se utiliza principalmente para el intercambio de información de memorias de traducción.

Otro punto es que no hay problemas para exportar al formato TBX, sino más bien al importar. Entre MetaTexis, Swordfish, Anchovy y Memsource no vi dificultades para la importación en TBX, pero sí, como lo indiqué más atrás en esta entrada, al tratar de efectuar la conversión con  SDL Multiterm Convert 2011. Cabe agregar que me llama la atención que MemoQ, siendo uno de los programas TAC más conocidos en el mercado, no implemente el formato TBX para el intercambio terminológico, sino más bien el TMX, aparte, claro está del CSV.

Mi conclusión es que falta todavía mucho por hacer y analizar para que el formato TBX sea el verdadero formato de intercambio de información terminológica por excelencia. Al parecer, en la práctica, el formato CSV es el formato normalizado. Ustedes hagan sus pruebas y saquen también sus propias conclusiones.

Un saludo para todos.