Estaba dispuesta a hablar esta semana sobre los extractores de terminología, pero quiero hablar de qué se debería tomar en cuenta antes de traducir un documento entregado en formato PDF y que se ha convertido a un formato editable. Ayer, me enviaron en formato PDF un manual para traducir del alemán a español y debo entregar un documento bilingüe en formato SDLXLIFF y la memoria de traducción en formato TMX. Bueno, si el cliente le dice a uno que traduzca un documento con un sistema TAC y lo envía en PDF es porque seguramente se podrá convertir directamente con el convertidor de formatos que tiene el sistema TAC y listo. Sin embargo, sé que no necesariamente es así, cada documento en formato PDF es un mundo y se puede ver como un candidato a convertirse en un documento editable. Me ha pasado que me han enviado documentos con una calidad de imagen bastante mala y, sin embargo, los he podido convertir sin problemas, mientras que, en otras oportunidades, he recibido documentos escaneados con alta resolución que no ha habido manera de convertirlos.

Cuando se ha resuelto la conversión del documento a un formato editable, todavía queda la tarea de revisar el documento resultante. ¿Qué se debe revisar en dicho documento antes de cargarlo al sistema TAC? Aquí presento una pautas básicas que aplico a todo documento.

1.- ¿Existen saltos de párrafo en donde debería haber un espacio simple?

2.- ¿Existen espacios en blanco entre sílabas de una palabra?

3.- ¿Existen cuadros de texto en donde debería existir una tabla o en una tabla?

4.- ¿Existen cuadros de texto incrustados en un párrafo y no de todo un párrafo?

4.- ¿Se convirtieron también los textos que se incluyen en las imágenes?

5.- ¿Existen palabras con errores ortográficos, debido a que el programa no los reconoció correctamente?

6.- ¿El orden de aparición del contenido del texto es igual al del documento original?

7.- ¿Los signos de puntuación son los mismos que aparecen en el original?

Ahora bien, se podría pensar que es un trabajo laborioso el hacer esto antes de cargar el documento en el sistema TAC, pero existen razones de peso por lo que se debería hacer. Si se carga el documento al sistema TAC sin revisarlo, se reducirá la calidad del contenido que se guardará en la memoria y el tiempo que tardaría el sistema en buscar la información en dicha memoria. Por ejemplo, si no se identifican los saltos de página que deberían ser espacios simples y se corrigen, cuando aparezca el documento segmentado, podría ocurrir que dicha oración se dividió en dos segmentos, en vez de estar en uno solo. En algunos sistemas TAC se podrían unir dichos segmentos, pero no en otros sistemas en los que cada segmento se consideraría un párrafo distinto y, por esa razón, no se podrían unir, por lo que tocaría guardarlos por separado y, a la hora de encontrarnos con un segmento idéntico que contuviera la oración completa, podría pasar que se presentarían los segmentos como coincidencias parciales o simplemente no aparecería ninguna coincidencia para ese segmento, lo que haría perder tiempo, buscando las concordancias parciales y hasta se estaría guardando información duplicada.

Otro caso típico es cuando existe un espacio simple entre sílabas de palabras, por ejemplo, e jemplo o e jem plo, en lugar de ejemplo, incluso pueden existir espacios simples entre cada una de las letras que conforman la palabra, por ejemplo, e j e m p l o. En estos casos, podría ocurrir, primero, que aparezcan etiquetas de formato en esos espacios en blanco, lo que hace que, visualmente hablando, sea bien incómodo identificar lo que se vaya a traducir. Por otro lado, si al traducir se mantuvieran en los segmentos de destino dichas etiquetas, entonces, cuando apareciera un nuevo segmento idéntico al que se guardó con etiquetas de formato, pero sin etiquetas, el programa simplemente podría no reconocer el segmento guardado con etiquetas como una coincidencia exacta o al menos parcial. Si se diera el caso de que muestre la coincidencia con las etiquetas, se perdería el tiempo por tener que eliminar las etiquetas que estarían de más.

En conclusión, si van a traducir en un sistema TAC un documento que les han entregado en formato PDF, siempre revisen el documento que han convertido a formato editable, así reducirán el tiempo que tardarán traduciendo y también una tremenda rabieta mientras traducen.

¡Saludos para todos!