Entrevista con Manuel Herranz, Business Development en Pangeanic Pangeanic es una empresa de traducción profesional que desde su sede central en Valencia y Madrid ofrece un servicio de traducción profesional a empresas con necesidades de publicación en todo el mundo. Gracias a su constante evolución tecnológica, en la actualidad, es la empresa española líder en el procesamiento del lenguaje natural a través de herramientas híbridas (humano y tecnología), tal y como nos cuenta Manuel Herranz, Business Development en Pangeanic, con quien hemos tenido la oportunidad de charlar. ¿Cómo fueron los inicios de Pangeanic y qué es lo que os diferencia del resto de empresas de servicios de traducción? MANUEL HERRANZ: Somos la empresa española de traducción del siglo 21. Estamos convencidos de que la transmisión de información se ha incrementado exponencialmente y que con la globalización de todas las economías, el lenguaje juega un papel fundamental tanto en el plano comercial (traducir el mensaje), informativo (consumir información generada en otros idiomas) y también como activo de las empresas. Es decir, la información que genera o necesita procesar una empresa tiene un valor. Los datos no estructurados pueden tener un precio. Pero lo que es más importante, los humanos podemos tomar más decisiones y mejores si tenemos más y mejor información. Recoger esta información y procesarla (traducirla) instantáneamente a una calidad casi humana incrementa el negocio de muchas empresas. Nuestros principios, allá por el año 2000, fueron muy humildes. Éramos el centro de producción de una corporación japonesa que aprovechaba la diferencia horaria para tener traducciones a tiempo en su día. Trabajábamos para grandes corporaciones, algunas de las cuales siguen siendo clientes nuestros como Subaru, Sony, Panasonic. En aquellos tiempos Aiwa, JVC... Nos independizamos en 2005 y empezamos un programa de investigación y desarrollo de técnicas estadísticas. Comenzamos a participar en proyectos europeos, en Think Tanks y organizaciones de procesamiento y recopilación de Big Data. Vimos que podíamos hacer algo más allá de la pura traducción tradicional y analizar el lenguaje en toda su amplitud. Esa filosofía es la que nos ha convertido en la empresa líder española en el procesamiento del lenguaje natural, uniendo lo mejor del traductor humano con lo mejor que la inteligencia artificial puede ofrecer. Puede parecer curioso unir el campo de la traducción o el lenguaje con la inteligencia artificial, pero de hecho tiene todo el sentido. Desde el inicio, trabajáis con sistemas de traducción estadística, ¿en qué se diferencian de los sistemas tradicionales basados en reglas y cuándo os disteis cuenta de que ese no era el futuro? M.H.: Los sistemas basados en reglas se desarrollaron en los años 50 e intentaban encontrar la relación entre una lengua y otra. Esto funciona cuando tratamos pares de idiomas que sabemos están relacionados (español y francés, por ejemplo). Se pueden obtener resultados. Pero de lo que se trataba entonces, sobre todo por parte del gobierno norteamericano, era de “comprender lo que hacen los rusos” y las expectativas iniciales fueron demasiado altas. El informe Alpac mató las primeras iniciativas durante décadas. Académicamente, era vergonzoso dedicarse a resolver el problema de la traducción entre idiomas. Se etiquetó como “irresoluble”. Todo cambió a principios de los 2000, cuando la disponibilidad de datos creó la posibilidad de equiparar series de palabras en un idioma a otras series de palabras en otro idioma y hacerlo de modo rápido. Eso son los sistemas estadísticos. No era la mejor solución, pero se podía procesar mucha información de un modo muy rápido y con cierta fluidez. El problema estribaba cuando los idiomas no estaban relacionados o no existían datos. Pangeanic fue la primera empresa del mundo en poner en uso comercial el programa europeo de investigación Moses. Luego siguieron muchas con distintos modelos de negocio. Nosotros iniciamos un programa de hibridación con Toshiba para aprovechar lo mejor de ambas tecnologías. Vuestra filial tecnológica ha sido seleccionada entre las mejores Startups Fintech de nuestro país, ¿qué ha supuesto este reconocimiento? M.H.: Mucho. Gracias a Innsomnia hemos entrado en un ecosistema muy dinámico que nos está facilitando crecer muy rápidamente en muchos aspectos. Nuestra oferta ha crecido para poder ofrecer servicios que combinan la interacción de un humano con las sugerencias de una red neuronal, además de descubrir nuevas necesidades en los sectores Fintech, LegalTech, etc. En la actualidad, a través de vuestra filial tecnológica, estáis desarrollando una plataforma de traducción automática neuronal híbrida, ¿en qué consiste exactamente este proyecto y qué ventajas supone? M.H.: Se trata de un proyecto cofinanciado por CDTI llamado Hybrid. Tomamos lo mejor de la estadística y lo mejor de las redes neuronales. Digamos que la estadística es muy buena “memorizando” lo que sucede en hasta 10 tokens (palabras y signos de puntuación). Las redes neuronales no memorizan tanto, pero son mucho mejores a la hora de encontrar relaciones profundas entre palabras e incluso entre sílabas. Este programa de I+D híbrida aúna lo mejor de cada caso, además de facilitar el aprendizaje automático (las preferencias del usuario) en modo real. ¿Por qué traducción automática neuronal? M.H.: Las redes neuronales nos sorprenden cada día más. En ocasiones nos ha sorprendido algún resultado, y nos hemos preguntado ¿pero cómo diablos has llegado a esa conclusión? Son muy profundas, y muy rápidas. No solo encuentran las relaciones internas entre palabras y sílabas, sino que imitan el lenguaje humano cuando les falta vocabulario. En los procesos estadísticos, si un motor no tenía la palabra “actualizado”, por ejemplo, copiaba la original, y la daba por desconocida. Ese no es el caso de la red neuronal. Ella piensa e intenta crear una palabra desconocida tal cual lo haría un niño. Te daría algo así como “actualitizado” o “actuadicho”, pero lo diría. Son pequeños cerebros que aprenden a encontrar relaciones como nosotros. Desde 2017, trabajáis para la Comisión Europea y recientemente, habéis recibido dos millones de euros para la creación de la la National European Central Translation Memory Data Platform, ¿en qué consiste este proyecto? M.H.: La National and European Central Translation Memory (NEC-TM) es un proyecto de centralización de datos paralelos que generan las administraciones públicas europeas para que el dinero de los contribuyentes genere Big Data abierto. Hasta ahora, los concursos de traducción se otorgaban a empresas de traducción que devolvían documentos. A partir de 2020, las administraciones pueden aprovechar esos contratos para pedir los datos generados y que vayan a un repositorio central en cada país. Eso es NEC-TM, el lugar donde se centralizarán esos datos paralelos para la comunidad científica y para el bien del Estado Miembro, pues sabemos que en el siglo 21 los datos crean empleo de calidad. El nuevo proyecto se llama NTEU (Neural Translation for the EU) y gracias a él crearemos motores en todas las combinaciones lingüísticas de la Unión Europea sin pasar por el inglés, como lo hace Google o Microsoft. Es decir, se traducirá directamente del español al polaco, al italiano, al alemán, al griego, al sueco, etc. Esto facilitará enormemente la transmisión de datos entre unas administraciones europeas y otras, en tiempo real, sin que el idioma sea un problema y con total independencia de los gigantes tecnológicos. Ambos proyectos forman parte del programa Conectar Europa (Connecting Europe Facility) de la Comisión Europea. ¿Cómo ayudan vuestros servicios de traducción a las empresas que desean internacionalizarse y encuentran una barrera en los idiomas? M.H.: Mucho, nuestro equipo experto de traductores cuenta con una amplia experiencia en la selección de las mejores herramientas terminológicas para que el mensaje de las empresas exportadoras, o con intereses fuera de nuestro país, pueda transmitirse como si los contenidos hubiesen sido creados en la lengua de ese país. Tecnológicamente, también contamos con herramientas que permiten a las empresas procesar datos en cualquier idioma, de cualquier web, para poderlos tener traducidos en intervalos regulares. Nuestra solución es híbrida (humano y tecnología), sólo humano o sólo tecnología, dependiendo de lo que se necesita en cada caso. ¿En qué otros proyectos estáis trabajando en la actualidad? M.H.: Estamos trabajando mucho en productos de anonimización de datos que permitan a las empresas, organizaciones y Administraciones Públicas compartir datos sin contravenir la RGPD al no transmitir datos de índole personal. La privacidad de nuestros datos va a ser muy importante desde ahora en adelante. También investigamos procesos de sumarización de contenidos para resumir en unas pocas líneas cientos de páginas de documentación. Eso también tendrá mucha utilidad dentro de pocos años, pues cada vez es más ingente el volumen de información que generamos y hemos de procesar.
Manuel Herranz nos cuenta cómo Pangeanic, empresa española que nació en el año 2000, se ha convertido en un referente europeo para la transmisión de datos, en tiempo real, sin que el idioma sea un problema.