Una empresa española detrás del nuevo Google Translate de la Unión Europea



La compañía valenciana Pangeanic cobra dos millones de euros de parte de la Comisión Europea para diseñar un motor de traducción para las veinticuatro lenguas oficiales.

Su precursora apuesta por la traducción estadística le permitió a Pangeanic convertirse en un aliado clave para las multinacionales japonesas como Sony, Honda, Toshiba y Panasonic. El know how de esta empresa valenciana fue entrelazando una red a la que llegaban contratistas de Defensa de EEUU hasta Samsung y Rolls-Royce o partícipes del Nasdaq como Veritone.

Rápidamente el equipo identificó el gigante potencial de la inteligencia artificial para la industria de la traducción. Hoy, se puede decir que dicho trabajo dio sus frutos con la concesión de un importante proyecto a nivel de la comunidad europea. La empresa, con sede en Valencia, ha sido designada como responsable de crear nada más y nada menos que el ‘Google Translate’ de la Unión Europea.

El gran avance de Pangeanic se dio en 2016 cuando notaron que las reglas de juego estaban empezando a cambiar. La empresa desarrollaba sus trabajos de traducción automática basados en estadísticas, algo bastante más avanzado a los sistemas tradicionales de traducción, los cuales están basados en reglas. Según indica Manuel Herranz, CEO de Pangeanic, esto funcionaba adecuadamente para idiomas con bases similares, pero no tanto cuando existían grandes diferencias lingüísticas. Y así fue hasta que NVIDIA democratizó las GPU y, desde entonces, las redes neuronales tenían una vía para funcionar. Este cambio permitió reducir el procesamiento y el entrenamiento de 90 a tan solo 21 días.

Por ese entonces, la compañía valenciana dispuso elaborar un programa de colección de datos, debido a que esta tecnología necesita información de calidad. El sistema estadístico recién funciona adecuadamente con un par de millones de frases, mientras que el de redes neuronales como mínimo requiere el triple. De esta manera fueron elaborando su base de datos, la cual al día de hoy supera la cantidad de 3.000 millones de frases perfectamente alineadas.

¿Cuáles son las ventajas de la inteligencia artificial en los trabajos de traducción? Según Herranz, estas redes neuronales pretenden copiar a los humanos. Esto implica que a su vez tienen en cuenta el contexto en que se está usando la frase. El sistema no traduce literalmente palabra a palabra, sino que es mucho más preciso y lo hace sílaba a sílaba o en ocasiones hasta letra por letra. De esta manera, cae abruptamente el porcentaje de error.

Aparte de la extensa base de datos, la empresa necesitaba también algoritmos, los cuales obtuvo mediante la adaptación a sus necesidades de librerías libres. Con toda esta combinación de actividades, desarrolló un know how exclusivo que no solamente es útil para la traducción en sí, sino que también se puede sumarizar, o clasificar.

Desde el año 2017, esta empresa española está trabajando para la Comunidad Europea. Su desafío actual es nada más y nada menos que desarrollar un “Google Translate” específico para la Comunidad Europea. Tal responsabilidad será remunerada con dos millones de euros como parte del proyecto solicitado por Connecting Europe Facility (CEF) (Facilidad Conectora de Europa). La meta del proyecto es elaborar 420 motores de traducción que tengan en cuenta cualquier combinación posible de idiomas entre los veinticuatro idiomas oficinales de la Unión Europa, teniendo cada uno de ellos una base de quince millones de frases traducidas, totalizando 6.300 millones de frases. Posteriormente, 3 universidades cerciorarán que los resultados son fidedignos en al menos un 95% de los casos. Esta exigencia no le preocupa a Herranz, ya que afirma que en el sector privado ya están traduciendo al mismo nivel que Google, o incluso a mejor nivel en muchos casos.

El objetivo de este proyecto es que la tecnología le posibilite a la Comisión Europea traspasar información fidedigna a los estados miembros, así como recibir de ellos y traducirla fácilmente. Asimismo, habrá un duplicado de estos motores que será público, el cual cada Gobierno lo podrá usar como quiera ya que será de código abierto.

La tecnología lineal de Pangeanic es superior a Microsoft o Google. Cuando los grandes sistemas traducen entre dos idiomas que no son el inglés, suelen pasar primero por el inglés como idioma intermedio que tiene más datos. Esto hace que haya una pérdida de precisión porque no se está yendo en línea recta. Pangeanic elimina esta intermediación y realizan la traducción directa, sin importar cuales sean los dos idiomas que se está traduciendo desde y hacia.

El gran desafío de este proyecto es la generación de datos. Si bien la empresa valenciana posee una base propia, así como la de la Unión Europa, igualmente necesitará 15 millones de frases para cada una de las combinaciones, hasta para las menos frecuentes. Y, adicionalmente, dichas frases deberán ser acerca de justicia, política y economía, que son las temáticas principales de la Comisión.

¿Cómo harán para generar semejante cantidad de datos? Ya hay algunos datos generados y otros tantos que se pueden generar de manera sintética. Las redes neuronales de la empresa pueden elaborar oraciones sin errores de manera artificial. Asimismo, tiene incluso hasta más calidad respecto a los elaborados por las personas: son más escalables, confiables y contienen menos ruido. En realidad, aproximadamente la mitad de las frases de Pangeanic son sintéticas (1500 millones). Si bien el proyecto, que empezará en septiembre, tiene una duración estimada de dos años, la compañía irá publicando los motores a medida que los vaya desarrollándolos.

Desarrollando el ‘big data’ para todos los estados miembro

La Comisión Europea confió nuevamente el año pasado en Pangeanic para otro proyecto. Indica Manuel Herranz que las administraciones de los países europeos tienen la obligación de ser abiertas y disponer para los ciudadanos toda la información que generan. Por tanto, Pangeanic tiene como encargo reunir la información que generan los gobiernos diariamente. En particular, tienen a cargo el desarrollo del servidor junto a la base de datos. En otras palabras, están creando el “big data” de manera nacional. Hasta el momento, cuatro países lo han implementado (España, Malta, Croacia y Letonia), mientras que los demás países lo irá realizando gradualmente.

Por mas información ingresa en Innovadores.larazon.es


Artículos relacionados

  • ¿Por qué se sobrecalientan los tableros eléctricos?
    Cuando hablamos de provisión de energía eléctrica en industrias, se debe poner especial cuidado en la seguridad tanto de las personas como de los bienes, y que la disponibilidad de la energía sea ...
  • La importancia de los tableros eléctricos
    Un tablero eléctrico de automatización contiene los diferentes dispositivos eléctricos que permiten controlar el funcionamiento de las máquinas industriales. Así, permiten transmitir ene...
  • 7 claves del SEO
    Durante los últimos 20 años, los motores de búsqueda no han dejado de ajustar su algoritmo. ¿La meta? Servir a los usuarios la más alta calidad y el contenido más relevante posible.  Con el 6...
  • Una agencia de marketing todoterreno
    En DigitAlvar somos una empresa de marketing digital en Gijón enfocada en el mundo de las PYMES. Ofrecemos una serie de servicios de marketing digital en Gijón, que tienen como objetivo potenciar ...
  • Una gran estrategia de posicionamiento web gracias a Sistrix
    El posicionamiento web es uno de los pilares básicos del marketing digital, pero sorprendentemente no es la sección donde más dinero se invierte, siendo las redes sociales y las campañas en difere...

Publicado por el 26 Jul, 2019 | Publicar un comentario



Publicar un comentario

Debes estar identificado para publicar un comentario.

Destacados

Compartir en las Redes Sociales