FrameNet Brasil registra patentes de modelos de tradução automática

Com a perspectiva de melhorar o nível de precisão dos tradutores automáticos, pesquisadores da FrameNet Brasil, laboratório de linguística computacional da Universidade Federal de Juiz de Fora (UFJF), desenvolveram dois métodos inovadores capazes de melhorar o desempenho de traduções de termos inseridos em contextos específicos. A partir dos resultados obtidos e dos modelos produzidos, a equipe do laboratório registrou duas patentes junto ao Instituto Nacional da Propriedade Industrial (INPI), com apoio institucional do Centro Regional de Inovação e Transferência de Tecnologia (Critt), garantindo a propriedade intelectual das inovações.

Aplicabilidade em softwares de tradução automática
Para Torrent, “os resultados obtidos na avaliação de desempenho do sistema são muito encorajadores e revelam um potencial de impacto real na melhoria da qualidade das traduções geradas por esses sistemas”. O coordenador do laboratório também avalia que os dois métodos desenvolvidos pela equipe, assim como o programa de computador que implementa uma delas (Scylla), possuem aplicabilidade garantida a qualquer software de tradução automática comercial – de maneira que as patentes depositadas pela FrameNet Brasil junto ao INPI podem ser negociadas com empresas do ramo.

Como funcionam as traduções mais precisas
De acordo com o pesquisador Alexandre Diniz da Costa, integrante da FrameNet Brasil, ambos os métodos desenvolvidos pelos pesquisadores levariam a uma compreensão mais exata de frases, tanto em inglês quanto em português, levando em conta o contexto semântico em que estão inseridas. Segundo os pesquisadores, os resultados são obtidos da seguinte maneira: a partir de estruturas cognitivas chamadas frames, as palavras-chave de um determinado tópico são conectadas e contextualizadas dentro da perspectiva do assunto em que a frase está situada.

Um exemplo oferecido é a tradução de uma frase que referencia termos específicos do basquete, um esporte coletivo: utilizando um tradutor automático disponível on-line, a frase “a bandeja é quando o jogador faz a cesta bem próxima do aro” é traduzida para o inglês como “The tray is when the player makes the basket very close to the ring”. No entanto, as palavras tray e ring, embora correspondam literalmente às palavras bandeja e aro em português, não fazem sentido dentro do contexto de termos referentes ao basquetebol. As traduções mais adequadas – que seriam lay up e hoop, respectivamente –, embora não sejam obtidas em tradutores mais amplamente divulgados, são obtidas através dos modelos desenvolvidos pela FrameNet Brasil.

Reprodução do gráfico da métrica HTER (Reprodução/Tiago Torrent)

Os pesquisadores ainda informam que a qualidade das traduções realizadas são avaliadas pelo método HTER (Human-targeted Translation Error Rate), envolvendo o nível mínimo de correção humana necessária em uma tradução automática. No gráfico abaixo, o nível azul corresponde a uma tradução realizada por um tradutor automático comercial, sendo que o nível cinza refere-se ao software Scylla, desenvolvido pela equipe da FrameNet Brasil. Costa explica que, quanto menor for o número de correções ou edições (expostas no gráfico através de uma medida) feitas por editores humanos, melhor é o sistema de tradução automática, no que diz respeito à tradução de um domínio específico.

A importância das políticas de inovação
Torrent também destaca que as políticas de inovação são fundamentais em três aspectos: “Primeiro, elas trazem segurança jurídica para o laboratório e para os parceiros. Segundo, elas promovem o suporte de que o pesquisador precisa para inovar e registrar o produto do seu trabalho de inovação. O papel do Critt na garantia desses dois aspectos é exemplar. Por último, ela dá retorno para a Universidade. Quando um laboratório como a FrameNet Brasil capta um financiamento de um parceiro externo ou vende uma patente ou um software, uma parte desse recurso retorna para a universidade e permite o desenvolvimento de ações importantes para o ensino, a pesquisa e a extensão.”

Além disso, de acordo com o pesquisador, o laboratório tem se envolvido em programas de fomento à inovação promovidos por empresas, como o Google Summer of Code. Atualmente, a FrameNet Brasil tem focado em duas linhas de atuação. A primeira está relacionada ao enriquecimento do próprio modelo de cognição linguística da FrameNet com novas relações de sentido e com padrões de construção sentencial do Português Brasileiro. Já a segunda trabalha com a proposição de representações computacionais, que buscam entender como o significado pode ser construído em ambientes multimodais – ou seja, aqueles em que o texto escrito ou falado interage com vídeo ou áudio.

De acordo com Costa, o gráfico acima demonstra uma modelagem do cenário do esporte através dos frames (Reprodução/Tiago Torrent)

Outras informações:
Laboratório de Linguística Computacional – FrameNet Brasil
Centro Regional de Inovação e Transferência de Tecnologia