O projeto visa expandir as tecnologias de linguagem: a pesquisa pode levar o reconhecimento automático de fala a 2.000 idiomas

Apenas uma fração dos 7.000 a 8.000 idiomas falados em todo o mundo se beneficiam das modernas tecnologias de linguagem, como transcrição de voz para texto, legendagem automática, tradução instantânea e reconhecimento de voz. Os pesquisadores da Carnegie Mellon University querem expandir o número de idiomas com ferramentas de reconhecimento automático de fala disponíveis para eles de cerca de 200 para potencialmente 2.000.

“Muitas pessoas neste mundo falam diversos idiomas, mas as ferramentas de tecnologia de linguagem não estão sendo desenvolvidas para todos eles”, disse Xinjian Li, Ph.D. aluno do Language Technologies Institute (LTI) da Escola de Ciência da Computação. “Desenvolver tecnologia e um bom modelo de linguagem para todas as pessoas é um dos objetivos desta pesquisa.”

Li faz parte de uma equipe de pesquisa com o objetivo de simplificar os requisitos de dados necessários para criar um modelo de reconhecimento de fala. A equipe – que também inclui os membros do corpo docente da LTI Shinji Watanabe, Florian Metze, David Mortensen e Alan Black – apresentou seu trabalho mais recente, “ASR2K: reconhecimento de fala para cerca de 2.000 idiomas sem áudio”, na Interspeech 2022 na Coreia do Sul.

A maioria dos modelos de reconhecimento de fala requer dois conjuntos de dados: texto e áudio. Dados de texto existem para milhares de idiomas. Dados de áudio não. A equipe espera eliminar a necessidade de dados de áudio concentrando-se em elementos linguísticos comuns em muitos idiomas.

Historicamente, as tecnologias de reconhecimento de fala se concentram no fonema de um idioma. Esses sons distintos que distinguem uma palavra da outra – como o “d” que diferencia “cachorro” de “tronco” e “engrenagem” – são exclusivos de cada idioma. Mas as línguas também têm telefones, que descrevem como uma palavra soa fisicamente. Múltiplos fones podem corresponder a um único fonema. Portanto, embora idiomas separados possam ter fonemas diferentes, seus fonemas subjacentes podem ser os mesmos.

A equipe LTI está desenvolvendo um modelo de reconhecimento de fala que se afasta dos fonemas e, em vez disso, se baseia em informações sobre como os telefones são compartilhados entre os idiomas, reduzindo assim o esforço para construir modelos separados para cada idioma. Especificamente, ele combina o modelo com uma árvore filogenética – um diagrama que mapeia as relações entre os idiomas – para ajudar nas regras de pronúncia. Por meio de seu modelo e da estrutura em árvore, a equipe pode aproximar o modelo de fala para milhares de idiomas sem dados de áudio.

“Estamos tentando remover esse requisito de dados de áudio, que nos ajuda a passar de 100 ou 200 idiomas para 2.000”, disse Li. “Esta é a primeira pesquisa voltada para um número tão grande de idiomas, e somos a primeira equipe com o objetivo de expandir as ferramentas de linguagem para esse escopo.”

Ainda em estágio inicial, a pesquisa melhorou as ferramentas de aproximação de linguagem existentes em modestos 5%, mas a equipe espera que sirva de inspiração não apenas para seu trabalho futuro, mas também para o de outros pesquisadores.

Para Li, o trabalho significa mais do que disponibilizar tecnologias de linguagem para todos. É sobre preservação cultural.

“Cada idioma é um fator muito importante em sua cultura. Cada idioma tem sua própria história e, se você não tentar preservar os idiomas, essas histórias podem se perder”, disse Li. “Desenvolver esse tipo de sistema de reconhecimento de fala e essa ferramenta é um passo para tentar preservar esses idiomas”.

Com informações de Science Daily.