Tecnologia americana destaca voz de uma pessoa em meio a grupo de falantes

Vilhena Soares

postado em 16/05/2019 06:00

Acoplada a aparelhos auditivos, tecnologia criada nos EUA destaca a voz de uma pessoa no meio de um grupo de falantes. Os dispositivos atuais não fazem essa diferenciação de sons. Avanço poderá ajudar principalmente idosos

O ouvido humano consegue priorizar sons, uma habilidade que permite dar foco a determinadas vozes e facilita o processo de audição. É por isso, por exemplo, que se consegue ouvir claramente um colega durante o almoço, mesmo com várias pessoas conversando no restaurante. Cientistas tentam incorporar esse mecanismo aos aparelhos auditivos. Com a ajuda de inteligência artificial, um grupo americano conseguiu a façanha em um sistema que utiliza as ondas neurais do usuário. Os resultados foram divulgados na última edição da revista Science Advances.

Os autores do estudo explicam que aparelhos auditivos modernos são excelentes para amplificar a fala enquanto suprimem certos tipos de ruído de fundo, como os de trânsito. Porém, aumentar o volume de uma única voz sobre as outras ainda é uma habilidade difícil de ser copiada. Essa dificuldade é chamada coquetel problem, em homenagem à cacofonia de vozes que se misturam durante aglomerações barulhentas.

;Em lugares lotados, como festas, os aparelhos auditivos tendem a amplificar todos os falantes ao mesmo tempo. Isso dificulta severamente a capacidade do usuário de conversar de forma eficaz, essencialmente o isolando das pessoas ao seu redor;, explica, em comunicado, Nima Mesgarani, pesquisador da Universidade de Columbia, nos Estados Unidos, e principal autor do estudo.

Para imitar essa capacidade, o aparelho auditivo desenvolvido por Mesgarani e sua equipe, em vez de depender apenas de amplificadores de som externos, como microfones, também monitora as ondas cerebrais do usuário. ;Anteriormente, descobrimos que, quando duas pessoas conversam, as ondas cerebrais do falante começam a se assemelhar às do ouvinte;, frisa Mesgarani.

Sem prévia

Os pesquisadores publicaram uma versão anterior do mesmo sistema em 2017, que, apesar de promissora, tinha uma limitação fundamental: precisava ser pré-treinada para reconhecer falantes específicos. ;Se você estiver em um restaurante com a família, esse dispositivo reconhece e decodificará as vozes. Mas assim que uma nova pessoa, como o garçom, chega, o sistema falha;, diferencia o autor do estudo.

No aparelho atual, modelos matemáticos complexos imitam as habilidades computacionais naturais do cérebro (redes neurais), criando algoritmos de separação de fala. O novo sistema separa as vozes de falantes individuais dentro de um grupo e, em seguida, compara o som emitido de cada falante com as ondas cerebrais do usuário. O falante cujo padrão de voz mais se aproxima às ondas cerebrais de quem está com o aparelho tem a sua voz amplificada.

Em testes com voluntários, o aparelho teve resultados extremamente positivos. ;Esses pacientes se ofereceram para ouvir diferentes vozes enquanto monitorávamos suas ondas cerebrais por meio de eletrodos implantados no cérebro. Nós, então, aplicamos o algoritmo recém-desenvolvido a esses dados;, conta Mesgarani.

O algoritmo rastreou a atenção dos usuários enquanto ouviam falantes desconhecidos. Quando um voluntário se concentrava em um falante, o sistema amplificava automaticamente a voz dele. Quando a atenção do usuário mudava, os níveis de volume faziam o mesmo. ;O resultado final foi um algoritmo de separação de fala que tem um desempenho similar ao das versões anteriores, mas com uma melhora importante: consegue reconhecer e decodificar uma voz, qualquer voz, imediatamente;, frisa o cientista.

Próximos passos

Agora, a equipe busca uma forma de transformar o aparelho em um dispositivo não invasivo, que possa ser usado apenas no couro cabeludo ou ao redor do ouvido, e de refinar o desempenho do algoritmo. ;Só testamos essa tecnologia em ambiente interno. Mas queremos garantir que ela funcione tão bem em uma rua movimentada ou em um restaurante barulhento, de modo que, onde quer que os usuários estejam, possam experimentar o mundo e entender as pessoas ao redor;, adianta Mesgarani.

Para a otorrinolaringologista Thais Gomes Abrahão Elias, o trabalho americano é extremamente importante, considerando o contexto atual de envelhecimento da população. ;Vários estudos mostram que o idoso com perda da audição, chamada presbiacusia, tem até seis vezes mais chance de sofrer com problemas de saúde relacionados ao comprometimento cognitivo, como a demência, em comparação com os que não têm. Esses dados já mostram a importância de tratar esse problema;, diz.

A especialista ressalta que as características da tecnologia poderão ajudar muitos pacientes caso seja aprimorada. ;Esse aparelho foi testado quando duas ou no máximo três pessoas falavam ao mesmo tempo. Sabemos que, na vida real, temos situações muito mais complexas, mas os dados mostram que os pacientes tiveram grandes progressos, relatando uma voz mais clara e limpa. Isso é um grande ganho;, avalia. ;Outro ponto importante a ser frisado é que os usuários sentem dificuldade de adaptação com os aparelhos disponíveis justamente pela confusão que pode ocorrer na captação desses sons. Tornar esse processo mais claro poderá ajudar nesse processo.;

;Em lugares lotados, como festas, os aparelhos auditivos tendem a amplificar todos os falantes ao mesmo tempo. Isso dificulta severamente a capacidade do usuário de conversar;
Nima Mesgarani, pesquisador da Universidade de Columbia e principal autor do estudo

Tecnologia americana destaca voz de uma pessoa em meio a grupo de falantes

Acoplada a aparelhos auditivos, tecnologia criada nos EUA destaca a voz de uma pessoa no meio de um grupo de falantes. Os dispositivos atuais não fazem essa diferenciação de sons. Avanço poderá ajudar principalmente idosos

Sem prévia

Próximos passos

Tags