Pesquisadores da Universidade Estadual da Pensilvânia, nos Estados Unidos, apresentaram o NaviSense, um novo aplicativo de inteligência artificial (IA) desenvolvido para ajudar pessoas com deficiência visual a localizar objetos usando comandos de voz. A ferramenta combina modelos de grande linguagem (LLMs) e modelos de linguagem de visão (VLMs), ambos tipos de IA, para analisar o ambiente, identificar o item solicitado e descartar o que não corresponde à descrição informada.
- Mais barato, laser ecológico pode facilitar diagnósticos
- Cientistas criam fungos com gosto e textura de carne
Caso não entenda exatamente o que o usuário procura, o sistema faz perguntas adicionais para refinar a busca e oferecer uma orientação mais precisa. Além disso, o NaviSense rastreia em tempo real os movimentos das mãos, acompanhando o deslocamento do telefone e indicando a localização do objeto em relação à mão do usuário. O aplicativo foi detalhado na Associação para Maquinaria de Computação (ACM).
O especialista em acessibilidade digital e design inclusivo Marcelo Sales explica que, enquanto os LLMs lidam com enormes volumes de textos, os VLMs trabalham com grandes quantidades de dados visuais, como imagens. Para ele, o foco do projeto não é a inovação tecnológica, mas a reunião de tecnologias existentes. A novidade está na melhoria da usabilidade, oferecendo uma experiência mais natural e conversacional, na qual o usuário pode interagir por voz para obter informações sobre objetos e ambientes. "A acessibilidade já existe através de aplicativos separados, mas aprimora-se a facilidade de uso com essa abordagem."
Motivação e futuro
As tecnologias atuais para pessoas com deficiência visual apresentam limitações: algumas oferecem orientação precisa, mas só funcionam se os objetos forem previamente cadastrados ou de categorias fixas; outras conseguem identificar objetos livremente, mas não ajudam a guiar a pessoa até eles. Para resolver esse problema, o NaviSense utiliza, além de modelos de IA, realidade aumentada (AR) e LiDAR, conseguindo identificar objetos de qualquer tipo e fornecer orientações por som e toque em tempo real. Os usuários só precisam dizer o que estão procurando, e o sistema os guia até o objeto sem necessidade de preparação ou cadastro prévio.
A tecnologia foi testada com 12 pessoas com deficiência visual ou com baixa visão. O sistema ajudou os participantes a encontrar os objetos mais rapidamente e foi preferido em relação às tecnologias existentes, mostrando que é possível unir detecção aberta de objetos com orientação precisa de forma prática e acessível.
Sobre o futuro do aplicativo, os pesquisadores reconhecem que ainda há aperfeiçoamentos a serem implementados antes da comercialização, como reduzir o consumo de bateria e otimizar o desempenho dos modelos de IA. "Estamos muito próximos de lançar essa tecnologia comercialmente e queremos torná-la ainda mais acessível", afirmou em comunicado o docente da Universidade Estadual da Pensilvânia e líder da equipe NaviSense, Vijaykrishnan Narayanan. "Os testes e protótipos anteriores nos dão uma base sólida para aprimorar ainda mais a ferramenta para a comunidade com deficiência visual."
* Estagiária sob supervisão de Lourenço Flores
Saiba Mais
Mecanismo
A realidade aumentada (AR) é uma tecnologia que sobrepõe informações digitais ao mundo real. Por meio da câmera de um celular ou de óculos especiais, é possível ver objetos virtuais, textos ou indicadores que aparecem sobre o que está ao redor, ajudando o usuário a localizar ou interagir com o ambiente. Já o LiDAR, que significa Light Detection and Ranging, utiliza pulsos de luz laser para medir distâncias e mapear o ambiente em três dimensões. Ele envia a luz, que reflete nos objetos, e calcula a posição exata de cada elemento ao redor. No caso do aplicativo NaviSense, essas tecnologias trabalham juntas: a AR fornece indicações sobre onde estão os objetos, enquanto o LiDAR permite que o sistema "veja" o espaço com precisão, identifique obstáculos e guie o usuário de forma segura e eficiente.
Flipar
Flipar
Flipar