Software desenvolvido em São Paulo filtra dados digitais

postado em 24/08/2015 06:00

Para muitos, organizar as pastas e os arquivos virtuais do computador é uma tarefa continuamente adiada. Assim também acontece com a obrigação de ler e separar as mensagens acumuladas na caixa de entrada do e-mail, uma ideia que se torna mais insuportável a cada novo recado que chega. Imagine, então, como difícil seria examinar todo o conteúdo publicado em sites da internet, como portais de notícias, blogues e redes sociais. Um desafio impossível para humanos. Para máquinas, porém, um trabalho que pode ser cumprido sem dificuldades. Um software em desenvolvimento no Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP) em São Carlos consegue classificar automaticamente grande quantidade de textos digitais.

Trata-se de um algoritmo que identifica os termos usados em cada tipo de texto e analisa a relação entre as palavras para classificar um novo documento. Tudo é feito de acordo com os exemplos dados por humanos. Se uma biblioteca virtual tiver vários tipos de arquivos científicos, por exemplo, bastaria cadastrar no programa alguns trabalhos relacionados a cada assunto. A partir de alguns exemplos de cada categoria, o programa conclui a organização por conta própria.

A maioria dos programas de classificação automática de textos considera a frequência com que certas palavras-chave aparecem nos documentos. No entanto, os algoritmos desenvolvidos pelo aluno de doutorado do ICMC Rafael Rossi também são capazes de interpretar as redes formadas por associações entre termos, o que permite ao computador identificar padrões não assimilados em outros tipos de representações, tornando o software mais eficiente. Por meio do aprendizado de máquina, o sistema pode se aperfeiçoar na sua tarefa, imitando o discernimento de um humano sem que ele tenha de ser especialmente programado.

;O que propomos é considerar a similaridade entre termos em uma coleção de documentos. Se tenho a palavra ;banco; e ;dados; no mesmo documento, elas serão similares. Se, por outro lado, eu tiver os termos ;banco; e ;redes;, que são áreas distintas, elas não serão similares. Assim, definimos o que chamamos de valor de relevância. Seria o peso ou a força que um termo tem para determinado documento. O objetivo é usar a relação de similaridade para definir essa relevância;, explica Rafael Rossi.

A matéria completa está disponível aqui, para assinantes. Para assinar, clique aqui.

Software desenvolvido em São Paulo filtra dados digitais

O programa separa os dados a partir de associações próprias

Tags