IA reproduz vieses quando o Brasil não está nos dados

Denis Caldeira | Artigo IA e Liderança Trabalho e Formação 30/11 - (crédito: Caio Gomez/CB)

Por Jorge Brivilati - Diretor de cena; vencedor de leões de ouro em Cannes e Grand Prix em entretenimento; fotógrafo; diretor de fotografia e fundador do Bamboo Data

Siga o canal do Correio Braziliense no WhatsApp e receba as principais notícias do dia no seu celular.

Quando olhamos para as áreas de educação, comunicação, pesquisa e produção de conteúdo, vemos o quanto a inteligência artificial (IA) avança rapidamente. No entanto, existe uma questão estrutural que ainda recebe pouca atenção no debate público: os dados que alimentam esses sistemas. Modelos de IA não aprendem sozinhos. Eles são treinados a partir de grandes volumes de informação que definem como reconhecem rostos, interpretam culturas, descrevem territórios e organizam conhecimento.

Fique por dentro das notícias que importam para você!

SIGA O CORREIO BRAZILIENSE NO

SIGA O CB NO

Hoje, 90% dos dados utilizados no treinamento de modelos de IA têm origem na América do Norte e na Europa. Países do Sul Global aparecem de forma limitada ou diluída em bases genéricas, criando um desequilíbrio na maneira como a tecnologia aprende a representar o mundo. Quando determinadas culturas ou territórios aparecem pouco nos datasets de treinamento, a consequência não é apenas técnica; os sistemas passam a reproduzir lacunas culturais e simplificações sociais em escala.

Leia também: Uma máquina desgovernada

A IA já faz parte do cotidiano de professores, estudantes e profissionais em diferentes áreas. Ferramentas generativas produzem textos, imagens e vídeos em segundos e sistemas automatizados passaram a apoiar pesquisas, trabalhos escolares e atividades acadêmicas. A tecnologia tornou-se uma interface frequente para acessar conhecimento.

Diante desse cenário, surge uma pergunta essencial: que Brasil esses sistemas conhecem? A diversidade cultural do país é profunda e inclui povos indígenas, diferentes matrizes religiosas, expressões regionais e uma riqueza linguística que raramente aparece com precisão nos grandes modelos globais.

Segundo dados do Censo Demográfico 2022, o Brasil abriga 391 povos ou etnias indígenas e 295 línguas indígenas ainda faladas no país, uma das maiores diversidades linguísticas do planeta. Ao mesmo tempo, organismos internacionais alertam para o risco de desaparecimento desse patrimônio cultural.

A Unesco, por exemplo, estima que cerca de 40% das línguas faladas no mundo estão ameaçadas de extinção, o que pode representar a perda de milhares de sistemas de conhecimento, cosmologias e formas de interpretar a natureza e a sociedade. Quando essas referências culturais não entram nos datasets utilizados para treinar inteligência artificial, elas deixam de influenciar a forma como essas tecnologias aprendem a interpretar o mundo.

O viés em inteligência artificial é amplamente discutido na comunidade científica. Sistemas de IA aprendem padrões a partir dos dados que recebem durante o treinamento. Se essas bases contêm lacunas culturais ou sociais, os resultados também refletirão essas limitações.

Esse fenômeno torna-se ainda mais evidente no campo da IA generativa, responsável por criar imagens, vídeos e textos. Esses modelos aprendem padrões visuais e narrativos a partir do material que analisam durante o treinamento. Rosto, pele, arquitetura, paisagens, roupas e gestos passam a formar um repertório que será usado para gerar novos conteúdos.

Quando o Brasil aparece de maneira limitada nesses datasets, os resultados frequentemente reproduzem interpretações genéricas ou estereotipadas. Imagens que deveriam representar famílias brasileiras podem surgir em cenários inspirados em padrões estrangeiros. Representações culturais podem misturar símbolos de tradições distintas ou simplificar identidades complexas.

Diante desse cenário, o debate sobre inteligência artificial precisa avançar para uma dimensão menos visível, mas fundamental: a infraestrutura de dados. Não se trata apenas de desenvolver novos algoritmos ou aplicações mais sofisticadas. É necessário discutir quais conjuntos de dados estão sendo utilizados para treinar esses sistemas.

Datasets culturalmente situados ajudam a reduzir distorções e ampliam a capacidade dos modelos de compreender diferentes contextos sociais. Isso envolve registrar imagens, vídeos, sons e textos com documentação adequada, autorização de uso e metadados que expliquem o que está sendo representado. Quando os dados são organizados com esse tipo de curadoria, a IA passa a ter mais condições de interpretar realidades complexas.

A inteligência artificial tende a se tornar uma camada cada vez mais presente na produção e circulação de conhecimento. À medida que esses sistemas ganham espaço, cresce também a importância de discutir a origem dos dados que moldam seu funcionamento.

Garantir diversidade nos datasets não é apenas uma questão de representatividade simbólica. Trata-se de construir sistemas capazes de interpretar o mundo com maior precisão e respeito à pluralidade cultural. Assim, o futuro da IA será, em grande medida, resultado das escolhas feitas agora sobre quais dados serão organizados, preservados e utilizados para treinar as máquinas.

Em um país marcado pela diversidade cultural como o Brasil, estruturar essas informações de forma responsável não é apenas uma agenda tecnológica. É também uma decisão sobre como queremos que nossa cultura seja compreendida pelas tecnologias que irão mediar o conhecimento nas próximas décadas.