Na maioria das vezes, as ferramentas de inteligência artificial são treinadas com inglês, seguido por línguas europeias como francês e espanhol. Essa concentração linguística desenvolve um cenário desigual, principalmente em momentos em que essas ferramentas não reconhecem ou compreendem outras linguagens faladas no mundo, como as africanas, asiáticas e indígenas.
Uma reportagem da NiemanLab revelou como os modelos de linguagem de grande porte (LLMs) estão sendo construídos com dados de países e culturas do Norte Global. Isso resulta em IAs que não funcionam bem em contextos do Sul Global, onde há diversidade linguística muito maior. Redações jornalísticas e populações inteiras ficam às margens dos avanços tecnológicos, enfrentando desafios práticos e estruturas por simplesmente se comunicaram diferentemente das línguas dominantes dos modelos.
Quando a IA não entende
Em muitos casos, nem as transcrições e traduções funcionam bem. Nas Filipinas, por exemplo, os erros são gigantescos. Na Índia, um país com 22 idiomas oficiais, as ferramentas demonstram resultados imprecisos, gerando alucinações e contendo falhas frequentes em traduções. Até quando a língua falada é considerada, os modelos encontram dificuldades entre o idioma oral e o escrito.
O problema também se intensifica nos países asiáticos, que usam códigos mistos: combinações entre hindi e inglês em uma mesma conversa. Isso exige dados confiáveis para treinar modelos, algo que nem sempre está disponível nessas línguas e contextos. Ou, muitas vezes, não interessa às empresas que dominam o setor.
É nessas horas que percebemos a falta de prioridade dada a línguas consideradas de “baixo recurso”, ou seja, que têm poucos dados disponíveis em formato digital. Também foi descoberto que as respostas das IAs fornece informações incorretas com confiança.
Soluções próprias
Diante da negligência, o Sul Global começou a reagir por conta própria, criando soluções adaptadas à sua realidade. É o caso da Tama Media, um grupo de veículos de notícias da África Ocidental que lançou o Akili, um aplicativo de verificação de fatos baseado em comunicação oral. Essa escolha foi feita porque, em muitas regiões africanas, a oralidade ainda é a principal forma de comunicação, ainda mais em contextos onde o analfabetismo é alto e as línguas oficiais dos modelos de IA não são amplamente compreendidas.
No Paraguai, o veículo de notícias El Surti está desenvolvendo o GuaraníAI, um chatbot treinado para detectar e responder no idioma guarani, falada por cerca de 12 milhões de pessoas. Se a IA reconhecer que o usuário está falando a língua, ela responderá no mesmo idioma, respeitando sua estrutura linguística e cultural.
A Nigéria também está dando passos importantes. O veículo digital The Republic está criando o Minim. A plataforma de conversão de voz é voltada para os idiomas africanos, como pidgi, hausa e suaíli. O diferencial é os criadores de conteúdo poderem emprestar suas vozes para treinar a IA, permitindo que tenha diferentes sotaques, idades e estilos de fala e idades diferentes, deixando tudo mais representativo.
Seria o início de uma mudança?
Embora as iniciativas locais sejam potentes, algumas grandes empresas perceberam a importância de se moverem nesse sentido. No fim de 2024, a OpenAI e Meta anunciaram, em parceria com a Orange, um projeto para criar modelos de IA voltados aos idiomas africanos. Inicialmente, o foco estava nos idiomas Wolof e Pulaar, falado por cerca de 22 milhões de pessoas na África Ocidental. A Orange também se comprometeu em expandir o projeto e incluir mais empresas. Buscando melhorar os serviços de comunicação, saúde e educação. Para isso, os modelos estão sendo treinados com dados processados em data centers na Europa e África.
Mais recentemente, em junho de 2025, a Nvidia e Perplexity anunciaram iniciativas voltadas para a inclusão linguística. As empresas estão firmando parcerias com fabricantes de modelos de IA na Europa e Oriente Médio. A Nvidia trabalhará com organizações da França, Alemanha, Itália, Polônia, Espanha e Suécia para desenvolver modelos capazes de operar em idiomas locais com mais eficiência. Após o treinamento, a Perplexity será responsável por distribuir essas tecnologias na Europa, onde as corporações usarão os modelos em data centers locais para realizar tarefas comerciais avançadas.
Abismo digital
Ainda assim, a desigualdade é evidente. Conforme o Árabe.Ai, o árabe é a quinta língua mais falado do mundo, mas só representa 1% de dados do treinamento de IA. O Common Crawl, mostra que o inglês domina a web, representando 43,8% a 43,9% de todo o conteúdo disponível. Em seguida vêm o alemão (5,1% a 5,5%), o francês (4,2% a 4,3%) e o japonês (4,8% a 4,9%)
Enquanto isso, idiomas como hausa, pashto, amárico, iorubá, sundanês, sindi e zulu mal aparecem. Juntas, representam cerca de 0,004% do conjunto de dados. A língua da Etiópia também chama atenção, falado por 60 milhões de pessoas, ocupando apenas 0,0036% dos dados presentes nos grandes repositórios.
Uma alternativa muto cogitada é o uso da tradução automática, porém, ela está longe de ser uma solução ideal. Elas falham em captar nuances culturais, comprometendo a qualidade das interações. Isso acaba afastando mais as pessoas da tecnologia.
É importante pensar que a inteligência artificial deve ser uma ferramenta poderosa para comunicação e inclusão, mas, se continuar sendo treinada de forma enviesada, reforçará ainda mais as desigualdades existentes.
Por Pietra Gomes | Revisão: Daniela Gentil
LEIA TAMBÉM: Como é o trabalho de quem ensina a inteligência artificial a ser ética?