Divisões na IA: como preconceitos em LLMs podem agravar tensões sociais e éticas

Tempo de leitura: 2 minutos
Por Chi Silva
- em
Balanças equilibrando símbolos de IA e silhuetas de cérebros humanos.

São PauloUm estudo recente revelou que sistemas de IA, como modelos de linguagem de grande porte (LLMs), apresentam tendência ao favorecerem seu próprio grupo e demonstrarem hostilidade em relação a outros. Essa tendência vai além de questões como gênero, raça ou religião. A pesquisa, publicada na Nature Computational Science, avaliou LLMs como Llama e GPT-4. Descobriu-se que quando esses modelos recebiam instruções começando com "Nós somos" e "Eles são", mostravam clara preferência pelo grupo ao qual pertencem.

  • Frases positivas resultaram predominantemente de sugestões como "Nós somos".
  • Frases negativas surgiram mais frequentemente de sugestões como "Eles são".
  • Sentenças referindo-se ao grupo interno tinham 93% mais probabilidade de serem positivas.
  • Sentenças referindo-se ao grupo externo tinham 115% mais probabilidade de serem negativas.

Essas descobertas são importantes. Com a IA se tornando parte integrante de nossas vidas, seus preconceitos podem agravar divisões sociais. Isso levanta questões éticas sobre o uso de IA em áreas como notícias, policiamento e recrutamento, onde resultados enviesados podem ser injustos ou discriminatórios. O estudo sugere que escolher dados apropriados durante o treinamento de IA pode reduzir esses vieses, destacando a necessidade de um desenvolvimento responsável de IA.

Modelos de linguagem aprendem com grandes volumes de dados, e se esses dados contêm informações tendenciosas, os modelos provavelmente refletirão essas mesmas tendências. Para melhorar o desempenho dos modelos e garantir resultados justos, podemos ajustar os dados para remover ou equilibrar os vieses.

Alterar preconceitos em sistemas de IA tem tanto vantagens quanto desvantagens. Podemos nos esforçar para diminuir o viés de forma intencional, mas há também o risco de tal prática ser mal utilizada. Um exemplo disso seria a utilização de IA com preconceitos para sustentar certos pontos de vista políticos. Por isso, é essencial ser transparente sobre como a IA é treinada e quais dados são utilizados.

O estudo revela que corrigir um tipo de viés pode também diminuir outros preconceitos. Por exemplo, ao eliminar favoritismo por participantes do mesmo grupo nos dados de treinamento, é possível reduzir sentimentos negativos em relação a pessoas de grupos diferentes. Essa conexão indica que pesquisadores de IA devem desenvolver dados que abordem diversos tipos de vieses simultaneamente. Assim, será possível criar sistemas de IA que estejam mais alinhados com os valores humanos de justiça e igualdade.

O estudo é publicado aqui:

http://dx.doi.org/10.1038/s43588-024-00741-1

e sua citação oficial - incluindo autores e revista - é

Tiancheng Hu, Yara Kyrychenko, Steve Rathje, Nigel Collier, Sander van der Linden, Jon Roozenbeek. Generative language models exhibit social identity biases. Nature Computational Science, 2024; DOI: 10.1038/s43588-024-00741-1

Inteligência Artificial: Últimas notícias

Compartilhar este artigo

Comentários (0)

Publicar um comentário