Easy Scientific

Modelos de IA em Risco: Como o Treinamento em Dados de IA Poderia Prejudicar Tecnologias Futuras

Article Image

Credit: Mike MacKenzie, Flickr CC BY 2.0

Treinar modelos de inteligência artificial (IA) usando dados gerados por outros modelos de IA pode levar a um grande problema conhecido como "colapso de modelo." Este problema surge quando modelos de IA, particularmente grandes modelos de linguagem (LLMs) como GPT-3 e GPT-4, são treinados com dados que foram produzidos por modelos anteriores em vez de conteúdo gerado por humanos.

O colapso de modelo ocorre porque, com o tempo, os modelos de IA começam a perder a capacidade de entender e gerar informações diversas e precisas. Em vez disso, eles começam a repetir os mesmos erros e equívocos presentes nos dados dos modelos anteriores. Este problema é especialmente preocupante, já que os LLMs contribuem cada vez mais com texto para a internet, criando um ciclo de retroalimentação onde modelos futuros são treinados com dados falhos.

Pesquisadores de Oxford, Cambridge e outras instituições demonstraram isso treinando modelos de linguagem ao longo de várias gerações usando dados gerados por IA. Eles observaram que, a cada nova geração, os modelos se tornavam menos precisos e mais propensos a erros. Essa tendência continuou mesmo quando alguns dados escritos por humanos foram incluídos no conjunto de treinamento, indicando que o problema é generalizado.

As descobertas enfatizam a importância de usar dados reais gerados por humanos para treinar modelos de IA. Sem isso, modelos futuros correm o risco de se tornarem menos úteis e mais tendenciosos, especialmente no que diz respeito a informações raras ou únicas. Para combater isso, os pesquisadores sugerem desenvolver melhores métodos para rastrear e verificar as fontes de dados usadas no treinamento de IA, garantindo que o conteúdo produzido por humanos permaneça um componente chave.

Essa descoberta é crucial para o futuro desenvolvimento da IA, ajudando a garantir que os modelos permaneçam confiáveis e benéficos à medida que se tornam mais integrados em vários aspectos de nossas vidas.

Nature, 2024; doi: 10.1038/s41586-024-07566-y