Easy Scientific

AIモデルの危機:AIデータでの学習が将来の技術を破壊する可能性

Article Image

Credit: Mike MacKenzie, Flickr CC BY 2.0

他のAIモデルによって生成されたデータを使用して人工知能(AI)モデルを訓練することは、「モデル崩壊」として知られる重大な問題を引き起こす可能性があります。この問題は、GPT-3やGPT-4のような大規模言語モデル(LLM)が、人間が生成したコンテンツではなく、以前のモデルによって生産されたデータで訓練されるときに発生します。

モデル崩壊は、時間が経つにつれてAIモデルが多様で正確な情報を理解し生成する能力を失い始めるために起こります。その代わりに、彼らは以前のモデルのデータに存在する同じ誤りや誤解を繰り返し始めます。この問題は、LLMがインターネットにますます多くのテキストを提供し、将来のモデルが欠陥のあるデータで訓練されるフィードバックループを作成するため、特に懸念されます。

オックスフォード、ケンブリッジなどの研究者たちは、AI生成データを使用して数世代にわたり言語モデルを訓練することによってこれを示しました。彼らは、新しい世代ごとにモデルの精度が低下し、間違いを犯しやすくなることを観察しました。この傾向は、いくつかの人間が書いたデータが訓練セットに含まれているときでも続き、問題の広がりを示しています。

これらの発見は、AIモデルを訓練するために実際の人間生成データを使用する重要性を強調しています。これがないと、将来のモデルは特に希少または独自の情報に関して、役に立たなくなり、偏りが生じるリスクがあります。この問題に対処するために、研究者たちはAI訓練に使用されるデータの出所を追跡し検証するためのより良い方法を開発することを提案しており、人間が作成したコンテンツが重要な要素であり続けるようにしています。

この発見は、AIの未来の発展にとって重要であり、モデルが私たちの生活のさまざまな側面により統合されるにつれて、信頼性が高く有益であり続けることを保証するのに役立ちます。

Nature, 2024; doi: 10.1038/s41586-024-07566-y