Easy Scientific

KI-Modelle in Gefahr: Wie das Training mit KI-Daten zukünftige Technologien ruinieren könnte

Article Image

Credit: Mike MacKenzie, Flickr CC BY 2.0

Die Schulung von Modellen der künstlichen Intelligenz (KI) mit Daten, die von anderen KI-Modellen generiert wurden, kann zu einem großen Problem führen, das als "Modellkollaps" bekannt ist. Dieses Problem tritt auf, wenn KI-Modelle, insbesondere große Sprachmodelle (LLMs) wie GPT-3 und GPT-4, mit Daten trainiert werden, die von früheren Modellen anstelle von menschlich generierten Inhalten produziert wurden.

Der Modellkollaps tritt auf, weil KI-Modelle im Laufe der Zeit die Fähigkeit verlieren, vielfältige und präzise Informationen zu verstehen und zu generieren. Stattdessen beginnen sie, die gleichen Fehler und Missverständnisse zu wiederholen, die in den Daten früherer Modelle vorhanden sind. Dieses Problem ist besonders besorgniserregend, da LLMs immer mehr Texte ins Internet beitragen und so einen Rückkopplungszyklus schaffen, in dem zukünftige Modelle mit fehlerhaften Daten trainiert werden.

Forscher aus Oxford, Cambridge und anderen Institutionen haben dies demonstriert, indem sie Sprachmodelle über mehrere Generationen hinweg mit KI-generierten Daten trainiert haben. Sie beobachteten, dass die Modelle mit jeder neuen Generation weniger genau und fehleranfälliger wurden. Dieser Trend setzte sich auch fort, wenn einige von Menschen geschriebene Daten in den Trainingssatz aufgenommen wurden, was darauf hindeutet, dass das Problem weit verbreitet ist.

Die Ergebnisse unterstreichen die Bedeutung der Verwendung von realen, menschlich generierten Daten zum Trainieren von KI-Modellen. Ohne dies riskieren zukünftige Modelle, weniger nützlich und voreingenommener zu werden, insbesondere wenn es um seltene oder einzigartige Informationen geht. Um dem entgegenzuwirken, schlagen die Forscher vor, bessere Methoden zur Verfolgung und Überprüfung der Datenquellen zu entwickeln, die in der KI-Schulung verwendet werden, und sicherzustellen, dass menschlich produzierte Inhalte ein wichtiger Bestandteil bleiben.

Diese Entdeckung ist entscheidend für die zukünftige Entwicklung von KI, da sie dazu beiträgt, sicherzustellen, dass Modelle zuverlässig und vorteilhaft bleiben, während sie immer mehr in verschiedene Aspekte unseres Lebens integriert werden.

Nature, 2024; doi: 10.1038/s41586-024-07566-y