使用其他人工智能(AI)模型生成的数据训练人工智能模型可能导致所谓的“模型崩溃”的重大问题。当人工智能模型,特别是大型语言模型(LLM)如GPT-3和GPT-4,训练的数据是由之前的模型生成而非人类生成内容时,这一问题就会出现。
模型崩溃的发生是因为,随着时间的推移,人工智能模型开始失去理解和生成多样且准确的信息的能力。相反,它们开始重复早期模型数据中存在的相同错误和误解。这一问题尤其令人担忧,因为LLM向互联网贡献了越来越多的文本,形成了一个反馈循环,使得未来的模型训练在有缺陷的数据上。
来自牛津、剑桥和其他机构的研究人员通过使用AI生成的数据对语言模型进行数代训练验证了这一点。他们观察到,每一代新模型的准确性下降,错误的倾向增加。即使在训练集中包含了一些人类撰写的数据,这一趋势仍然存在,表明该问题是普遍的。
这些发现强调了使用真实人类生成数据来训练人工智能模型的重要性。如果没有这些数据,未来的模型可能会变得不那么有用且更加偏见,特别是在处理稀有或独特信息时。为了解决这一问题,研究人员建议开发更好的方法来追踪和验证用于人工智能训练数据的来源,确保人类生成的内容仍然是关键组成部分。
这一发现对人工智能未来的发展至关重要,它有助于确保模型在更深入融入我们生活的各个方面时,仍然可靠和有益。