DeepSeek 新 AI 模型:它为何自认为是 ChatGPT?

本周早些时候,一家资金雄厚的人工智能实验室“深势”(DeepSeek)发布了一款开源的AI模型,这款模型在多个热门的基准测试中击败了众多竞争对手。这款名为DeepSeek V3的模型体量庞大但效率很高,可以轻松处理诸如代码编写和文章撰写等基于文本的任务。
然而,令人惊讶的是,它似乎认为自己就是ChatGPT。
有用户在社交平台X上的帖子显示,DeepSeek V3 将自己识别为ChatGPT,即OpenAI公司推出的AI聊天平台。当被进一步询问时,DeepSeek V3 坚持认为它是 OpenAI 于 2023 年发布的 GPT-4 模型的某个版本。
This actually reproduces as of today. In 5 out of 8 generations, DeepSeekV3 claims to be ChatGPT (v4), while claiming to be DeepSeekV3 only 3 times.
— Lucas Beyer (bl16) (@giffmana) December 27, 2024
Gives you a rough idea of some of their training data distribution. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv
这种“幻觉”深入骨髓。如果你向 DeepSeek V3 询问关于DeepSeek API的问题,它会给出如何使用 OpenAI API 的说明。更令人啼笑皆非的是,DeepSeek V3 甚至会讲一些与 GPT-4 相同的笑话,连笑点都一模一样。
那么,这究竟是怎么回事呢?
像 ChatGPT 和 DeepSeek V3 这样的模型本质上是统计系统。它们通过在数十亿个示例上进行训练,学习这些示例中的模式来进行预测——比如电子邮件中“to whom”通常接在“it may concern”之前。
深势尚未透露关于 DeepSeek V3 训练数据的来源。但是,公开数据集中并不缺乏由 GPT-4 通过 ChatGPT 生成的文本。如果 DeepSeek V3 是在这些数据上进行训练的,那么该模型可能已经记住了 GPT-4 的一些输出,并且现在正在逐字逐句地复述它们。
伦敦国王学院专门研究人工智能的研究员Mike Cook在接受 TechCrunch 采访时表示:“显然,该模型在某个时候看到了来自 ChatGPT 的原始响应,但尚不清楚具体在哪里。这可能是‘意外’……但不幸的是,我们已经看到过有人直接使用其他模型的输出来训练自己的模型,试图借用它们的知识。”
Cook指出,使用竞争对手 AI 系统的输出来训练模型的做法对模型质量来说“非常糟糕”,因为它可能导致幻觉和误导性答案,就像上面提到的情况一样。“就像复印复印件一样,我们丢失的信息以及与现实的联系会越来越多。”
此外,这种做法可能违反了那些系统的服务条款。
OpenAI 的条款禁止其产品(包括 ChatGPT 用户)的用户使用其输出来开发与 OpenAI 自身产品竞争的模型。
OpenAI 和深势均未立即回应置评请求。然而,OpenAI 首席执行官Sam Altman周五在 X 上发布了一条似乎是针对DeepSeek和其他竞争对手的帖子。
Altman写道:“复制你知道有效的东西是(相对)容易的。当你不知道它是否会奏效时,做一些新的、有风险的和困难的事情极其困难。”
当然,DeepSeek V3 远非第一个错误识别自己身份的模型。谷歌的 Gemini 和其他一些模型有时也会声称自己是竞争对手的模型。例如,当使用普通话提示时,Gemini 会说它是中国公司百度推出的文心一言聊天机器人。
这主要是因为互联网(人工智能公司从中获取大部分训练数据)正充斥着 AI 垃圾内容。“内容农场”正在使用 AI 来创建点击诱饵。机器人正在涌入 Reddit 和 X。据一项估计,到 2026 年,互联网上 90% 的内容可能都是由 AI 生成的。
这种“污染”(如果可以这样称呼的话)使得彻底过滤训练数据集中的 AI 输出变得相当困难。
当然,DeepSeek 直接使用 ChatGPT 生成的文本来训练 DeepSeek V3 是有可能的。毕竟,Google也曾被指控这样做过。
非营利组织 AI Now Institute 的首席 AI 科学家Heidy Khlaaf表示,从现有模型中“提炼”知识所带来的成本节约对开发者来说可能很有吸引力,无论风险如何。
Khlaaf说:“即使互联网数据现在充斥着 AI 输出,其他意外地使用 ChatGPT 或 GPT-4 输出进行训练的模型也不一定会表现出类似 OpenAI 定制消息的输出。如果深势确实部分使用了 OpenAI 模型进行提炼,那也不足为奇。”
然而,更有可能的情况是,大量的 ChatGPT/GPT-4 数据进入了 DeepSeek V3 的训练集。这意味着该模型无法被信任来识别自己的身份,这只是其中一个问题。更令人担忧的是,DeepSeek V3 通过不加批判地吸收和迭代 GPT-4 的输出,可能会加剧该模型的一些偏见和缺陷。
在 AI 生成内容日益泛滥的今天,如何确保模型的训练数据清洁和避免“知识剽窃”成为了一个值得深思的行业挑战。
Member discussion