30 Dec 2024 5 min read

DeepSeek 新 AI 模型：它为何自认为是 ChatGPT？

本周早些时候，一家资金雄厚的人工智能实验室“深势”（DeepSeek）发布了一款开源的AI模型，这款模型在多个热门的基准测试中击败了众多竞争对手。这款名为DeepSeek V3的模型体量庞大但效率很高，可以轻松处理诸如代码编写和文章撰写等基于文本的任务。

然而，令人惊讶的是，它似乎认为自己就是ChatGPT。

有用户在社交平台X上的帖子显示，DeepSeek V3 将自己识别为ChatGPT，即OpenAI公司推出的AI聊天平台。当被进一步询问时，DeepSeek V3 坚持认为它是 OpenAI 于 2023 年发布的 GPT-4 模型的某个版本。

This actually reproduces as of today. In 5 out of 8 generations, DeepSeekV3 claims to be ChatGPT (v4), while claiming to be DeepSeekV3 only 3 times.

Gives you a rough idea of some of their training data distribution. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv
— Lucas Beyer (bl16) (@giffmana) December 27, 2024

这种“幻觉”深入骨髓。如果你向 DeepSeek V3 询问关于DeepSeek API的问题，它会给出如何使用 OpenAI API 的说明。更令人啼笑皆非的是，DeepSeek V3 甚至会讲一些与 GPT-4 相同的笑话，连笑点都一模一样。

那么，这究竟是怎么回事呢？

像 ChatGPT 和 DeepSeek V3 这样的模型本质上是统计系统。它们通过在数十亿个示例上进行训练，学习这些示例中的模式来进行预测——比如电子邮件中“to whom”通常接在“it may concern”之前。

深势尚未透露关于 DeepSeek V3 训练数据的来源。但是，公开数据集中并不缺乏由 GPT-4 通过 ChatGPT 生成的文本。如果 DeepSeek V3 是在这些数据上进行训练的，那么该模型可能已经记住了 GPT-4 的一些输出，并且现在正在逐字逐句地复述它们。

伦敦国王学院专门研究人工智能的研究员Mike Cook在接受 TechCrunch 采访时表示：“显然，该模型在某个时候看到了来自 ChatGPT 的原始响应，但尚不清楚具体在哪里。这可能是‘意外’……但不幸的是，我们已经看到过有人直接使用其他模型的输出来训练自己的模型，试图借用它们的知识。”

Cook指出，使用竞争对手 AI 系统的输出来训练模型的做法对模型质量来说“非常糟糕”，因为它可能导致幻觉和误导性答案，就像上面提到的情况一样。“就像复印复印件一样，我们丢失的信息以及与现实的联系会越来越多。”

此外，这种做法可能违反了那些系统的服务条款。

OpenAI 的条款禁止其产品（包括 ChatGPT 用户）的用户使用其输出来开发与 OpenAI 自身产品竞争的模型。

OpenAI 和深势均未立即回应置评请求。然而，OpenAI 首席执行官Sam Altman周五在 X 上发布了一条似乎是针对DeepSeek和其他竞争对手的帖子。

Altman写道：“复制你知道有效的东西是（相对）容易的。当你不知道它是否会奏效时，做一些新的、有风险的和困难的事情极其困难。”

当然，DeepSeek V3 远非第一个错误识别自己身份的模型。谷歌的 Gemini 和其他一些模型有时也会声称自己是竞争对手的模型。例如，当使用普通话提示时，Gemini 会说它是中国公司百度推出的文心一言聊天机器人。

这主要是因为互联网（人工智能公司从中获取大部分训练数据）正充斥着 AI 垃圾内容。“内容农场”正在使用 AI 来创建点击诱饵。机器人正在涌入 Reddit 和 X。据一项估计，到 2026 年，互联网上 90% 的内容可能都是由 AI 生成的。

这种“污染”（如果可以这样称呼的话）使得彻底过滤训练数据集中的 AI 输出变得相当困难。

当然，DeepSeek 直接使用 ChatGPT 生成的文本来训练 DeepSeek V3 是有可能的。毕竟，Google也曾被指控这样做过。

非营利组织 AI Now Institute 的首席 AI 科学家Heidy Khlaaf表示，从现有模型中“提炼”知识所带来的成本节约对开发者来说可能很有吸引力，无论风险如何。

Khlaaf说：“即使互联网数据现在充斥着 AI 输出，其他意外地使用 ChatGPT 或 GPT-4 输出进行训练的模型也不一定会表现出类似 OpenAI 定制消息的输出。如果深势确实部分使用了 OpenAI 模型进行提炼，那也不足为奇。”

然而，更有可能的情况是，大量的 ChatGPT/GPT-4 数据进入了 DeepSeek V3 的训练集。这意味着该模型无法被信任来识别自己的身份，这只是其中一个问题。更令人担忧的是，DeepSeek V3 通过不加批判地吸收和迭代 GPT-4 的输出，可能会加剧该模型的一些偏见和缺陷。

在 AI 生成内容日益泛滥的今天，如何确保模型的训练数据清洁和避免“知识剽窃”成为了一个值得深思的行业挑战。