新闻中心

达里奥 阿莫迪: 关于 DeepSeek 和出口管制

2025-02-09 03:11:30

来源:

达里奥 阿?莫迪:( 关于 )Deep。S,eek 和出口管制

达里奥阿莫迪博客2025年1月30日

晨雾/编译

作者简介:

达里奥阿莫迪(DarioAmodei)是Anthropic的首席执行官。Anthropic是一家公益公司,致力于构建可操纵、可解释和安全的人工智能系统。

此前,达里奥曾担任OpenAI研究副总裁,领导了GPT-2和GPT-3等大型语言模型的开发。他还是人类反馈强化学习的共同发明人。在加入OpenAI之前,他曾在谷歌大脑担任高级研究科学家。

达里奥以赫兹研究员的身份从普林斯顿大学获得生物物理学博士学位,并曾在斯坦福大学医学院担任博士后学者。

关于DeepSeek和出口管制

目录

人工智能发展的三大动力

DeepSeek的模型

出口管制

关于DeepSeek和出口管制

2025年1月

几周前,我提出了美国加强对华芯片出口管制的理由。从那时起,中国的一家人工智能公司DeepSeek至少在某些方面以更低的成本接近了美国前沿人工智能模型的性能。

在这里,我不会重点讨论DeepSeek是否会对Anthropic这样的美国人工智能公司构成威胁(尽管我认为许多关于他们威胁到美国人工智能领导地位的说法都大大夸大了)

1。相反,我将重点关注DeepSeek的发布是否会削弱那些芯片出口管制政策。我认为不会。事实上,我认为它们使出口管制政策比一周前更加重要。

2。出口管制有一个重要目的:让民主国家站在人工智能发展的最前沿。说白了,出口管制并不是回避中美竞争的一种方式。归根结底,美国和其他民主国家的人工智能公司必须拥有比中国更好的模式,这样我们才能取得胜利。但在没有必要的情况下,我们不应该把技术优势拱手让给中国。

人工智能发展的三个动力

在提出我的政策论点之前,我将描述人工智能系统的三个基本动力,了解这些动力至关重要:

1.扩展法则。人工智能的一个特性是,在其他条件相同的情况下,扩大人工智能系统的训练规模会在一系列认知任务上取得更好的结果。因此,举例来说,100万美元的模型可能解决20%的重要编码任务,1000万美元的可能解决40%,1亿美元的可能解决60%,以此类推。这些差异往往会在实践中产生巨大影响--另外10倍的差异可能相当于本科生和博士生技能水平的差异--因此,公司正在投入巨资培训这些模型。

2.改变曲线。该领域不断涌现出大大小小的想法,以提高工作效率:可能是改进模型的架构(对当今所有模型都使用的基本Transformer架构进行调整),也可能是在底层硬件上更高效地运行模型。新一代硬件也有同样的效果。这通常会使曲线发生变化:如果创新是2倍的“计算倍增器”(CM),那么它可以让你用500万美元而不是1000万美元完成40%的编码任务;或者用5000万美元而不是1亿美元完成60%的编码任务,等等。每家前沿人工智能公司都会定期发现许多这样的CM:经常是小型的(~1.2倍),有时是中型的(~2倍),偶尔是大型的(~10倍)。由于拥有一个更智能的系统的价值如此之高,这种曲线的移动通常会导致公司在培训模型上花费更多,而不是更少:成本效益的收益最终全部用于培训更智能的模型,而这仅受限于公司的财力。人们很自然地会被“先贵后便宜”的想法所吸引--好像人工智能是一种质量恒定的单一事物,当它变得便宜时,我们就会使用更少的芯片来训练它。但重要的是扩展曲线:当它发生变化时,我们只需更快地穿越它,因为曲线末端的东西价值极高。2020年,我的团队发表了一篇论文,指出由于算法的进步,曲线的移动速度约为每年1.68倍。此后,这一速度可能会大幅加快;这还没有考虑效率和硬件因素。我猜今天的数字可能是~4倍/年。另一个估计数字在这里。训练曲线的变化也会使推理曲线发生变化,因此在模型质量不变的情况下,价格的大幅下降已持续多年。例如,比最初的GPT-4晚15个月发布的Claude3.5Sonnet在几乎所有基准测试中都优于GPT-4,而API价格却低了约10倍。

3.范式的转变。每隔一段时间,缩放的底层事物就会发生一些变化,或者在训练过程中加入一种新的缩放类型。从2020年到2023年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在此基础上进行少量其他训练。2024年,使用强化学习(RL)训练模型生成思维链的想法成为扩展的新重点。Anthropic、DeepSeek和许多其他公司(最著名的可能是OpenAI,他们在9月份发布了o1-preview模型)都发现,这种训练大大提高了在某些选定的、客观可测的任务(如数学、编码竞赛)上的表现,以及在类似这些任务的推理上的表现。这种新范式包括从普通类型的预训练模型开始,然后在第二阶段使用RL增加推理技能。重要的是,由于这种类型的RL是全新的,我们仍处于扩展曲线的早期阶段:对于所有参与者来说,第二阶段RL的花费都很小。花费100万美元而不是110万美元就足以获得巨大收益。现在,一些公司正在努力将第二阶段的规模迅速扩大到数亿或数十亿美元,但我们必须明白,我们正处于一个独特的“交叉点”上,有一种强大的新模式正处于扩展曲线的早期,因此可以迅速取得巨大收益。

DeepSeek的模型

上述三个动态可以帮助我们理解DeepSeek最近发布的模型。大约一个月前,DeepSeek发布了名为"DeepSeek-V3"的模型,这是一个纯粹的预训练模型3,也就是上文#3所描述的第一阶段。上周,他们又发布了"R1",增加了第二阶段。从外部无法确定这些模型的所有信息,但以下是我对这两个版本的最佳理解。

DeepSeek-V3实际上才是真正的创新,一个月前就应该引起人们的注意(我们当然注意到了)。作为一个预训练模型,它在一些重要任务上的表现似乎接近美国最先进的4个模型,而训练成本却大大降低(不过,我们发现Claude3.5Sonnet在其他一些关键任务上的表现尤其出色,比如真实世界的编码)。DeepSeek团队通过一些真正令人印象深刻的创新做到了这一点,这些创新主要集中在工程效率方面。在"键值缓存"的管理方面,以及在使"专家混合"方法比以前更进一步方面,都有特别创新的改进。

不过,我们还是有必要仔细研究一下:

DeepSeek并没有"用600万美元完成美国人工智能公司花费数十亿美元的工作"。我只能代表Anthropic说几句话,但Claude3.5Sonnet是一个中型模型,其训练成本高达几千万美元(我不会给出确切数字)。另外,3.5Sonnet的训练方式并不涉及更大或更昂贵的模型(与一些传言相反)。Sonnet的训练是在9-12个月前进行的,而DeepSeek的模型是在11-12月间训练的,而Sonnet在许多内部和外部评估中仍然遥遥领先。因此,我认为一个公平的说法是:"DeepSeek用较低的成本(但与人们建议的比率相差甚远)制作出的模型性能接近于7-10个月前的美国模型"。

如果成本曲线的历史下降趋势是每年约4倍,这意味着在正常的业务过程中--在历史成本下降的正常趋势下,如2023年和2024年--我们会期待现在的机型比3.5Sonnet/GPT-4o便宜3-4倍。既然DeepSeek-V3比那些美国前沿型号差--比方说在缩放曲线上差2倍,我认为这对DeepSeek-V3来说是相当慷慨的--这就意味着,如果DeepSeek-V3的训练成本比一年前开发的当前美国型号低8倍,那将是完全正常、完全"符合趋势"的。我不打算给出一个数字,但从前面的要点中可以清楚地看出,即使从表面上看DeepSeek的培训成本,充其量也只是符合趋势,甚至可能还不如趋势。例如,这比原来的GPT-4与Claude3.5Sonnet的推理价格差(10倍)要小,而3.5Sonnet是比GPT-4更好的模型。综上所述,DeepSeek-V3并不是一个独特的突破,也不是从根本上改变LLM经济性的东西;它只是持续降低成本曲线上的一个预期点。这次的不同之处在于,率先展示预期成本降低的公司是中国公司。这种情况以前从未发生过,具有重要的地缘政治意义。不过,美国公司很快就会跟进--它们不会因为抄袭DeepSeek而跟进,而是因为它们也在实现成本降低的通常趋势。

DeepSeek和美国的人工智能公司都拥有比它们用来训练标题模型更多的资金和更多的芯片。多余的芯片用于研发,以开发模型背后的理念,有时还用于训练尚未准备就绪(或需要多次尝试才能正确)的大型模型。有报道称,DeepSeek实际拥有5万块Hopper代芯片6,我猜这一数字是美国主要人工智能公司的2-3倍(例如,比xAI的"巨人"集群少2-3倍)7。因此,DeepSeek作为一家公司的总花费(有别于训练单个模型的花费)与美国人工智能实验室并无太大差别。

值得注意的是,“缩放曲线”分析有点过于简单化,因为模型在某种程度上是有区别的,有不同的优缺点;缩放曲线的数字是一个粗略的平均值,忽略了很多细节。我只能说说Anthropic的模型,但正如我在上文所暗示的,克劳德在编码方面非常出色,而且与人互动的风格也设计得很好(很多人都用它来寻求个人建议或支持)。在这些方面以及其他一些任务上,DeepSeek无法与之相比。这些因素并没有出现在缩放数据中。

R1是上周发布的模型,它引发了公众的极大关注(包括Nvidia股价下跌约17%),但从创新或工程角度来看,它远不如V3那么有趣。它增加了训练的第二阶段--强化学习(见上一节第3条)--并且基本上复制了OpenAI在o1上所做的工作(它们似乎规模相仿,结果相似)8。然而,由于我们正处于扩展曲线的早期阶段,只要从一个强大的预训练模型出发,多家公司都有可能制作出这种类型的模型。给定V3的R1的生产成本可能很低。因此,我们正处于一个有趣的“交叉点”,在这个交叉点上,暂时有几家公司可以生产出优秀的推理模型。随着每个人在这些模型的扩展曲线上不断前进,这种情况很快就会消失。

出口管制

所有这些只是我所关心的主要话题:对中国的芯片出口管制的前言。鉴于上述事实,我认为情况如下:

目前的趋势是,公司在训练强大的人工智能模型上花费越来越多,即使曲线会定期移动,训练一定水平模型智能的成本也会迅速下降。只是,训练越来越多的智能模型所带来的经济价值是如此之大,以至于任何成本收益几乎都会被立即吞噬掉--它们又被重新投入到制造更智能的模型中,而我们原本计划花费的成本却依然巨大。只要美国实验室还没有发现,DeepSeek开发的效率创新很快就会被美国和中国的实验室应用于训练价值数十亿美元的模型。这些模型的性能将优于他们之前计划训练的数十亿美元模型--但他们仍将花费数十亿美元。这个数字还会继续上升,直到我们的人工智能在几乎所有事情上都比人类更聪明。

要让人工智能在几乎所有事情上都比几乎所有人类更聪明,需要数以百万计的芯片、数百亿美元(至少),而且最有可能在2026-2027年实现。DeepSeek的发布并没有改变这一点,因为它们大致处于预期的成本降低曲线上,而成本降低曲线一直是这些计算的考虑因素。

这意味着,在2026-2027年,我们可能会陷入两个截然不同的世界。在美国,多家公司肯定会拥有所需的数百万芯片(成本高达数百亿美元)。问题是,中国是否也能获得数以百万计的芯片9。

如果能够,我们将生活在一个两极世界中,美国和中国都拥有强大的人工智能模型,这将导致科学技术的飞速发展--我称之为"数据中心中的天才国家"。两极世界不一定会无限平衡。即使中美两国在人工智能系统方面旗鼓相当,中国似乎也有可能将更多的人才、资金和精力用于该技术的军事应用。再加上中国庞大的工业基础和军事战略优势,这将有助于中国在全球舞台上取得领先地位,不仅在人工智能领域,而且在所有领域都是如此。

如果中国不能获得数以百万计的芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟国拥有这些模型。目前还不清楚单极世界是否会持久,但至少有这样一种可能性,即由于人工智能系统最终可以帮助制造出更智能的人工智能系统,因此暂时的领先优势可以转化为持久的优势10。因此,在这个世界上,美国及其盟国可能会在全球舞台上长期占据领先地位。

完善的出口管制11是防止中国获得数以百万计芯片的唯一办法,因此也是决定我们最终是处于单极世界还是两极世界的最重要因素。

DeepSeek的表现并不意味着出口管制失败。如上文所述,DeepSeek拥有中等至大量的芯片,因此他们能够开发并训练出一个强大的模型并不奇怪。他们并没有比美国的人工智能公司更受资源限制,出口管制也不是导致他们“创新”的主要因素。他们只是非常有才华的工程师,这也说明了为什么中国是美国强有力的竞争对手。

DeepSeek也不能说明中国总能通过走私获得所需的芯片,也不能说明管制措施总有漏洞。我不相信出口管制的目的是为了阻止中国获得几万枚芯片。10亿美元的经济活动可以隐藏,但很难隐藏1000亿美元甚至100亿美元。一百万枚芯片也很难走私。看看DeepSeek目前拥有的芯片也很有启发。据SemiAnalysis报道,这是由H100、H800和H20芯片组成的混合体,总计5万枚。H100自发布以来就被禁止出口,因此如果DeepSeek拥有H100,它们一定是走私来的(注意,Nvidiah已经声明DeepSeek的进展"完全符合出口管制")。H800在2022年的首轮出口管制中是允许的,但在2023年10月管制更新时被禁止,因此这些产品很可能是在禁令生效前装运的。H20用于训练的效率较低,而用于采样的效率较高,因此仍被允许使用,不过我认为应该禁止使用。综上所述,DeepSeek的人工智能芯片群中似乎有很大一部分是未被禁用(但应该被禁用)的芯片;在禁用前就已装运的芯片;以及一些很有可能是走私的芯片。这表明,出口管制确实在发挥作用,并在不断调整:漏洞正在被堵住;否则,他们很可能会拥有一支由顶级H100芯片组成的完整舰队。如果我们能以足够快的速度堵住这些漏洞,也许就能阻止中国获得数百万芯片,从而增加美国领先的单极世界的可能性。

鉴于我对出口管制和美国国家安全的关注,我想明确一点。我并不认为DeepSeek本身是对手,重点也不是要特别针对他们。在对他们的采访中,他们看起来像聪明、好奇的研究人员,只想制造有用的技术。

但他们受制于一个侵犯人权、在世界舞台上咄咄逼人的专制政府,如果他们能在人工智能领域与美国一较高下,他们的行为将更加无拘无束。出口管制是我们防止这种情况发生的最有力的工具之一,认为技术越来越强大、性价比越来越高就是取消出口管制的理由,这种想法毫无意义。

注释

1.在这篇文章中,我不会对有关西方模型蒸馏的报道采取任何立场。在此,我只相信DeepSeek的说法,即他们是按照论文中所说的方式进行训练的。

2.顺便提一下,我认为DeepSeek模型的发布对Nvidia显然不是坏事,他们的股票因此而出现两位数(约17%)的下跌令人费解。比起对人工智能公司的不利影响,这次发布对Nvidia的不利影响更加明显。但我写这篇文章的主要目的是为出口管制政策辩护。

3.准确地说,它是一个预训练模型,在推理范式转变之前,模型的典型RL训练量很小。

4.它在一些非常狭窄的任务上更强。

5.这是DeepSeek论文中引用的数字--我信以为真,并不怀疑这部分内容,只是将其与美国公司的模型训练成本进行了比较,并区分了训练特定模型的成本(也就是600万美元)和整体研发成本(要高得多)。不过,我们也不能完全确定600万美元的数额--模型的大小是可以核实的,但代币的数量等其他方面则无法核实。

6.在一些采访中,我曾说他们有"50,000台H100",这是对报告的一个微妙的错误概括,我想在此予以纠正。到目前为止,最著名的"Hopper芯片"是H100(我以为指的就是H100),但Hopper还包括H800和H20,据说DeepSeek混合使用了这三种芯片,总共有50,000枚。这并不能改变什么情况,但值得更正。在谈到出口管制时,我将更多地讨论H800和H20。

7.注:由于出口管制,我预计在下一代集群上,这一差距将大大拉大。

8.我认为,R1受到如此关注的主要原因之一是,它是第一个向用户展示模型推理过程的模型(OpenAI的o1只展示最终答案)。DeepSeek的研究表明,用户认为这很有趣。明确地说,这是用户界面的选择,与模型本身无关。

9.请注意,中国自己的芯片在短期内无法与美国制造的芯片竞争。正如我最近与马特-波廷格(MattPottinger)在专栏文章中写道:"中国最好的人工智能芯片--华为Ascend系列--的性能大大低于美国英伟达公司(Nvidia)生产的领先芯片。中国的生产能力也可能跟不上日益增长的需求。如今,在中国以外没有一个值得注意的华为Ascend芯片集群,这表明中国正在努力满足国内需求......"。1

0.明确地说,这里的目标并不是要剥夺中国或任何其他专制国家从非常强大的人工智能系统中获得的科学、医学、生活质量等方面的巨大利益。每个人都应该能够从人工智能中受益。我们的目标是防止他们获得军事主导权。

11.几个链接,因为已经有好几轮了。涵盖一些主要行动:一、二、三、四。

英文原文来自:2025年1月30日达里奥阿莫迪博客

华春莹卸任外交部发言人固定每周80%的事情能降低焦虑感再就业男团迪拜送礼还是国货中国和文莱共建命运共同体饺子背了半个月终于有人问了四川一山村滑坡疑一家三口被埋媒体评市容“美学”下的权力任性乌克兰军队近5万人转隶陆军岳云鹏再现longname名场面发条微博为亚冬会中国健儿加油

(内容来源:东方网)

作者: 编辑:陆雅静

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com