
2 月 18 日,创立 xAI 的埃隆 · 马斯克发布了堪称"地球上最智慧 AI "的 Grok3 大模子,展示了其在多项测评中超越 o3-mini,摘得桂冠的时候实力。而统一天,DeepSeek 的梁文锋和 Kimi 的杨植麟辨认在专科网站上发布了我方参与的论文,这两篇论文均与何如减少长文本计较量世界杯体育,加速训诲效力关系。
这反应了中好意思 AI 大模子道路上最施行的互异:Grok3 领受 20 万张英伟达 H100 芯片训诲而成,结束优异性能的同期也折射出了"力大砖飞""火力笼罩"的好意思式发展旅途,况兼再次讲明" Scaling Law "(递次定律,可绵薄阐发为模子参数越大效果越好)可行;而 DeepSeek 爆火之后,梁文锋仍聚焦"何如缩小训诲资本",依旧在追求极致效力,要把 AI 价钱"打下来",作念大模子界的"鲶鱼"。
另外,天然马斯克声称昔日 Grok3 将开源,但目下该大模子如故是闭源的,而 DeepSeek 则抓续开源,将我方的时候盘考免费赋能给寰宇各地。2 月 21 日,DeepSeek 官方发文称,"将在接下来的一周开源 5 个代码库,以全都透明的状貌共享咱们轻浅但真挚的进展。"
当抖擞先进的闭源模子,遇上性价比较高的开源模子,究竟哪一条路最终会"更胜一筹"?
马斯克靠"力大砖飞"登顶大模子测评榜 英伟达股价"回话失地"
贝壳财经记者贵重到,在 Grok3 的直播发布会上,马斯克旗下 xAI 的责任主谈主员所展示的第一张实景图片,即是该公司新建的数据中心。
"遒劲的智能来快乐型算力集群"。马斯克过火职工在直播中暗示,xAI 此前使用莽撞 6500 块英伟达 H100 芯片训诲模子,但遇到了冷却和电源问题,为了尽快发布 Grok3,公司在前年四月耗时 122 天新建了一个数据中心,最终让第一批 10 万个英伟达 H100 芯片启动并驱动,之后又花了 92 天加倍了数据中心 GPU 的容量。换句话说,为了训诲 Grok3,xAI 至少动用了 20 万块首先进的英伟达 H100 芯片。

xAI 开采的数据中心 开端:马斯克直播截图
"马斯克在直播中莫得提到这 20 万块 GPU 是否为‘单集群’,如若谜底确定的话那辱骂常大的冲突,因为刻下国内大部分(数据中心)如故 1 万块卡的集群。"快念念慢想盘考院院长,原商汤智能产业盘考院独创院长田丰告诉新京报贝壳财经记者。
在性能上,Grok3 在大模子界巨擘盲测榜单" Chatbot Arena(大模子竞技场)"中得分超 1400,刷新了该榜单的新记载。
勾搭训诲耗尽的多数算力,在这一成绩背后,Grok3 可能还领有浩繁的参数范围,以及训诲数据量,因为" Scaling Law "即是指模子性能与其范围(如参数数目)、训诲数据集大小以及用于训诲的计较资源之间存在的一种可揣测的关系,绵薄解释即是"越大性能越好"。
田丰觉得,马斯克使用了"苟且出古迹"的状貌,"我很意思意思它背后的数据范围有多大,因为算力、数据和模子参数目是成比例增多的,这样大的算力一定是跟模子的大参数目和浩繁的训诲数据集关系系,但这两个细节马斯克并莫得说起,这确定既包括互联网上的数据,也包括特斯拉工场里的一些物理数据。"
贝壳财经记者贵重到,对于训诲数据集,xAI 的责任主谈主员举了一个形象的譬如"压缩扫数互联网",马斯克则清晰 Grok3 的计较量是 Grok2 的 10 到 15 倍。
事实上,科学界有一种不雅点觉得,跟着互联网上可用于训诲的数据接近穷乏," Scaling Law "将濒临瓶颈,而 Grok3、o3-mini 等在 DeepSeek-R1 之后发布的大模子则讲明" Scaling Law "如故灵验。这也提振了市集对算力供应商的信心。遗弃北京时刻 2 月 21 日,英伟达的股价为每股 140.11 好意思元,自 1 月 24 日于今呈现出了一个"深 V "走势,DeepSeek-R1 发布后所亏损的市值现已基本"回话"。

英伟达股价走势图
中国科学院软件所博士、新浪微博时候研发走漏东谈办法俊林暗示,所谓" Scaling Law 撞墙"的普遍问题是数据不够,导致预训诲阶段的 Scaling Law 走势趋缓,但这是趋缓不是停顿。即便莫得新数据,推大模子尺寸范围,效果仍然会飞腾。
张俊林揣测," Grok 3 的尺寸范围很可能不是一般的大(嗅觉在 200B 到 500B 之间),很彰着,Grok 3 仍然在采选推大基座模子尺寸的‘传统’作念法,这种作念法性价比很低。"
另一个细节是,天然马斯克强调"当发布下一代模子后,上一代模子就将开源",但和 OpenAI 发布的 GPT 系列以及 o 系列模子一样,Grok3 亦然一个闭源大模子。对此,田丰告诉记者,由于 xAI 起步较晚,马斯克必须不计代价去干预资源以达到最顶尖的模子水平,这也导致他后续将会领受收费的方式。
梁文锋、杨植麟聚焦AI降本增效 让大模子东谈主东谈主可用
当马斯克的 Grok3 背靠新建数据中心以及 20 万块 H100 的支援,在各路评分榜单攻城略地之时,梁文锋依旧一如既往坚抓着 DeepSeek "降本增效"的时候改革之路。
北京时刻 2 月 18 日下昼 3 时 4 分,就在马斯克刚刚完成 Grok3 发布的一小时后,DeepSeek 官方在酬酢平台先容了一种名为 NSA(Native Sparse Attention 原生稀少重主张)的新机制,并贴出了详备先容和论文连合。DeepSeek 官方称,该机制加速了推理速率,缩小了预训诲的资本,且不影响模子性能。
新京报贝壳财经记者阅读了这篇直译为《原生稀少重主张:硬件对都与可训诲的稀少重主张》的论文,发现 NSA 机制的中枢念念想是通过将输入的序列以"压缩""采选""滑动"的状貌分红三个并行的"分支"块,减少计较量,这种块状处理状貌与 GPU 的并行计较能力相匹配,充分诳骗了硬件的计较资源。
以下里巴人的说话解释即是,假定大模子正在作念阅读阐发,需要回答一个对于著述主题的问题,传统的"全重主张"机制就肖似于阅读全都部著述再回答问题。而领受 NSA 机制,大模子会滥觞快速浏览著述,收拢著述的圣洁主题和结构(即"压缩"重主张),再仔细阅读与问题最关系的段落或句子(即"采选"重主张),同期为了防患跑题,祥和局部荆棘文,确保阐发问题的布景(即"滑动"重主张)。在这一机制下,大模子不错成为获取率领的"优秀考生"。

DeepSeek 论文截图
笔据 DeepSeek 在论文中展示的图表,NSA 在基准测试中的得分(左图中红色)优于传统的全重主张模子(左图中橙色),而 NSA 的计较速率(右图中红色)则彰着快过全重主张模子(右图中黄色),在解码、上前传播、向后传播三项维度上的速率辨认达到了全重主张模子的 11.6 倍、9 倍和 6 倍,这意味着模子的训诲速率和推理速率都将获取成倍提高。
对此,原谷歌顶级工程师,现已加入 OpenAI 的 Lucas Beyer 在酬酢平台辩驳谈,论文中出现的图表绝顶漂亮,仅发现画图方面可能存在一些小瑕疵,"不错看出这篇论文在发表之前历程良好的打磨,恭喜 DeepSeek 当今有一个新粉丝了。"
无专有偶,2 月 18 日下昼 8 点 20 分," AI 六小虎"之一的 Kimi 也发表了肖似的论文,该论文主要先容了一个名为 MoBA(MIXTURE OF BLOCK ATTENTION 直译为块状搀杂重主张)的机制,该机制的中枢念念想不异是将长文分内割为多个固定大小的"块",尔后再通过动态采选每个块的关系性,最终达到提高计较效力的作用,处理 1M 长文本的速率不错擢升 6.5 倍。
值得贵重的是,DeepSeek 和 Kimi 的这两篇论文中,辨认出现了两边独创东谈主梁文锋和杨植麟的名字,其中 DeepSeek 的论文如故梁文锋本东谈主送达的。
而且贝壳财经记者贵重到,无论是 NAS 机制如故 MoBA 机制,都强调了不错无缝集成到现存的说话模子中,无需再行训诲已有大模子。这意味着这两项科技后果都不错径直拿来给现存的大模子"加速"。
对于 DeepSeek 这次论文的发布,有异邦网友暗示,"这即是我可爱 DeepSeek 胜过行业大多数前沿模子的原因,他们正在改革处理决议,他们的打算不单是是创造一个通用东谈主工智能,而是让它高效化、腹地化,让每个东谈主都能驱动和爱戴,不管计较资源何如。Grok3 看起来很棒,但它并不开源,况兼是在 20 万块 H100 上训诲出来的。"
田丰告诉记者,追求极致的模子算力和性价比是中国必须完成的任务,这是由复杂的"卡脖子"问题形成的,但这对好意思国的 AI 公司不是问题,是以马斯克才会不计代价扩展算力,模子只须填塞好,滥觞 OpenAI、DeepSeek 和谷歌就不错了,不在乎资本是否民众最优,"从马斯克的发布会上不错嗅觉出来,可能在昔日很长一段时刻好意思国的大模子企业并不会去追求极致的性价比,更多如故会追求滥觞的性能。"
2 月 21 日,DeepSeek 在最新的公告中陆续了我方开源免费的作风。在公告中,DeepSeek 暗示"咱们是一个探索 AGI(通用东谈主工智能)的小团队,下周起咱们将开源 5 个代码库,以全都透明的状貌共享咱们轻浅但真挚的进展。"
DeepSeek 暗示,"看成开源社区的一部分,咱们肯定,每共享一滑代码,都会成为加速 AI 行业发展的集体能源。逐日解锁的开源表情行将到来,莫得望尘莫及的象牙塔,独一隧谈的车库文化(记者注:不少好意思国有名企业从车库里降生)和社区驱动的改革。"
贝壳财经记者贵重到,DeepSeek "开源免费"的方式也对好意思国的大模子发展形成了影响。2 月 20 日,xAI 发文称,将免费提供 Grok3 的职业,"直到职业器崩溃为止"。
对此,记者登录 Grok3 网页版,并提议了一个问题"说说你和 DeepSeek 的对比",Grok3 回答,"我的训诲资本相对较高,这反应了我在性能和时候上的巨大干预。据预计,我的训诲使用了约 20 万块 GPU,总训诲时刻卓绝 200 天,电力资本约为 2500 万好意思元。如若加上 GPU 采购、爱戴等用度,施行资本会更高。比较之下,DeepSeek 的训诲资本低得多。举例,DeepSeek-V3 的训诲资本为 600 万好意思元,使用了 278.8 万 GPU 小时。这一资本上风成绩于其高效的搀杂各人(MoE)架构和优化的训诲战术,显耀缩小了计较需求。" Grok3 还在功能与性能、洞开性等方面作念出了与 DeepSeek 的比较。

新京报贝壳财经记者与 Grok3 的对话截图
Grok3 在回答的结语中告诉贝壳财经记者,"感谢你对中国 AI 发展的祥和!看成 Grok,我为我方的性能和时候感到自重,同期也尊重 DeepSeek 在资本效力和洞开性上的上风。AI 的跳跃是民众共同力图的收尾,中好意思都在其中走漏了热切作用。"
新京报贝壳财经记者 罗亦丹
裁剪 岳彩周
校对 穆祥桐世界杯体育
