第207章 AI界的反应 二
与此同时,圣克拉拉,英伟达总部。
黄仁勛正穿著他那件標誌性的皮衣,在会议室里来回踱步。
他的面前,同样摆著那篇论文。
“你们怎么看?”老黄停下脚步,目光如电,扫视著在座的技术高管。
“jensen(黄仁勛英文名),这个算法对我们的cuda生態是个挑战。”一位首席架构师面色凝重,“它大量使用了min、max这种非线性算子,而且数据依赖性很强,无法像矩阵乘法那样进行大规模並行流水线优化。在h100上跑这个,sm单元的利用率可能连20%都不到。”
“也就是说,我们的显卡,在这个算法面前,变成了『废铁』?”老黄的声音很冷。
“不能说是废铁,但確实……性价比极低。”
老黄沉默了。
作为“ai军火商”,他最怕的不是竞爭对手,而是“技术路线的变更”。
英伟达之所以能躺著赚钱,是因为全世界都在用transformer,都在做矩阵乘法。他只要把矩阵乘法做到极致,就能垄断市场。
但现在,有人想换个玩法。
这才是英伟达最担心的事情。
英伟达的护城河,从来不仅仅是硬体性能,而是cuda生態。数百万开发者习惯了调用cublas、cudnn这些高度优化的库来构建模型。如果一种新算法绕过了这些库,甚至需要全新的硬体支持,那么英伟达的垄断地位就会出现裂痕。
“amd那边有什么动静?”老黄问道。
“mi300系列的架构比较灵活,他们在標量计算单元上保留了更多的资源,理论上跑slrm会比我们稍微从容一些。”技术部主管回答,“而且,他们最近在积极接触pytorch团队,试图推动对非矩阵算子的原生支持。”
“不能给他们机会。”老黄的眼神变得冷峻。
他走回座位,双手撑在桌面上,下达了一系列指令。
“第一,软体层面。立即启动cuslrm项目。抽调最精锐的cuda工程师,针对slrm的核心算子进行手写汇编级优化。我要让全世界看到,即使是跑几何逻辑,英伟达的gpu依然是最快的。”
“第二,硬体层面。blackwell架构的设计已经冻结,来不及大改。但在下一代rubin架构中,必须预留专门的『逻辑推理单元』。我们要把这种非线性计算,也变成硬体原生的指令。”
“第三,生態层面。”老黄顿了顿,语气中透出一丝商业巨头的狠辣,“联繫pytorch和tensorflow的维护团队,以『技术合作』的名义,提供专项资金和人力,帮助他们优化基於cuda的slrm实现。我们要確保,当开发者想要尝试这个新算法时,他们最先想到的、最好用的工具,依然是跑在英伟达显卡上的。”
“我们要用生態的厚度,去淹没任何试图另起炉灶的尝试。”
……
然而,就在谷歌和英伟达这两大巨头,如同两头被惊醒的巨兽,准备调整姿態在新的赛道上狂奔时,一张早已编织好的大网,无声地收紧了。
“老板,情况有点不对劲。”
谷歌的情报分析师衝进会议室,脸色苍白,同时也带回了让整个硅谷窒息的消息。
“怎么了?是不是中国那边也有动作?”皮查伊敏锐地问道。
“不止是有动作……”分析师深吸一口气,投屏了几张截图。
那是github上几个不起眼的开源项目,更新时间显示在一周前。
- openlpu-compiler(开源逻辑处理单元编译器)
- slrm-pytorch-extension(slrm专用算子库)
- chinese-logic-graph(中文逻辑知识图谱构建工具)
虽然这些项目还很初级,甚至有些简陋,代码提交记录也显示只是刚刚起步的“占坑”行为。
但它们背后的提交者id,却让皮查伊感到一阵窒息。
-华为昇腾
-寒武纪
-阿里达摩院
“还有这条新闻,”分析师调出一条不起眼的快讯,“上周,中国科技部批准了『新一代认知智能计算架构』重点专项,合作方囊括了中国几乎所有的半导体和网际网路巨头。据可靠消息,海丝的下一代lpu晶片,已经进入了秘密流片阶段……”
会议室里,死一般的寂静。
“怎么可能?!”
一向沉稳的杰夫·迪恩都忍不住失声惊呼:“论文才发出来半个月,他们怎么可能动作这么快?简直就像是……早就拿到了答案一样!”
短暂的震惊之后,皮查伊强迫自己冷静下来。
他仔细审视著那些开源项目的进度,紧皱的眉头逐渐舒展,嘴角甚至勾起了一抹冷笑。
“慌什么。”
皮查伊手指敲击著桌面,恢復了ceo的自信,“虽然他们反应很快,但你们看这些代码,逻辑混乱,优化极差。离真正的成品,至少还有半年的距离。”
“我们落后的时间,最多只有一个月。”
“一个月而已。”皮查伊眼中闪烁著光芒,“凭藉谷歌的技术积累和人才储备,一个月的时间,完全可以追回来!甚至,我们可以做得比他们更好,更完美!”
他猛地站起身,下达了指令:
“传令下去,deepmind全力攻关slrm算法优化!法务部立刻出动,把slrm架构下所有可能的优化路径,全部申请专利!我们要用专利墙,把中国人的路堵死!”
“这场仗,才刚刚开始!”
……
然而,皮查伊的豪言壮语还未落地,现实就给了硅谷一记响亮的耳光。
仅仅三天后。
当谷歌和英伟达的法务团队,拿著连夜整理好的几百项“核心专利申请书”冲向专利局时,却绝望地撞上了一堵铜墙铁壁。
“驳回。”
“驳回。”
“全部驳回。”
看著专利局发回的一连串通知,皮查伊气得直接摔了手里的咖啡杯。
“为什么?!理由是什么?!”
“老板……”法务主管声音颤抖,“晚了。都晚了。”
“所有关键的技术节点——从『基於gumbel-box的逻辑门电路设计』,到『几何算子的指令集定义』,再到『专用编译器的中间表达』……所有通往『最优解』的路径,都已经被那几家中国企业註册得密不透风!”
“申请时间,清一色都是在论文发表后的那一周內!”
“该死!他们是预谋好的!这是一个陷阱!”
皮查伊瘫坐在椅子上,脸色铁青。
这意味著,谷歌如果想要使用最高效、最完美的slrm架构,就必须向中国企业缴纳高昂的专利费。
如果不交钱,他们就只能退而求其次,去走那些歪路、绕远路。
比如,用更复杂的“多层感知机”来模擬几何嵌入,或者用效率更低的“软门控”来替代硬截断。
这就像是当年3g时代的专利战重演。
只不过这一次,攻守之势异也。当年是高通掌握了cdma的核心专利,逼得其他人交钱;而现在,轮到镁国巨头尝尝被“专利卡脖子”的滋味了。
这种“次一级”的方案,虽然也能跑通,但代价是惨痛的——效率至少低了30%,能耗高了50%。
与此同时,英伟达总部。
看著技术团队提交的测试报告,黄仁勛的脸色比皮查伊还要难看。
“这直接抹平了我们在製程上的优势!”
老黄指著数据图,手指都在颤抖。
“我们用最先进的3nm工艺製造的晶片,跑这种『魔改版』的次优解算法,其综合能效比……竟然只能勉强打平中国用10nm工艺製造的原生lpu晶片?!”
“这简直是……耻辱!”
会议室里一片死寂。
无论是谷歌还是英伟达,他们都很清楚,自己別无选择。
如果不跟进,万一slrm真的是通向agi的钥匙,他们就会彻底掉队,最后不得不全部採用华国的方案;如果跟进,就只能捏著鼻子,一边骂娘,一边去研发这种註定“低人一等”的魔改晶片。
硅谷的夜,从未如此寒冷。
……
黄仁勛正穿著他那件標誌性的皮衣,在会议室里来回踱步。
他的面前,同样摆著那篇论文。
“你们怎么看?”老黄停下脚步,目光如电,扫视著在座的技术高管。
“jensen(黄仁勛英文名),这个算法对我们的cuda生態是个挑战。”一位首席架构师面色凝重,“它大量使用了min、max这种非线性算子,而且数据依赖性很强,无法像矩阵乘法那样进行大规模並行流水线优化。在h100上跑这个,sm单元的利用率可能连20%都不到。”
“也就是说,我们的显卡,在这个算法面前,变成了『废铁』?”老黄的声音很冷。
“不能说是废铁,但確实……性价比极低。”
老黄沉默了。
作为“ai军火商”,他最怕的不是竞爭对手,而是“技术路线的变更”。
英伟达之所以能躺著赚钱,是因为全世界都在用transformer,都在做矩阵乘法。他只要把矩阵乘法做到极致,就能垄断市场。
但现在,有人想换个玩法。
这才是英伟达最担心的事情。
英伟达的护城河,从来不仅仅是硬体性能,而是cuda生態。数百万开发者习惯了调用cublas、cudnn这些高度优化的库来构建模型。如果一种新算法绕过了这些库,甚至需要全新的硬体支持,那么英伟达的垄断地位就会出现裂痕。
“amd那边有什么动静?”老黄问道。
“mi300系列的架构比较灵活,他们在標量计算单元上保留了更多的资源,理论上跑slrm会比我们稍微从容一些。”技术部主管回答,“而且,他们最近在积极接触pytorch团队,试图推动对非矩阵算子的原生支持。”
“不能给他们机会。”老黄的眼神变得冷峻。
他走回座位,双手撑在桌面上,下达了一系列指令。
“第一,软体层面。立即启动cuslrm项目。抽调最精锐的cuda工程师,针对slrm的核心算子进行手写汇编级优化。我要让全世界看到,即使是跑几何逻辑,英伟达的gpu依然是最快的。”
“第二,硬体层面。blackwell架构的设计已经冻结,来不及大改。但在下一代rubin架构中,必须预留专门的『逻辑推理单元』。我们要把这种非线性计算,也变成硬体原生的指令。”
“第三,生態层面。”老黄顿了顿,语气中透出一丝商业巨头的狠辣,“联繫pytorch和tensorflow的维护团队,以『技术合作』的名义,提供专项资金和人力,帮助他们优化基於cuda的slrm实现。我们要確保,当开发者想要尝试这个新算法时,他们最先想到的、最好用的工具,依然是跑在英伟达显卡上的。”
“我们要用生態的厚度,去淹没任何试图另起炉灶的尝试。”
……
然而,就在谷歌和英伟达这两大巨头,如同两头被惊醒的巨兽,准备调整姿態在新的赛道上狂奔时,一张早已编织好的大网,无声地收紧了。
“老板,情况有点不对劲。”
谷歌的情报分析师衝进会议室,脸色苍白,同时也带回了让整个硅谷窒息的消息。
“怎么了?是不是中国那边也有动作?”皮查伊敏锐地问道。
“不止是有动作……”分析师深吸一口气,投屏了几张截图。
那是github上几个不起眼的开源项目,更新时间显示在一周前。
- openlpu-compiler(开源逻辑处理单元编译器)
- slrm-pytorch-extension(slrm专用算子库)
- chinese-logic-graph(中文逻辑知识图谱构建工具)
虽然这些项目还很初级,甚至有些简陋,代码提交记录也显示只是刚刚起步的“占坑”行为。
但它们背后的提交者id,却让皮查伊感到一阵窒息。
-华为昇腾
-寒武纪
-阿里达摩院
“还有这条新闻,”分析师调出一条不起眼的快讯,“上周,中国科技部批准了『新一代认知智能计算架构』重点专项,合作方囊括了中国几乎所有的半导体和网际网路巨头。据可靠消息,海丝的下一代lpu晶片,已经进入了秘密流片阶段……”
会议室里,死一般的寂静。
“怎么可能?!”
一向沉稳的杰夫·迪恩都忍不住失声惊呼:“论文才发出来半个月,他们怎么可能动作这么快?简直就像是……早就拿到了答案一样!”
短暂的震惊之后,皮查伊强迫自己冷静下来。
他仔细审视著那些开源项目的进度,紧皱的眉头逐渐舒展,嘴角甚至勾起了一抹冷笑。
“慌什么。”
皮查伊手指敲击著桌面,恢復了ceo的自信,“虽然他们反应很快,但你们看这些代码,逻辑混乱,优化极差。离真正的成品,至少还有半年的距离。”
“我们落后的时间,最多只有一个月。”
“一个月而已。”皮查伊眼中闪烁著光芒,“凭藉谷歌的技术积累和人才储备,一个月的时间,完全可以追回来!甚至,我们可以做得比他们更好,更完美!”
他猛地站起身,下达了指令:
“传令下去,deepmind全力攻关slrm算法优化!法务部立刻出动,把slrm架构下所有可能的优化路径,全部申请专利!我们要用专利墙,把中国人的路堵死!”
“这场仗,才刚刚开始!”
……
然而,皮查伊的豪言壮语还未落地,现实就给了硅谷一记响亮的耳光。
仅仅三天后。
当谷歌和英伟达的法务团队,拿著连夜整理好的几百项“核心专利申请书”冲向专利局时,却绝望地撞上了一堵铜墙铁壁。
“驳回。”
“驳回。”
“全部驳回。”
看著专利局发回的一连串通知,皮查伊气得直接摔了手里的咖啡杯。
“为什么?!理由是什么?!”
“老板……”法务主管声音颤抖,“晚了。都晚了。”
“所有关键的技术节点——从『基於gumbel-box的逻辑门电路设计』,到『几何算子的指令集定义』,再到『专用编译器的中间表达』……所有通往『最优解』的路径,都已经被那几家中国企业註册得密不透风!”
“申请时间,清一色都是在论文发表后的那一周內!”
“该死!他们是预谋好的!这是一个陷阱!”
皮查伊瘫坐在椅子上,脸色铁青。
这意味著,谷歌如果想要使用最高效、最完美的slrm架构,就必须向中国企业缴纳高昂的专利费。
如果不交钱,他们就只能退而求其次,去走那些歪路、绕远路。
比如,用更复杂的“多层感知机”来模擬几何嵌入,或者用效率更低的“软门控”来替代硬截断。
这就像是当年3g时代的专利战重演。
只不过这一次,攻守之势异也。当年是高通掌握了cdma的核心专利,逼得其他人交钱;而现在,轮到镁国巨头尝尝被“专利卡脖子”的滋味了。
这种“次一级”的方案,虽然也能跑通,但代价是惨痛的——效率至少低了30%,能耗高了50%。
与此同时,英伟达总部。
看著技术团队提交的测试报告,黄仁勛的脸色比皮查伊还要难看。
“这直接抹平了我们在製程上的优势!”
老黄指著数据图,手指都在颤抖。
“我们用最先进的3nm工艺製造的晶片,跑这种『魔改版』的次优解算法,其综合能效比……竟然只能勉强打平中国用10nm工艺製造的原生lpu晶片?!”
“这简直是……耻辱!”
会议室里一片死寂。
无论是谷歌还是英伟达,他们都很清楚,自己別无选择。
如果不跟进,万一slrm真的是通向agi的钥匙,他们就会彻底掉队,最后不得不全部採用华国的方案;如果跟进,就只能捏著鼻子,一边骂娘,一边去研发这种註定“低人一等”的魔改晶片。
硅谷的夜,从未如此寒冷。
……