作者:陈茜 2025 年 10 月底,Meta AI 事业部宣布裁减 600 名职位,其中包括核心事业部研究总监。与此同时,负责人工智能业务的高管辞职并靠边站。即使是图灵奖获得者 Yann LeCun 也被认为无法保护自己。扎克伯格正在花费数亿美元的年薪来招聘人工智能人才,同时裁员。这种分离的原因是什么?于是我们采访了AI科学家田元东、Meta前FAIR研究总监Gavin Wang、参加Llama 3后培训的前Meta员工、硅谷资深HR专家,以及试图还原Meta的Llama开源之路上发生的事情的匿名人士。为什么《骆驼3》继续给大家带来惊喜,而仅仅一年后的《骆驼4》却显得如此笨拙?这中间发生了什么? Meta的开源之路从一开始就注定是错误的吗?乌托邦式的人工智能实验室还能存在吗在当前大规模AI模型之间的激烈竞争中? (本文由视频剪辑而成,请观看下面的视频。) 01 FAIR 与 GenAI 的诞生 Meta 的 10 年 AI 设计和架构 首先我们来看看 Meta 在 AI 设计方面的整体公司架构。 2013年底,扎克伯格开始组建Meta的人工智能团队。当时,Google 收购了 Jeffrey Hinton 的 DNN 团队并聘请了 Hinton。同时,Meta邀请杨乐坤负责AI开发。目前,两位图灵奖获奖巨头正在涉足商业技术,引领人工智能研发。当扎克伯格邀请Yann LeCun加入Meta时,Meta提出了三个条件: 1.不要搬离纽约。 2. 不要辞去纽约大学的工作。 3. 进行开放研究,公布所有已完成的工作并开源。它应该成为双关语酱。所以 Meta 的根源从一开始就是开源的。加入 Meta 后,Yann LeCun 开始致力于剪辑——边缘AI研发,创立AI基础研究所,又称著名的FAIR研究所,引领人工智能前沿研究。元基础人工智能研究(FAIR)团队前研究总监田元东:FAIR负责前沿研究,我们会做一些目前看来没有太大用处的新想法、新想法、新算法、新框架、新模型架构。经过这样的探索,就能有很大的突破,大概就是这个逻辑。但对于 MetUltimately 来说,这是为了在您的产品中看到人工智能的进步。因此,与 FAIR 小组并行,创建了一个名为“Generative AI”或“GenAI”小组的小组。该团队下设多个职能团队,包括开源模型Llama的研发团队和将AI能力应用到产品中的Meta AI团队。还有一个AI算力基础设施的数据中心团队,还有其他小部门比如如Search、Enterprise和Video-gen(文盛视频)模型,与GenAI和FAIR有平行关系。它们就像一个天平,一方面是前沿的科学研究,另一方面是商业化。理想情况下,尖端研究将带来更好的产品功能,并且通过从产品中赚取收入,管理层将更有动力让 FAIR 分配资金用于研发。 Meta Basic团队AI Research(FAIR)前研究总监田元东:例如,FAIR提供了一些GenAI可以使用的很棒的想法和工作,GenAI可以将这些想法投入生产并在下一代模型中使用。许多人的最初目的是做一些不同的事情。这意味着你想朝不同的方向前进或朝不同的方向工作。 AGI(通用人工智能)真的可能吗?这其实是一个比较大的问题。硅谷101联合创始人陈前:所以purpFAIR的核心是AGI,但GenAI的目的是将AI集成到Meta现有的产品中,以便他们可以利用AI。元基础人工智能研究(FAIR)团队前研究总监田元东:是的,应该说主要方面是Llama,但是Llama是一个非常大的模型。还有一个问题是如何在特定应用中最有效地使用人工智能。然而,始终保持平衡,正是理想的乌托邦状态。这种乌托邦状态的前提是,Meta 的 AI 模型水平始终处于最前沿,或者至少处于开源赛道的最前沿,而不落后于闭源模型太多。图片来源:Meta AI 硅谷101联合创始人陈前:您认为在FAIR最开心的时刻是什么? Meta Basic AI Research(FAIR)团队前研究总监田元东:我觉得从加入FAIR到2022年这段时间非常开心。这是因为大规模林出现后语言模型之后,整个生态以及研究者之间的关系发生了一些变化。因为自从大规模语言模型出现以来,计算能力就成为了一个非常重要的因素。由于计算能力有限,会出现各种问题和矛盾。每个人都需要训练大型模型。如果发生这种情况,你们俩都会遇到一些问题。例如,如果我的牌多,你的牌就少。没有太多的卡就没有办法训练出好的模型,所以2023年之后事情肯定不会像以前那么好。那么元的AI平衡是如何变得不平衡的呢?你可以看到一些喇嘛被释放的线索和痕迹。 02 《开源之光》拉玛和滑铁卢的古老骄傲?据说,Meta之所以将其大型语言模型命名为“Llama”,是因为Large Language Model的缩写“LLM”很难发音。只需添加元音即可。 “Llama”朗朗上口,容易记住。正是这样,n许多大型语言模型从此与“羊驼”联系在一起。 2.1 Llama 1:开源“种子” 首先,我们来看看 Llama 1。Llama 1 也为 Meta 的 a-models.large 规模“开源”之路奠定了基础。 2023 年 2 月 24 日,Meta 发布了专注于“更小参数和更好结果”的 Llama 模型(多尺度:7B/13B/33B/65B),强调当时的 13B 模型在多个基准测试中可以超越具有 175B 参数的 GPT-3。 Llama 正式宣布一周后,权重以种子形式“泄露”给 4chan,引发了 AI 社区关于开源模型的广泛争论,甚至促使一位国会参议员写信质疑 Meta。尽管质疑重重,业界却出人意料地支持了Llama的“意外泄露”,这也被视为“大模型开源”格局的重塑,从而迅速催生了一系列民间调优项目。我们来谈谈它的定义大型模型的“开源”。事实上,Meta并不是完全开源的。在元中,这称为“开放权重”。机器学习分为三个部分:架构、权重和代码。所谓“权重”都是模型学习到的参数值。模型训练完成后,所有参数都会保存在几个巨大的二进制文件中。每个文件存储神经网络每一层的矩阵值。在推理过程中,模型代码加载这些权重文件并使用GPU执行矩阵运算来生成文本。因此,“开放”意味着向公众提供一个训练好的参数文件,可以在本地加载、部署和调优,但它并不是完全“开源”,因为真正的开源意味着将训练数据、代码、许可证等公开。不过,Meta 并没有透露这些信息。后来的几代Llama 2、3和4也只在Waite开业,但许可政策稍微宽松一些。虽然 Llama 是“半开源的””,与 OpenAI 相比,Anthropic 和 Google 是完全闭源的公司,只通过 API 接口提供模型功能服务,这让他们在开源社区中拥有非常强大的活力。 第 2.2 章 Llama 2:开放和“商用” 2023 年 7 月 28 日,Meta 和微软发布了大模型 Llama 2,具有参数 7B、13B 和 70B 三个参数变体。新一代模型的“开源”模型还包括相比Llama 1,Llama 1还没有商业化,只能用于研究目的,Llama 2是一个免费的商业版本,许可宽松,《连线》杂志甚至指出Llama 2将让封闭模型的巨人成为现实,而我们看到Llama 2很快就在开发者社区中流行起来,它的出现极大地扩展了环保和AI的发展。 2024年,这也是最闪亮的时刻骆驼系列的t。第2.3章Llama 3系列:走近闭源领域,进入Llama3时代,Meta已成为开源AI社区中的重要存在。 2024年4月至2024年9月,Meta将发布该模型的三个迭代版本。 2024 年 4 月 18 日,Meta 发布了 8B 和 70B 两种规格的 Llama 3 版本,并表示规模“显着超过 Llama 2”,并使用了 Meta AI 的协助。他说他用它作为黑客攻击的基地之一。 7 月 23 日,Meta 发布了 Llama 3.1 三个级别的型号:405B、70B 和 8B,并表示 405B 是“世界上最强大的开放可用的基础型号之一”。它还在 AWS Bedrock、IBM watsonx 等平台上发布。仅仅两个月后,即2024年9月25日,Meta发布了Llama 3.2。它专注于小型但全面的多模态模型,并针对终端/边缘场景添加了轻量级的1B和3B文本模型以及1B和90B视觉多模态模型。你可以同时访问AWS和其他平台,甚至本地运行OLama开源框架平台。我们采访了 Branch 3 团队的 Gavin Wang,他负责 Branch 3 的后期培训工作。他表示,当时 Meta 和 GenAI 团队整体上正在以“光速”前进。真的感觉就像“人工智能的一天就是人类的一年”。前Meta AI工程师Gavin Wang参与了Llama 3的后续训练。在当时,Llama 3.1/3.2是向前迈出的一大步。在这个阶段,推出了多模态,例如后来创建了轻型模型1B/3B。我们相信产品化生态系统目前正在取得巨大进展,我们有许多社区支持我们,包括我们 Llama Stack 团队的朋友致力于支持企业和小型企业层面的 Llama 生态系统部署。 Llama 3的强大攻击,尤其是450B版本,在模型能力上被认为更接近闭源领域并有望快速加速人工智能应用的部署。对于Meta内部员工,尤其是Llama集团的人工智能工程师来说,这是一个他们非常自豪的项目。前 Meta AI 工程师 Gavin Wang 在接受培训后参与了 Llama 3 的工作。 Meta当时是一家主要制造商。这是 Kerr 留下的唯一开源模型,也为整个开源生态系统做出了重大贡献。那时,我想很多人意识到这不仅仅是一份工作,而是真正支持整个人工智能前沿的发展。你所做的一切都感觉非常有意义。那一刻我感到非常自豪。当我出去告诉人们我在 Llama 3 团队工作时,一些初创公司创始人会说:“感谢你们的辛勤工作。”我觉得整个科技界,尤其是人工智能商业界,对 Llama 寄予厚望。立足东风,梅塔希望骆驼4的推出进一步扩大影响力在人工智能开发社区中,并且仍然是“主要大型模型中唯一的开源存在”。扎克伯格在 2025 年 1 月下旬的财务报告会议后发帖称,“Branch 3 的目标是提高封闭和开源模型的竞争力,Branch 4 的目标是引领。”然而,三个月后 Llama 4 的推出却是彻底的灾难和滑铁卢。 2.4 Branch 4:滑铁卢 2025 年 4 月 5 日,Meta 发布了 Branch 4 的两个版本(Scout 和 Maverick),声称显着提升了多模态和长上下文能力,并通过引用促销的 LLMarena 排名中的关键结果来吸引关注。 Maverick 版本位居第二,落后于 Gemini 2.5 Pro,与 ChatGPT 4o 和 Grok 并列第二。 3名专业人员。但很快,开发者社区的反馈并不积极,认为Llama 4的效果没有预想的那么好。市场上开始流传这样的传闻LMArena第二名的Meta版本涉嫌作弊。 Llama 4 对 LLMArena 进行了分类,经过了交互强化训练的优化变体,涉嫌欺骗 LLMArena 并导致过拟合。 Meta 的高级管理层很快就发现了任何违规行为。尽管他否认,但影响很快蔓延开来。与此同时,theGod 将此视为“使用专门改编的版本来提高排名”的“诱饵和转换”,业界对基准测试的可靠性和可重复性的争论也愈演愈烈。与此同时,Meta 的高端 Behemoth 版本推迟发布,导致严重的节奏和公关问题。到目前为止,巨兽还没有出现,所以我猜他们已经放弃了这个版本。接下来我们知道,扎克伯格开始疯狂收购 Scale AI,聘请 Alexander Wang 领导新的 AI 架构,然后开始用数亿美元的支票挖人,扰乱了硅谷的 AI 人才市场e 疯了。然后是最近的新闻。 Alex开始重组Meta的整个AI架构并解雇了600人。但是当你看这个时间线的时候,是不是显得还是很碎片化?ada? Llama 3 和 Llama 4 之间的这一年发生了什么?为什么 Llama 4 突然停止工作?这也太快了吧?通过一些研究,我们或许找到了一些答案。还记得我之前说过元中的人工智能架构都是关于规模的吗?骆驼4号失败的原因是天平不平衡。 03 前沿研发不平衡 上市路径冲突 在Meta的AI架构中,FAIR和GenAI是两个并行的群体。 Yann Lecun 是 FAIR 的总监,但 Yann Lecun 将大部分时间投入到自己的研究和开发中。有时,他会和马斯克这样的网上人士竞争,马斯克经常说自己不看好LLM路线,这让梅塔很不高兴。因此,2023年2月,Meta高管将Meta AI的研究总监Joelle Pineau调往FAIR 担任 FAIR 全球负责人,与 Yann LeCun 一起领导 FAIR。 Wasimage nte:商业内幕 GenAI 由 Ahmad Aldar 领导。这位朋友在 Apple 工作了近 17 年。我就是。扎克伯格聘请他将人工智能集成到多个元产品中,包括Metaverse、将人工智能集成到智能眼镜中以及meta.ai聊天工具。在经历了 Llama 2 的成功并且公司开始开发 Llama 3 后,Meta 高管越来越强调在其产品中利用人工智能的本质。然后,在 2024 年 1 月,我们得知 Meta 的 AI 团队进行了重组,两位 FAIR 负责人开始直接向 Meta 的首席产品官 Chris Cox 汇报。训练后从事Llama 3工作的前Meta AI工程师Gavin Wang:整个Llama 1-3时代是每个人都痴迷于缩放定律的时代。当时,整个行业都在追求基础车型的性能提升。大家都在探索基础模型和功能之间的界限是什么大语言模型本身。但像扎克伯格和 CPO Chris Cox 这样的 Meta 领导者很早就意识到,他们实际上可以大规模部署语言模型的功能,从而真正为社会创造价值。我想这是从产品实力的角度开始的。因此,在Llama 2和Llama 3阶段,GenAI整体的主要目标是真正生产和设计研究成果。因此,高层管理人员,包括副总裁和高级管理人员,都是由具有更多产品和工程经验的人领导。 Llama 3成功推出后,当Meta高管开始制定Llama 4路线图时,所有注意力都集中在产品集成,即多模态能力上,从而忽略了对模型信息能力的重视。在从Llama 3到Llama 4长达一年的研发过程中,2024年9月12日,OpenAI发布了o1系列基于思想链的模型。然后,在 2024 年 12 月,中国开源DeepSeek模式应运而生。它采用MOE混合专家架构,在保证推理能力的同时,大幅降低模型成本。陈茜SiliconbaLeh101联合创始人:在你被绑起来扑灭拉玛四世大火之前,你在做什么?元基础人工智能研究(FAIR)团队前研究总监田元东:这里我们研究的是推理。我主要研究了思维链的形式和训练方法。 o1于去年9月推出。事实上,在o1出现之前,我们就意识到有一个很长的思想链条影响了整个模型的尺度规律。图片来源:arxiv 事实上,在 FAIR 小组中,像田元东这样的研究人员已经在研究思想链,但这些前沿推理能力的探索是为 Llama 模型项目及时传达的。 Gavin Wang,从事 Llama 3 后培训的前 Meta AI 工程师:当我们规划 Llama 4 时,我感觉领导者的方向这里的臀部可能会略有变化。总体来说,我认为他们还是愿意支持一些Meta重点推广的产品。这就是Llama独特的生态,多模态绝对是重点之一。但 DeepSeek 一月份就到了,它的推理能力非常强大。推理能力也是当时讨论的方向之一,但 Meta 自身的生态导致偏重多模态,较少重视推理。不过DeepSeek出来的时候,其实他当时已经离开了Ll的team.ama,不过显然他们正在讨论是否要占据推理领域。不过,有时这部分的优先级不匹配,而且时间有限,所以我们都加班,尝试各种事情,这让我们很忙。我认为 DeepSeek 的引入造成了资源管理和内部优先级的混乱。还有一点,我认为模型1-3的整体架构和组织架构是设计的延续。n 从头开始。不过,随着Llama 3的成功,大家都希望Llama 4能够走得更远,做更大的项目。此时可能会出现几个问题。醋。我的观察是,在公司的高层,例如副总裁和高级经理,许多人在传统基础设施或计算机视觉方面拥有经验,而在自然语言处理方面可能较少。因此,他们可能在技术层面上对原生AI技术、大规模语言模型等没有深入的了解或理解。真正知道自己在做什么的人可能是下面一些做某些事情的医生。我们特别自豪的是,我们所有的中国医生技术都非常强。但他们在公司内没有那么多的发言权或资源。因此,可能会出现由于某种原因业余爱好者控制专家的情况。图片来源:DeepSeek 随着 OpenAI 和 DeepSeek 推出的 o1 系列,伯爵2025 年元数据陷入混乱。 FAIR的研究团队临时被管理层要求协助Rama 4的研发,或者更直接的说是“救火”,而这支“救火队”的领导者是Tagen Higashi。 Meta Basic AI研究团队(FAIR)前研究总监田元东:现在最大的教训是,当你做这样的项目时,不要把所有的领导权或所有的规划都交给一个不懂的人。如果出现问题,每个人都应该说:“好吧,我们现在不能发布,我们推迟吧。”这应该是推迟发布直到它完成并正常工作的一种方法。如果你不首先设定最后期限,很多事情都可能会出错。我想我们团队里很多人当时都很累。例如,我在加利福尼亚州,而我的一些团队成员在东部时区。晚上12点他们给我打电话。那里已经是下午三点了,他们还在干活,所以很困难。为什么他们工作这么辛苦吗?因为截止日期已经很近了。例如,截止日期是关于计划在特定日期发布,而项目管理是关于在二月底或二月初三月之前需要完成什么,或者需要在三月底完成什么。你应该按顺序考虑是否有必要。但是当你做这些事情的时候,你发现这个模型在这方面不好,或者数据有问题,我觉得这个情况下最大的问题是你怎么能阻止大家说你的话呢?比如你说这个数据有问题,不行,我不能用我的数据,那么你就需要改数据。如果发生这种情况,就会出现更多问题,整个事情将不得不推迟一两周。但能否实现却是一个大问题。如果在巨大的截止日期压力下结果证明这件事无法完成或者大家都没有办法反对,那么最终的质量将会非常差。低的。这是一个比较大的问题。硅谷101联合创始人陈潜:为什么Meta对截止日期施加如此大的压力?事实上,由于其开源模式,它已经排名第一。当然,没有人预料到 DeepSeek 会在今年早些时候首次亮相。但为什么有这么严格的期限,我们必须现在就开始呢? Metabasic AI Research(FAIR)团队前首席研究员田元东:我不得不说,高层设定了一个最后期限,但我不方便谈论它。或许你可以问问相关人士就知道了。图片来源:Meta 基本上,这里有一些答案。从Llama 3开始,我们确立了一条“人工智能商业化”的道路。整个模式注重多模态和应用,忙于应用和业务的融合,而忽视了更先进技术的推理和研发。这迫使天平另一边的 FAIR 团队作为一个整体“灭火”。这样,平衡就被改变了。基础目标人工智能研究(FAIR)团队 Higashimoto Tamoto 研究总监:但是尖端模型的竞争如此激烈,看起来 FAIR 的一些文章基本上很难使用。有些文章已经使用了,但是在交流过程中还存在一些问题。当我在 FAIR 的时候,我偶尔会 ping(发送消息)给 GenAI 的人,但他们会忽略我。发生了什么事?但当我去 GenAI 时,我觉得我无法真正与他们(FAIR 研究人员)打交道。如果您太忙,例如 30 分钟不看手机,那么您可能有 20 到 30 条消息需要阅读,需要寻找很多人,并且需要做出很多决定。因此,在GenAI这样的环境下,很难有一个长期的思考过程,这是可以理解的。扎克伯格是如何纠正这种不平衡的呢?他直接跳伞进入了一支特种部队,即亚历克斯·王率领的“不确定小队”。铝04空降兵“新王”前王王获“无限特权” 自架构重组以来,Meta的AI业务中,高层也经历了一系列动荡。 Alex Wang带领数十名高薪顶尖研究人员独立成立了TBD,这是Meta内部拥有无限特权和优先权的特殊群体。 TBD、FAIR 和 GenAI 将联合组建元超级智能实验室(MSL 部门),直接向 Alex 汇报,Alex 将直接向扎克伯格汇报。这也意味着 FAIR 的 Yann LeCun 现在向 Alex 汇报,而 Joel Pinault 此前被要求向 GenAI 小组组长 Ahmad 汇报。我们看到 Joel 今年 5 月离职,加入 Cohere 担任首席人工智能官。说实话,艾哈迈德先生已经很长时间没有发言权了,也没有被任命领导任何重大项目。 Alex 还让 CPO Chris Cox 不再受关注,并让他不再直接领导 AI 团队。这意味着明星当前的文化e以Alex为主,28岁。我们听到 Meta 内部对 Alex 和他领导的极其特权的团队的各种抱怨。其中包括TBD团队成员三年内不必接受绩效评估,其他副总裁的信息可以忽略,所有Meta AI文章在发表前必须提交给TBD Meta AI。这包括要求会员审查。 TBD的人群相对年轻,这让很多经验丰富的研究人员非常不满意。无论如何,各种政治内讧似乎又开始发生了。但不可否认的是,特权背后的等号就是成就。对于扎克伯格来说,这一成就不仅仅是“让拉玛再次伟大”,而是“元必须获胜”。 )。这次重组可能是OPPO扎克伯格在这场AI竞赛中最后也是最重要的成功。 Alex在团队内部邮件中写道,他将做出三点改变:1.聚焦核心基础研究能力TBD 和 FAIR 团队的职责。 2、提高产品与应用研发融合度,继续以产品为典范。 3. 建立核心基础设施团队来支持研究权益。硅谷高级人才专家Tom Chan:第一是让基础研究、TBD Lab和FAIR更加集中,能够更加紧密地结合起来。因此,一些被解雇的研究人员在电子邮件中表示,他们的项目可能不会产生那么大的影响。你可能正在做前沿的研究,但这与我们今天无关。这是因为许多前沿研究从数学角度来看非常抽象,从很多理论角度来看,它实际上与工程相去甚远。二是产品与模式更加紧密结合。与 Alex Wang 一起加入我们的人之一是 GitHub 的第一任首席执行官。这意味着扎克伯格同时引进了两名高层次人才。一位是Alex Wang,他平时都在家里。模型的负责人,另一个是模型的负责人Alex Wang。另一位是 GitHub 前首席执行官纳特·弗里德曼 (Nat Friedman)。它更加以产品为导向。因为产品在使用过程中能够给予模型更好的响应,产生飞轮效应。第三,我们需要一个统一的核心基础设施,以更好地集中管理卡片的数据中心团队。组建基础设施团队。以前可能很分散,只有几个领导者。如果你想继续被困,你就必须申请。卡的发行现在是集中管理的。恩恩斯这封电子邮件说得很清楚。我们可能很快就会得到关于亚历克斯是否能够维持扎克伯格的赌注的答案。图片来源:Business Insider 综上所述,在 Llama 的前三代中,Meta 仍然是占主导地位的开源模型,带领开源派对抗 OpenAI 和 Google Gemini 等闭源派。然而,在《Llama 3》取得巨大成功后,公司高层管理人员开始变得我们对人工智能和产品化的结合感兴趣。在规划路径时,他们采取了“以产品为导向的研发”思维,并将 Llama 4 的升级重点放在多模态等工程能力上。然而,我们已经失去了下一代推理技术所提供的时间优势,例如思想链(CoT)。当时田元东等FAIR AI科学家已经在研究CoT,但在DeepSeek轰动后,FAIR的田元东团队暂时退出来优化Llama 4的MoE架构,转而停止CoT和推理研发,导致AI前沿技术产品的研究和工程完全失衡。采访中,我不断想起历史上曾经闪耀的尖端实验室,比如贝尔实验室、IBM沃森实验室、惠普实验室,这些实验室都因为无法平衡尖端科研与商业化而日渐衰落。 FA,其中有IR 说,它已经存在了十多年,曾经是理想化的人工智能科学家群体的理想场所,现在已经成为商业化的最新受害者。您认为Llama 4失败引发的这次大换血是Meta AI最后的机会吗?请在评论部分留言让我们知道。视频通过图像和音乐进行了增强,以更好地描绘这些令人难以置信的故事的细节。想看完整版请前往硅谷101【视频账号】。注:部分照片来自网络。 【本节目不构成投资建议】【视频播放频道】全国:B站 |腾讯|视频账号|雪瓜 |标题|百家帐号 | 36克|微博 |虎秀海外:Youtube 联系方式:video@sv101.net 【主创团队】主管|洪军 撰稿/主持:陈茜 |编辑:陈茜|橙色运动效果| AK12 行动踢 |奥吉钦孙泽平何元庆
特别提示:以上内容(包括图片和视频,如有)均由本人上传d 由自有媒体平台“网易号”用户发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。