2025/04/13 18:53:13 7,227次浏览

开源大模型 Llama 4 的翻车还在持续发酵。

4 月 8 日,作为大语言模型「权威榜单之一」的 Chatbot Arena(民间俗称「大模型竞技场」)发布了一则语气罕见严肃的声明。面对社群对于 Meta 新模型 Llama 4 排名的质疑,官方表示将公开 2000 多场真人对比测试的完整数据,并罕见点名 Meta:

图/ X

这条声明不只是澄清,一定程度上也是对整个大模型行业的一记警钟。

Chatbot Arena 由加州大学伯克利分校发起,是当前大模型评测中可能最具行业影响力的「真人盲测」排行榜,核心的机制是通过让开发者和 AI 爱好者会在平台上用相同问题向两款模型提问,对比回答内容并投票打分。

而这种「真人盲测」的机制,让 Chatbot Arena 有别于其他任何基准测试,也成为了外界最为信赖的大模型排行榜。 可以说,一款模型是否登上「Chatbot Arena 排行榜」前列,在一定程度上直接影响其在媒体和开发者群体中的口碑与采纳率。

正因如此,当 Meta 在 4 月 5 日发布其最新一代开源大模型 Llama 4,随后快速冲上Chatbot Arena 排行榜第二,力压一众顶级大模型,仅次于 Google 前脚发布的 Gemini 2.5 Pro,自然也就引起了所有人的好奇和期待。

但很快,社区发现这一版本是未公开、定制化调优的「实验模型」,而并非 Meta 开源的正式版。于是,争议爆发: 这算不算「刷榜」?Chatbot Arena 是否被利用为营销工具?Meta 为什么要这样操作?

更糟的是,在部分官方没有展示的专业基准测试中,Llama 4 表现也不尽如人意,几乎垫底。不少第一批尝试的用户也在 Reddit、X 等社交平台上发文表达了失望,有人就在发帖中提到 Llama 4 在编程能力上的不尽如人意,并指出:

图/ Reddit

这让人不禁疑惑,曾经被开源阵营寄予厚望、凭借 Llama 2 和 Llama 3 逐渐建立口碑的 Meta,为什么就在 Llama 4 翻了车?

从高光到塌房,Llama 4的72小时惊魂

时间回到 4 月 5 日,Meta 在官方博客上发布《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》一文,正式宣布 Llama 4 系列模型面向社区开源。

这一次,Meta 公开了最新一代模型的三个版本:Llama 4 Scout、Llama 4 Maverick、还在训练中的「教师模型」Llama 4 Behemoth,均首次采用了混合专家(MoE)架构。

图/ Meta

其中最主流、最受关注的 Maverick 版本,是拥有 128 个「专家」的 170 亿活跃参数模型(总参数为 4000 亿),Meta 将其描述为「同类最佳的多模态模型」,强调其在多方面超过了 Gemini 2.0 与 GPT-4o,在编码和推理方面比 Deepseek 3.1 更有竞争力。

但就在 Llama 4 发布不久,情况迅速脱离了 Meta 的预期。

在社区层面,首批用户对 Llama 4 的表现并不买账。在多个测试中,尤其是在需要代码能力和严谨逻辑推理的场景中,Llama 4 的表现并没有兑现其超越 GPT、DeepSeek 的表现。包括在 Aider Chat 提供的 Polyglot 编程测试中,Maverick 版本的正确率仅为 16%,处于排行榜末尾。

不仅与其庞大的参数体量完全不符,甚至落后于规模更小的开源模型,比如 Google Gamma 。 这种结果让不少开发者大感意外,也与官方宣传形成了强烈反差。

图/ Chatbot Arena

风评下滑之际,更严厉的质疑也接踵而至——Llama 4 是否使用了公开测试集进行训练?是否针对通用基准的 Chatbot Arena 针对性优化?这些质疑都在技术社区迅速传播、发酵,包括 Chatbot Arena 在声明中尽管并未使用「作弊」等字眼,但字里行间的语气已足够强硬和不满。

尤其是中文移民社区「一亩三分地」上,自称提交辞呈、要求从 Llama 4 技术报告中删除名字的「Meta 员工」发帖表示,随着 Deadline(截止日期)的逼近,Meta 最终选择了将各个基准测试的测试集混合在 Post-Training「后训练」(对应大模型的「预训练」阶段)之中。

不过 Meta 团队很快出面做了澄清,一位经手「后训练」的 Meta GenAI 成员实名(Licheng Yu)表示:

「这两天虚心聆听各方 feedback(比如 coding、creative writing 等缺陷必须改进)希望能在下一版有提升。但为了刷点而 overfit 测试集我们从来没有做过,实名 LichengYu,两个 oss model 的 post training 有经手我这边请告知哪条 prompt 是测试集选出来放进训练集的我给你磕一个+道歉!」

图/ Licheng Yu

公开资料显示,Licheng Yu(虞立成)本科毕业于上海交通大学,2014 年获佐治亚理工学院和上海交通大学双硕士学位,2019 年获北卡罗来纳大学教堂山分校计算机科学博士学位,2023 年 6 月至今在 Meta 担任研究科学家经理,并参与了 Llama 3、Llama 4 项目。

同时,负责 Meta GenAI 的副总裁 Ahmad Al-Dahle 也在 X 平台明确表示,「Meta 没有在测试集上训练 Llama 4。」而针对 Llama-4-Maverick-03-26-Experimental,Meta 也在争议发生后选择了发布开源版本,以回应外界的批评。

图/ X

但这些回应显然都没能回避掉一个问题:Llama 4 的真实能力。事实上,不管是 Licheng Yu,还是 Ahmad Al-Dahle,都在驳斥部分质疑的同时承认了 Llama 4 在性能存在的问题。

作为开源阵营中曾经「最有希望挑战 OpenAI」的旗手,Llama 4 原本承载着开发者与产业界的高度期待。但现在,它却在发布一周内从「高光」跌入「信任危机」,成为大模型竞赛中一次罕见的口碑「滑铁卢」。

DeepSeek加速开源,Meta被逼到失速

如果只看表面,这次 Llama 4 的口碑翻车,似乎充满了戏剧张力——匿名离职员工爆料称,Meta 高层为了赶上内部设定的 Deadline,要求将各大测试集混入 「后训练」,只为「一个能看的结果」。甚至还传言,负责 AI 的副总裁 Joelle Pineau 也因反对这一做法而离职。

不过从目前公开的信息来看,这些说法经不起推敲。关于使用测试集进行后训练一事,前文的回应其实已经基本澄清。而 Joelle Pineau 的离职发生在发布前两天,但她并不负责生成式 AI 团队,而是领导 Meta Fundamental AI Research(FAIR)研究部门, 与 Llama 4 项目并无直接关联。

发布前几天离职的Joelle Pineau,图/ Meta

在辟除这些舆论杂音之后,真正的问题才浮出水面。 追根究底,Llama 4 的问题,不在于造假,而在于开源大模型竞争加剧下的失速。

过去两年,Meta 凭借 Llama 2 和 Llama 3,逐步在开源模型市场上建立起「领先、可靠」的认知。然而到了 Llama 4,情况已经发生了巨大的变化,DeepSeek V3/R1 的发布扭转了开源与闭源模型的差距,并且大大加速了开源模型的发展速度。

这让原本作为「开源领导者」的 Llama 面临更大的压力。

尽管我们认为前文爆料很多经不起推敲,但有一点却是现实:Llama 4 确实有 Deadline。这一点从 Llama 4 Behemoth 还在训练中就得以窥见,而且在参数规模膨胀、架构复杂化(MoE)的同时,Llama 4 很可能没有留出足够的测试和改进时间,才导致发布后不稳定的性能表现。

图/ Meta

此外,Meta 也没能控制住动作的变形。Llama-4-Maverick-03-26-Experimental 针对对话模式的优化本身无可厚非,但「首发」Chatbot Arena 的目的却是路人皆知。我们也不知道,这个特调版本又牺牲了哪些?

而从目前来看,Meta 的做法显然错了,经过能在发布之处获得更高的期待、更多的关注,但之后的实际表现不仅让人更加失望,也打破了用户对 Llama 系列「领先、可靠」的认知。

怎么看都是输。

Meta 当然还有机会补救。只是,它首先必须正面面对 DeepSeek、Qwen、Gamma 等其他大模型已经崛起、甚至超越自己的现实,才能谈重整河山。

从高光到塌房,Meta Llama 4 遭遇惊魂72小时
从高光到塌房,Meta Llama 4 遭遇惊魂72小时

雷公自曝寻子川川成功10月后被拉黑

「活动」kumadaibiaotitest

5.06MB
版本V6.1.52
下载.欧美精品一区二区三区安装你想要的应用 更方便 更快捷 发现更多
喜欢 17%好评(67665人)
评论 40
从高光到塌房,Meta Llama 4 遭遇惊魂72小时截图0 从高光到塌房,Meta Llama 4 遭遇惊魂72小时截图1 从高光到塌房,Meta Llama 4 遭遇惊魂72小时截图2 从高光到塌房,Meta Llama 4 遭遇惊魂72小时截图3 从高光到塌房,Meta Llama 4 遭遇惊魂72小时截图4
详细信息
  • 软件大小: 60209.14959MB
  • 最后更新: 2025/04/13 18:53:13
  • 最新版本: V7.79112.4
  • 文件格式: apk
  • 应用分类:ios-Android 果冻传媒精品㊙️在线观看
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 6.76360以上
应用介绍
一,taylorswift为啥要叫霉霉,纹黑桃纹身的妻子小说
二,吕谦和黄蓉疯狂做爰,硕大玉茎承欢欲死欲仙
三,茜特拉莉裸体,勇士大人想怀上魔王的孩子
四,9禁91🍌🍌🍌🍌,泰国一级婬A片在线视频
五,大长腿白丝被c到爽小说,徐 徐俊的视频丨vK
六,卡齐娜脚,《权力的游戏》裸露镜头,wwe史黛西牛奶比赛
七,一夜暴富的六大生肖
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V1.3.45
芙宁娜沙发上的玩具动漫
  • 白丝妺妺被躁到高潮

    《女忍者忍法帖3 》

    总裁在车上疯狂做爰

    95783.51MB
    103好评

    12孩岁女露小奶头

  • 日本老师裸体上课做爰

    红帽认证

    双食记吴镇宇和江一燕的片段

    92809.84MB
    453017好评

    陈玉滢阿德5部曲顺序

  • 中国国语农村大片儿了

    涩里番㊙️18禁p站ios

    吸乳动漫🚫18涩涩动漫

    13.86MB
    313好评

    胖子裸体露大丁

  • 三年级除法竖式

    卡戴珊被啪❌21分钟视频

    亲爱的设计师电视剧免费观看飞飞

    53.11MB
    279好评

    爸爸叫我畲妈妈小新

  • 男模隐私㊙️视频无遮挡

    c点高潮再揉一揉就尿了

    12末发育娇小性色XXXX

    71.23MB
    706好评

    成人做爰高潮片免费看APP

  • 日本高清乱hdvideos4k

    禁欲男神1v1h高辣H

    央视微纪录片选题集中于

    83.40MB
    333好评

    万能解码播放器

  • 蒋礼鸿全集古汉语通论

    RetroXXXFreeTube

    无翼乌无遮挡H肉挤奶无尽

    23.39MB
    103好评

    六年级数学判断题100道

  • 女人㊙️免费看网站

    日本哺乳期水乳400部

    高潮痉挛喷水在线91

    50.48MB
    927好评

    艾玛沃特森连体泳衣照

  • 成人用品自慰抱枕

    小莹的性荡生活第二部

    被卖到妓院被cao翻了H

    83.83MB
    562好评

    原神夜兰裸体❌

  • 九色PORNY丨首页❤原版

    胰岛素与血糖的关系是怎样的

    琪琪原网站欧美在线

    83.05MB
    750好评

    让老公感动哭的心里话

  • 哔哩哔哩成人软件

    羞羞成人漫画网站入口

    女警沉沦跪着吞吐服侍

    79.83MB
    8745好评

    菠萝剧场官方正版下载

  • 体育生爽擼雞巴小蓝gv

    神秘入口5个路线

    成人免费毛片❌❌❌播放

    15.63MB
    478好评

    亚洲18禁色出水白浆

  • 碇真嗣为什么对着明日香打手

    国产91❤️丝袜美女在线

    妖神记奇优影院

    65.46MB
    744好评

    footshop玩弄人妻玉足

  • 被几个男摁着强进了好爽作文

    秘书乖乖掀起裙子被打屁股

    香蕉先生app色版❤网站免

    54.23MB
    758好评

    两人世界高清视频免费观看在线

  • 《人妻被下春药在线》电影

    把🍌伸进男人的🍑的视频

    无职转生BD版本

    57.22MB
    685好评

    孤注一掷金晨吃鸡王传君

  • 网禁🈲拗女稀缺1344

    少妇翘臀出白浆

    白裙仙子跪趴雪臀呻吟

    24.35MB
    351好评

    印度电影三嫂免费观看

  • 糖加胰岛素降血钾机制

    林志玲Aⅴ三级在线播放视频

    好湿⋯好紧⋯太爽了公交车p站

    13.54MB
    314好评

    把校花🌸吊起来揉搓双乳的作文

  • 高清HD㐅XⅩ欧美人妖

    18大学生🈲免费看双男c真人

    毛茸茸被主人扒开腿狂躁漫画

    84.99MB
    210好评

    梅根福克斯有三级么

  • 96XXXX👅护士

    抹布莱欧斯利被爆炒车

    欧美日韩公共浴室洗澡视频

    45.71MB
    738好评

    ab搭子是啥意思

  • 一首日文歌开头是さよなら

    成人做爰A片免费看网站一鸣巴

    微猫VM下载链接

    10.24MB
    180好评

    鉴黄师18🈲动漫

  • 被滋润的娇妻疯狂呻吟电影

    肥胖女人做爰视频免费看

    ai生成动画软件免费

    44.17MB
    366好评

    初音未来疯狂❌自慰

  • 总攻大肉大器粗攻np

    男c女🔞黄㊙️❌动漫

    涂山雅雅洗澡无删减版

    91.37MB
    203好评

    张悦然大乔小乔txt

  • ass色情裸体妇女pics

    女人做爰高潮A片免费

    ❌❌❌❌18加看片吗

    30.15MB
    906好评

    出包王女第三季ONE

  • 钻石最贵三个颜色

    国产做受❌❌❌高潮软件五人樱花

    绝区零❌18禁本子免费

    30.61MB
    540好评

    秀人妲己TOXIC精品视频

  • 日本被❌超污网站fully

    3377体育登录入口最新版下载

    9.1成人免费看片

    29.09MB
    121好评

    女学生打屁股和鞭打-XXX Sex

  • 征服高贵水晶丝袜老师

    少爷撅着屁股挨c开腿H

    洛天依二次元双肩包

    70.80MB
    459好评

    明星艳照网站WWW

  • BBW毛茸茸性骚扰HD英文祝福短句越短越好 title="寄宿日记韩漫在线观看" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    柠檬福利AV在线导航

    玩弄熟睡小男生裸体动漫

  • pv/t等于c和PV等于C尔晴我劝你善良表情包 title="韩国打白嫩㊙️光屁屁网站" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    ♥禁漫♥羞羞♥漫入口天津

    3d男男♂动漫啪啪网站

  • 黑色的蕾丝胸罩被扯开校花在校长室被调教H title="好男人好资源在线视频观看影院" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    日韩老熟女毛片视频播放免费

    松果推女郎自慰av

🔞❌❌干到⭕⭕流水 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 太宰被绑在机器上强制高潮 9天前
    免费女人全身光
  • 雏田爆乳被❌🔞㊙动漫网站 8天前
    霍秀秀被c到高潮下不了床的小说
  • 动漫打屁股㊙️无内裤 0天前
    吴梦梦巨乳无码
  • 他用舌头疯狂虐我花蒂 9天前
    91丨九色丨噜噜熟女
  • 寻找小光兰斯01 8天前
    同城叫小妹电话
  • 老师脱内衣给学生摸🐻 7天前
    韩国《未删减无遮挡电影
  • 巜办公室的呻吟波多野结 7天前
    91成人㊙️入口
  • 18🚫福利姬写真大尺度 7天前
    男生上门服务24小时接单平台约客
  • 吞噬星空巴巴塔漫改 7天前
    哔咔漫画❌黄漫免费网站
  • 男同GaY✅打屁股 7天前
    母猪的便器母猪妈妈最后去哪了