2025/04/12 11:27:15 2,106次浏览

自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数,但只能得到一个 token,导致其生成昂贵且缓慢。

近日,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》通过一系列优化解锁了投机采样的 Scaling Law 能力,可以 将大语言模型的推理速度提高 6.5 倍,同时不改变大语言模型的输出分布,确保无损 。同时,随着训练数据的增加,加速比还能进一步提高。

EAGLE-3 的加速效果(DeepSeek-R1-Distill-LLaMA 8B 在数学推理数据集 GSM8K 上测试,其他模型在多轮对话数据集 MT-bench 上测试):

不同方法的生成速度对比:

背景

投机采样使用一个小的模型快速生成草稿,一次生成多个 token。目标大语言模型通过一次前向计算并行验证草稿的正确性,输出正确的草稿,并确保无损。EAGLE 系列是投机采样的最快实现。

EAGLE-1 在更有规律的特征层面而不是 token 层面进行自回归,同时输入采样结果(超前一个时间步的 token)消除了不确定性,明显提升了草稿模型的准确率。EAGLE-2 利用草稿模型的置信度近似接受率,据此动态地调整草稿树的结构,进一步提升了投机采样的效率。

机器之心之前已经报道了 EAGLE-1 和 EAGLE-2 的工作:

最新的大模型通过使用越来越多的训练数据以取得更好的性能。比如说,对于 LLaMA 系列 7B(8B)大小的模型,LLaMA 1、LLaMA 2 和 LLaMA 3 分别使用了 1T、2T、15T token 训练数据,模型结构和推理成本基本不变的前提下各项指标取得了明显提升。

EAGLE-3 的作者们希望通过增加草稿模型的训练数据量以提高接受率和加速比(蓝色曲线)。遗憾的是, EAGLE-1 从训练数据增加中得到的提升非常有限(红色曲线)。

EAGLE-1 和 EAGLE-3 的加速比随着训练数据的增加而变化的趋势:

动机

EAGLE 在特征层进行自回归,再使用目标模型的分类头得到草稿 token。这种方式利用了目标模型的中间结果和信息,相比 token 层自回归有更好的性能。因为草稿模型的最终任务是预测草稿 token,EAGLE 的损失函数包括两部分,一部分是特征预测损失,另一部分是 token 预测损失。特征预测损失也可以被认为是一种约束,限制了模型的表达能力。

EAGLE-3 的作者们进行了实验验证,观察第一个草稿 token 的接受率 0-α,在数据集较小时,特征预测损失在训练数据较少时可以提高性能,但严重损害了草稿模型的 scaling up 能力。

不过,不使用特征预测损失会导致生成后续草稿 token 时的输入偏离训练分布,导致第二个草稿 token 的接受率 1-α 严重下降。为了解决这一问题, EAGLE-3 使用 “训练时测试” 模拟多步生成,从而兼顾了模型的 scaling up 能力和生成多个草稿 token 的能力

EAGLE、Medusa 等投机采样方法都重用目标模型的最后一层特征作为草稿模型的提示,但 EAGLE-3 的作者们发现这存在缺陷。大语言模型的最后一层特征经过线性变换就能得到下一个 token 的分布。对于满秩的分类头,最后一层特征和下一个 token 的分布一一对应。最后一层特征只有下一个 token 的信息,失去了目标模型的全局性质。

因此,EAGLE-3 不再使用目标模型的最后一层特征作为辅助信息,而是混合目标模型的低层、中层、高层信息来作为草稿模型的输入。

方法

与其他投机采样方法一致,EAGLE-3 交替执行草稿阶段和验证阶段。

草稿阶段以下图为例。在预填充或者上一个验证阶段,EAGLE-3 记录模型的低、中、高层特征序列,分别记为 l、m 和 h,拼接 k 维向量 l、m 和 h 得到 3k 维向量,然后通过一个全连接层将其降维到 k 维,就得到融合了不同层级信息的特征 g,其中 k 为目标模型的隐藏层维度。目标是生成以 “How can I” 为前缀的草稿 token 序列,只输入 g_how 和 g_can,草稿模型无法感知随机的采样过程。

因此 EAGLE-3 引入采样结果 I 的词向量嵌入 e_I。将 g 与对应的超前一个时间步的嵌入 e 拼接,即 g_how 与 e_can 拼接,g_can 和 e_I 拼接。将拼接后的向量通过全连接层降到 k 维,并将其输入进一个单层的 transformer 得到 a。然后,将 a 输入分类头,采样得到第一个草稿 token “do”。

在 step 1,以 “How can” 为前缀时,EAGLE-3 重用了来自目标模型的 g_how 和 g_can。

在 step 2,前缀是 “How can I”。理想的方式是重用来自目标模型的 g_how、g_can 和 g_I。但这是不可能的,因为 token “I” 还没有被目标模型检查,无法获取 g_I。EAGLE-3 用上一个 step 草稿模型的输出 a_I 替代 g_I,拼接 a_I 与采样结果 “do” 的词向量嵌入作为草稿模型 step2 的输入。

在 step 3,同样无法获得 g_do,所以使用 a_do 代替,拼接 a_do 与 e_it 作为草稿模型的输入。之后的 step 同理。

实验

EAGLE-3 在多轮对话、代码、数学推理、指令遵循、总结五项任务上分别使用 MT-bench、Humaneval、GSM8K、Alpaca、CNN/DM 数据集进行了实验,并与 7 种先进的投机采样方法(SpS、PLD、Medusa、Lookahead、Hydra、EAGLE、EAGLE-2)进行了比较。

该实验分别在 Vicuna (V), LLaMA-Instruct 3.1 (L31), LLaMA-Instruct 3.3 (L33), DeepSeek-R1-Distill-LLaMA (DSL) 上进行。

表格中的 Speedup 为加速比,τ 为平均接受长度,也就是目标模型每次前向计算能生成的 token 数。EAGLE-3 每次前向计算能生成大约 4-7 个 token,而自回归解码每次生成 1 个 token,因此 EAGLE-3 明显加速了大语言模型的生成,加速比为 3.1x-6.5x

在所有任务和模型上,EAGLE-3 的加速比和平均接受长度都是最高的,明显优于其他方法。

应用

EAGLE-3 发布第一天就被集成到 SGLang 中。在生产级框架中,EAGLE-3 也有数倍加速效果。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B(batch size=1, 1x H100)为例。

投机采样往往被认为在大 batch size 下会降低吞吐量。但是在 SGLang 这一生产级框架下,EAGLE-3 在 batch size 为 64 时仍可以提高 38% 的吞吐量,而 EAGLE 在 batch size 为 24 时就导致吞吐量下降。这里 1.00x 以 SGLang (w/o speculative) 的吞吐量作为基准。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B(1x H100)为例。

作者介绍

李堉晖:北京大学智能学院硕士,滑铁卢大学访问学者,受张弘扬老师和张超老师指导,研究方向为大模型加速和对齐。

魏芳芸:微软亚研院研究员,研究方向为具身智能、图像生成和 AI agents。

张超:北京大学智能学院研究员,研究方向为计算机视觉和大模型加速。

张弘扬:滑铁卢大学计算机学院、向量研究院助理教授,研究方向为大模型推理加速、AI 安全和世界模型。

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力
大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力

极端大风应对指南

「活动」kumadaibiaotitest

4.49MB
版本V7.5.59
下载plus18games游戏盒子安装你想要的应用 更方便 更快捷 发现更多
喜欢 58%好评(47347人)
评论 18
大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图0 大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图1 大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图2 大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图3 大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图4
详细信息
  • 软件大小: 66269.99167MB
  • 最后更新: 2025/04/12 11:27:15
  • 最新版本: V7.73696.6
  • 文件格式: apk
  • 应用分类:ios-Android 巨胸爆乳奶头❌免费漫画
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.62447以上
应用介绍
一,bl茎交 c尿孔,男男Gay互相口J
二,脱1978中文版无删减版,尼尔机械纪元2b❌9
三,亚洲AV无码乱码A片动漫破解版,韩漫㊙️未删减男同入口
四,各种真实偷拍自慰合集,提瓦特调教乱婬h侵犯
五,欲求不満の人妻・夏目彩春,xnxnxnxnx老师⭐美女
六,无码吹潮喷水高潮,中国成人片❌❌❌,英语中的-是什么意思
七,崩坏三同人本子r18
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V3.3.12
マンティス▽クライシス歌词全文
  • 成人🔞强制高潮看片

    女朋友被男朋友绑起来挠痒痒

    原神宵宫裸身❌羞羞

    42524.35MB
    104好评

    brandi love床战猛男

  • 调教绝世唐门美女h堕落文

    68堂AV㊙️无码动漫

    男人露大jiji㊙️网站视频

    25603.59MB
    618150好评

    好・色・先・生丅V

  • 杨颖被❌到高潮视频网站

    男女自慰✅免费

    搓澡工搓顾客老二GV

    13.56MB
    315好评

    男女在教室开cao🌿好爽动漫

  • 76194成人網止發佈頁❌VⅰdC0S

    初2学生玉足vk

    我被少妇榨干精子的小说

    53.80MB
    279好评

    娜美被爆❌自慰爽无码破解漫画

  • 达空黄金屋车

    韩国一边面膜胸一边面膜下面

    《诱感》韩国电影

    71.60MB
    705好评

    城府深的老男人对喜欢的女人

  • 最近放出来的水颜色

    欧版xboxseriesx在线

    chinese猛男Gay国产体育生

    83.68MB
    334好评

    韩国禁片real未删减版

  • секс 俄罗斯виДео

    尿糖高最怕三个药

    为什么上海过户要5日后缴税

    23.15MB
    101好评

    JULIA中文AV在线播放

  • 吃了不知火舞的小说

    偷拍学校女学生洗澡

    八重神子裸体被❌涩涩

    50.78MB
    929好评

    火线传奇铁骑飞狐沙滩

  • 美国八大常春藤名校

    大胸得到无尽裸身❌❌

    伊莉雅全彩本子全彩无码的特色

    83.55MB
    561好评

    杨超越被❌到喷水18禁

  • focom官网免费下载

    甘雨裸身被❌❌羞羞免费观看

    虞姬裸乳被爆❌白浆的动

    83.19MB
    754好评

    为什么男生做着做着就软了

  • 生孩子实拍产口

    扒开胡桃❌狂揉❌难受漫画

    男人互摸jiji㊙️r18

    75.27MB
    2727好评

    Ai白鹿被❌到喷水18禁网站

  • 男人晚上看的网站

    张柏芝陈冠希无删减完整版

    欧美🔞❌❌❌❌视频

    93.61MB
    477好评

    皇族训诫师的日常管教

  • 灰谷兰X原创女主H文

    女生腹泻放屁拉了出来

    芙宁娜被❌到爽羞

    65.09MB
    740好评

    计算器免费下载安装到手机桌面

  • 国产➕又黄➕又爽刺激樱花

    你的欲梦裸体被❌吸乳动态图

    小雪好紧好滑好湿好爽校长

    54.69MB
    753好评

    一个男人把你睡了还问你要钱

  • 虐菊爆乳调教小说

    女同VideOS另类

    女性看的❌片

    57.00MB
    686好评

    再深点灬舒服了灬太大了教练

  • 世王把水王子c到失禁

    JoyHentaiのエロ汉化

    69精品无码少妇a�6�2v久久欧美

    24.64MB
    352好评

    欧美XXXX老师69HD

  • LucyLee大战五个黑人

    涩涩同人❌18禁漫画

    五等分的花嫁漫画简介

    13.01MB
    313好评

    51cg.fun吃瓜

  • 13一15女裸体洗澡

    绝区零同人❤️涩涩

    甘雨被C哭着爬走又被拉回来

    84.77MB
    213好评

    午夜成人性做爰A片无码潘金莲

  • 羞羞漫画破解版

    美女温达

    宝青坊主r18同人本子

    45.86MB
    736好评

    杨幂裸体❌❌视频

  • 吃代糖会影响胰岛素分泌么

    触手❌3D❌原神

    mm131王雨纯极品大尺度写真

    10.51MB
    186好评

    секс 俄罗斯ВИДео

  • 朱莉安妮被躁120分钟

    软件盒子

    成为闺蜜脚奴1~29百合

    44.60MB
    364好评

    18🈲🍆🍑有套直免费男同

  • www.GV2022.com

    乖让医生检查一下H

    国产女女同百合在线播放

    91.44MB
    209好评

    憋尿虐腹揉肚bdsm

  • silk-labo女性向

    女刑警被❌虐乳高潮小说

    姬漾限定在线观看无删减

    30.70MB
    906好评

    被宝箱怪困住的芙莉莲游戏

  • 汽车灯光指示灯图解大全

    九一果冻制作厂官网入口

    日韩电影漂亮的女邻居

    30.24MB
    542好评

    被十几根触手扒开腿C文

  • 免费的app软件下载

    姬川优奈AV无码中字

    XXX HD myanmar

    29.50MB
    122好评

    自慰✅外网免费网站

  • 英雄联盟阿狸被❌出白色液体

    男生是动得越快越爽吗

    在线观看黄A片免费AV软件

    70.49MB
    452好评

    舒淇早期全处露写真

  • 狛枝凪斗和苗木诚是什么关系女自慰被男发现后尿孔不让尿 title="日本爆乳片在线播放" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    genshin18❌video

    工藤有希子赤裸娇喘H小说

  • 白丝校花被🌸流出白浆古见同学被❌黄漫18 title="少妇高清精品毛片在线视频" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    惩罚班花扒开🍑往下摸图片

    UC导航栏

  • 希岛あいりIPX429无码中字aabc的四字词语ABCC title="双性圣子被魔尊们强C了" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    吮奶做爰肉蒲团

    963除以3的竖式计算并验算

足控自慰A片噜噜噜噜噜 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 胡桃けんじゃたいむ腿法娴熟 5天前
    尼尔2b极限测试视频在线观看
  • 男子疑在海底捞往火锅里小便 6天前
    出包王女拉拉梨斗h全彩
  • 丝袜短裙美女被勒死 0天前
    BRAZZERS💋💋2
  • 美女被❌到爽🔞高潮小说 0天前
    禁漫♥天堂♥H漫画催眠
  • 强制顶弄h囚禁强迫h 8天前
    总裁被cao成sao货自慰
  • 成人做爰黄A片免费看直播室动漫 6天前
    打纳西妲屁股打红了
  • AAA国产做受❌❌❌ 9天前
    在厨房里掀开麻麻裙子视频
  • 电锯人第1集提前 3天前
    海贼王佩罗娜口头禅太可怜了
  • 金十四钗为什么不叫薇诺拉 2天前
    三年级上册数学竖式题100道
  • 裸男晨勃露j毛免费观看 2天前
    江之岛盾子裸体自慰爆乳照