自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数，但只能得到一个 token，导致其生成昂贵且缓慢。

近日，EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》通过一系列优化解锁了投机采样的 Scaling Law 能力，可以将大语言模型的推理速度提高 6.5 倍，同时不改变大语言模型的输出分布，确保无损。同时，随着训练数据的增加，加速比还能进一步提高。

EAGLE-3 的加速效果（DeepSeek-R1-Distill-LLaMA 8B 在数学推理数据集 GSM8K 上测试，其他模型在多轮对话数据集 MT-bench 上测试）：

投机采样使用一个小的模型快速生成草稿，一次生成多个 token。目标大语言模型通过一次前向计算并行验证草稿的正确性，输出正确的草稿，并确保无损。EAGLE 系列是投机采样的最快实现。

EAGLE-1 在更有规律的特征层面而不是 token 层面进行自回归，同时输入采样结果（超前一个时间步的 token）消除了不确定性，明显提升了草稿模型的准确率。EAGLE-2 利用草稿模型的置信度近似接受率，据此动态地调整草稿树的结构，进一步提升了投机采样的效率。

最新的大模型通过使用越来越多的训练数据以取得更好的性能。比如说，对于 LLaMA 系列 7B（8B）大小的模型，LLaMA 1、LLaMA 2 和 LLaMA 3 分别使用了 1T、2T、15T token 训练数据，模型结构和推理成本基本不变的前提下各项指标取得了明显提升。

EAGLE-3 的作者们希望通过增加草稿模型的训练数据量以提高接受率和加速比（蓝色曲线）。遗憾的是， EAGLE-1 从训练数据增加中得到的提升非常有限（红色曲线）。

EAGLE-1 和 EAGLE-3 的加速比随着训练数据的增加而变化的趋势：

EAGLE 在特征层进行自回归，再使用目标模型的分类头得到草稿 token。这种方式利用了目标模型的中间结果和信息，相比 token 层自回归有更好的性能。因为草稿模型的最终任务是预测草稿 token，EAGLE 的损失函数包括两部分，一部分是特征预测损失，另一部分是 token 预测损失。特征预测损失也可以被认为是一种约束，限制了模型的表达能力。

EAGLE-3 的作者们进行了实验验证，观察第一个草稿 token 的接受率 0-α，在数据集较小时，特征预测损失在训练数据较少时可以提高性能，但严重损害了草稿模型的 scaling up 能力。

不过，不使用特征预测损失会导致生成后续草稿 token 时的输入偏离训练分布，导致第二个草稿 token 的接受率 1-α 严重下降。为了解决这一问题， EAGLE-3 使用 “训练时测试” 模拟多步生成，从而兼顾了模型的 scaling up 能力和生成多个草稿 token 的能力

EAGLE、Medusa 等投机采样方法都重用目标模型的最后一层特征作为草稿模型的提示，但 EAGLE-3 的作者们发现这存在缺陷。大语言模型的最后一层特征经过线性变换就能得到下一个 token 的分布。对于满秩的分类头，最后一层特征和下一个 token 的分布一一对应。最后一层特征只有下一个 token 的信息，失去了目标模型的全局性质。

因此，EAGLE-3 不再使用目标模型的最后一层特征作为辅助信息，而是混合目标模型的低层、中层、高层信息来作为草稿模型的输入。

与其他投机采样方法一致，EAGLE-3 交替执行草稿阶段和验证阶段。

草稿阶段以下图为例。在预填充或者上一个验证阶段，EAGLE-3 记录模型的低、中、高层特征序列，分别记为 l、m 和 h，拼接 k 维向量 l、m 和 h 得到 3k 维向量，然后通过一个全连接层将其降维到 k 维，就得到融合了不同层级信息的特征 g，其中 k 为目标模型的隐藏层维度。目标是生成以 “How can I” 为前缀的草稿 token 序列，只输入 g_how 和 g_can，草稿模型无法感知随机的采样过程。

因此 EAGLE-3 引入采样结果 I 的词向量嵌入 e_I。将 g 与对应的超前一个时间步的嵌入 e 拼接，即 g_how 与 e_can 拼接，g_can 和 e_I 拼接。将拼接后的向量通过全连接层降到 k 维，并将其输入进一个单层的 transformer 得到 a。然后，将 a 输入分类头，采样得到第一个草稿 token “do”。

在 step 1，以 “How can” 为前缀时，EAGLE-3 重用了来自目标模型的 g_how 和 g_can。

在 step 2，前缀是 “How can I”。理想的方式是重用来自目标模型的 g_how、g_can 和 g_I。但这是不可能的，因为 token “I” 还没有被目标模型检查，无法获取 g_I。EAGLE-3 用上一个 step 草稿模型的输出 a_I 替代 g_I，拼接 a_I 与采样结果 “do” 的词向量嵌入作为草稿模型 step2 的输入。

在 step 3，同样无法获得 g_do，所以使用 a_do 代替，拼接 a_do 与 e_it 作为草稿模型的输入。之后的 step 同理。

EAGLE-3 在多轮对话、代码、数学推理、指令遵循、总结五项任务上分别使用 MT-bench、Humaneval、GSM8K、Alpaca、CNN/DM 数据集进行了实验，并与 7 种先进的投机采样方法（SpS、PLD、Medusa、Lookahead、Hydra、EAGLE、EAGLE-2）进行了比较。

该实验分别在 Vicuna (V), LLaMA-Instruct 3.1 (L31), LLaMA-Instruct 3.3 (L33), DeepSeek-R1-Distill-LLaMA (DSL) 上进行。

表格中的 Speedup 为加速比，τ 为平均接受长度，也就是目标模型每次前向计算能生成的 token 数。EAGLE-3 每次前向计算能生成大约 4-7 个 token，而自回归解码每次生成 1 个 token，因此 EAGLE-3 明显加速了大语言模型的生成，加速比为 3.1x-6.5x

在所有任务和模型上，EAGLE-3 的加速比和平均接受长度都是最高的，明显优于其他方法。

EAGLE-3 发布第一天就被集成到 SGLang 中。在生产级框架中，EAGLE-3 也有数倍加速效果。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B（batch size=1, 1x H100）为例。

投机采样往往被认为在大 batch size 下会降低吞吐量。但是在 SGLang 这一生产级框架下，EAGLE-3 在 batch size 为 64 时仍可以提高 38% 的吞吐量，而 EAGLE 在 batch size 为 24 时就导致吞吐量下降。这里 1.00x 以 SGLang (w/o speculative) 的吞吐量作为基准。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B（1x H100）为例。

李堉晖：北京大学智能学院硕士，滑铁卢大学访问学者，受张弘扬老师和张超老师指导，研究方向为大模型加速和对齐。

魏芳芸：微软亚研院研究员，研究方向为具身智能、图像生成和 AI agents。

张超：北京大学智能学院研究员，研究方向为计算机视觉和大模型加速。

张弘扬：滑铁卢大学计算机学院、向量研究院助理教授，研究方向为大模型推理加速、AI 安全和世界模型。

极端大风应对指南

「活动」kumadaibiaotitest

4.49MB

版本V7.5.59

下载APK 高速下载

下载plus18games游戏盒子安装你想要的应用更方便更快捷发现更多

58%好评(47347人)

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图0

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图1

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图2

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图3

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力截图4

详细信息

软件大小: 66269.99167MB
最后更新: 2025/04/12 11:27:15
最新版本: V7.73696.6
文件格式: apk
应用分类:ios-Android 巨胸爆乳奶头❌免费漫画
使用语言: 中文
: 需要联网
系统要求: 5.62447以上

应用介绍

一，bl茎交 c尿孔，男男Gay互相口J
二，脱1978中文版无删减版，尼尔机械纪元2b❌9
三，亚洲AV无码乱码A片动漫破解版，韩漫㊙️未删减男同入口
四，各种真实偷拍自慰合集，提瓦特调教乱婬h侵犯
五，欲求不満の人妻・夏目彩春，xnxnxnxnx老师⭐美女
六，无码吹潮喷水高潮,中国成人片❌❌❌，英语中的-是什么意思
七，崩坏三同人本子r18
【联系我们】
客服热线：134-2881-646

加载更多

版本更新

V3.3.12

マンティス▽クライシス歌词全文

女朋友被男朋友绑起来挠痒痒

原神宵宫裸身❌羞羞

42524.35MB

104好评

brandi love床战猛男
68堂AV㊙️无码动漫

男人露大jiji㊙️网站视频

25603.59MB

618150好评

好･色･先･生丅V
男女自慰✅免费

搓澡工搓顾客老二GV

13.56MB

315好评

男女在教室开cao🌿好爽动漫
初2学生玉足vk

我被少妇榨干精子的小说

53.80MB

279好评

娜美被爆❌自慰爽无码破解漫画
韩国一边面膜胸一边面膜下面

《诱感》韩国电影

71.60MB

705好评

城府深的老男人对喜欢的女人
欧版xboxseriesx在线

chinese猛男Gay国产体育生

83.68MB

334好评

韩国禁片real未删减版
尿糖高最怕三个药

为什么上海过户要5日后缴税

23.15MB

101好评

JULIA中文AV在线播放
偷拍学校女学生洗澡

八重神子裸体被❌涩涩

50.78MB

929好评

火线传奇铁骑飞狐沙滩
大胸得到无尽裸身❌❌

伊莉雅全彩本子全彩无码的特色

83.55MB

561好评

杨超越被❌到喷水18禁
甘雨裸身被❌❌羞羞免费观看

虞姬裸乳被爆❌白浆的动

83.19MB

754好评

为什么男生做着做着就软了
扒开胡桃❌狂揉❌难受漫画

男人互摸jiji㊙️r18

75.27MB

2727好评

Ai白鹿被❌到喷水18禁网站
张柏芝陈冠希无删减完整版

欧美🔞❌❌❌❌视频

93.61MB

477好评

皇族训诫师的日常管教
女生腹泻放屁拉了出来

芙宁娜被❌到爽羞

65.09MB

740好评

计算器免费下载安装到手机桌面
你的欲梦裸体被❌吸乳动态图

小雪好紧好滑好湿好爽校长

54.69MB

753好评

一个男人把你睡了还问你要钱
女同VideOS另类

女性看的❌片

57.00MB

686好评

再深点灬舒服了灬太大了教练
JoyHentaiのエロ汉化

69精品无码少妇a�6�2v久久欧美

24.64MB

352好评

欧美XXXX老师69HD
涩涩同人❌18禁漫画

五等分的花嫁漫画简介

13.01MB

313好评

51cg.fun吃瓜
绝区零同人❤️涩涩

甘雨被C哭着爬走又被拉回来

84.77MB

213好评

午夜成人性做爰A片无码潘金莲
美女温达

宝青坊主r18同人本子

45.86MB

736好评

杨幂裸体❌❌视频
触手❌3D❌原神

mm131王雨纯极品大尺度写真

10.51MB

186好评

секс 俄罗斯ВИДео
软件盒子

成为闺蜜脚奴1～29百合

44.60MB

364好评

18🈲🍆🍑有套直免费男同
乖让医生检查一下H

国产女女同百合在线播放

91.44MB

209好评

憋尿虐腹揉肚bdsm
女刑警被❌虐乳高潮小说

姬漾限定在线观看无删减

30.70MB

906好评

被宝箱怪困住的芙莉莲游戏
九一果冻制作厂官网入口

日韩电影漂亮的女邻居

30.24MB

542好评

被十几根触手扒开腿C文
姬川优奈AV无码中字

XXX HD myanmar

29.50MB

122好评

自慰✅外网免费网站
男生是动得越快越爽吗

在线观看黄A片免费AV软件

70.49MB

452好评

舒淇早期全处露写真
女自慰被男发现后尿孔不让尿 title="日本爆乳片在线播放" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

genshin18❌video

工藤有希子赤裸娇喘H小说

详情
古见同学被❌黄漫18 title="少妇高清精品毛片在线视频" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

惩罚班花扒开🍑往下摸图片

UC导航栏

详情
aabc的四字词语ABCC title="双性圣子被魔尊们强C了" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

吮奶做爰肉蒲团

963除以3的竖式计算并验算

详情