當前位置：當前位置：首頁>大慶>ByteDance发现词汇表竟然也有「超量」：大语言模型的增长密码正文

ByteDance发现词汇表竟然也有「超量」：大语言模型的增长密码

作者:瑪卡吧咔咔咔　來源:大慶　瀏覽:　【大 中 小】　發布時間:2025-09-21評論數:

这项由ByteDance公司种子团队完成的研究�年发表在�届国际机器学习大会（ICML 2025）上，论文编号为PMLR 267。想要深入了解这项研究的读者可以通过arXiv:2501.16975v2访问完整论文。研究团队由黄洪志领导，包括朱德法、吴邦谷、曾雨涛、王娅、闵启阳、周迅等研究员。

如果说大语言模型是一台巧夺天工的翻译机器，那么词汇表就像是它的字典。过去，人们总是认为字典越厚，机器运算起来越费劲。但ByteDance的研究团队却发现了一个令人意外的规律：适当地把字典做得更厚，机器不仅不会变慢，反而会变得更聪明。

这个发现颠覆了传统认知。研究团队通过大量实验发现，当他们把大语言模型的输入词汇表�万个词条扩展�万个词条时，模型的性能竟然能媲美参数量是它两倍的模型，而且几乎不增加任何计算成本。更神奇的是，输入词汇表的大小与模型性能之间存在着一种对数线性关系——词汇表每扩𷮊倍，模型的表现就会显著提升一个台阶。

为了验证这个发现，研究团队设计了一种叫做"过度词汇化变换器"的新架构。这种架构最巧妙的地方在于它将输入和输出的词汇表分离开来处理。就像一个聪明的图书管理员，在读书时可以参考一个巨大的索引目录，但在写总结时却用简洁的语言表达，这样既提高了理解能力，又保持了表达的效率。

研究团队首先在一个人工设计的语法系统上进行了实验。这个语法系统就像一个严格的数学游戏，有着明确的规则和正确答案，这让研究人员能够准确地测量模型的表现。他们发现了一个有趣的现象：大词汇表对大模型来说是福音，能让它们学得更快更好；但对小模型来说却可能是负担，会让它们感到"消化不良"。

这个发现促使研究团队进一步探索。他们将输入和输出的处理过程分开研究，发现了两个不同的规律。输入词汇表的扩大几乎总是有益的，就像给学生提供更丰富的参考资料，总能帮助他们更好地理解问题。而输出词汇表的扩大则更像是提高考试的难度，对于学习能力强的大模型来说是好事，能让它们学得更精细；但对于小模型来说可能会增加学习负担。

基于这些发现，研究团队提出了两个核心技术：过度编码和过度解码。过度编码技术通过使用多层级的n元组词汇表来扩展输入处理能力。这就像是给模型配备了一套分辨率不同的镜头，既能看清大局，也能观察细节。过度解码技术则通过预测多个后续词汇来提供更精细的监督信号，但只在足够大的模型上才有显著效果。

在实际应用中，研究团队面临了一个技术挑战：如此庞大的词汇表会占用大量内存，可能让训练过程变得缓慢。他们巧妙地运用了分布式计算技术，将庞大的词汇表分散到多个计算节点上，通过精心设计的通信策略，将额外的计算开销控制𶞕%以内。这就像是在多个仓库之间建立了高效的物流网络，需要什么词汇就快速调取，用完就归还，避免了资源浪费。

实验结果令人印象深刻。在OLMo2系列模型上的测试显示，使�万词汇表�M参数模型能够达�亿参数基准模型的性能水平。在各种下游任务的评测中，过度编码技术在数学推理、常识推理、阅读理解等方面都展现出了显著的加速效果，有些任务的学习速度提升𱄿𳗥倍。

更有趣的是，研究团队还在混合专家模型（MoE）架构上验证了这一发现。MoE模型本身就采用了稀疏激活的设计理念，而过度编码技术的核心也是稀疏地访问庞大的词汇表，两者有着天然的契合性。实验表明，在MoE架构上应用过度编码技术同样能带来性能提升，尽管提升幅度相比密集模型有所减少，这可能是因为两种稀疏技术之间存在某种重叠效应。

研究团队还探索了将过度编码与多词汇预测技术相结合的可能性。多词汇预测就像是让模型同时完成多道题目，虽然计算量会增加，但学习效率可能更高。实验发现，当过度编码和多词汇预测结合使用时，能够产生协同效应，进一步提升模型性能。

从效率角度来看，过度编码技术具有明显优势。虽然增加了大量的词汇表参数，但这些参数的访问是稀疏的，每次只需要激活其中很小一部分。在推理过程中，额外的计算开销几乎可以忽略不计，特别是对于大模型或大批量处理的情况。而且，研究团队还设计了将词汇表参数转移到CPU内存的技术方案，进一步减少了GPU内存压力。

这项研究的理论价值在于它揭示了大语言模型扩展的一个新维度。传统的扩展思路主要集中在增加模型参数或训练数据，而这项研究证明了词汇表规模也是一个值得重视的扩展方向。更重要的是，它为我们理解语言模型的学习机制提供了新的视角：模型的输入表示能力和输出表达能力可能有着不同的扩展规律和优化策略。

研究团队通过对数线性关系的发现，为未来的模型设计提供了一个可量化的指导原则。当我们想要提升模型性能时，除了增加参数和数据，还可以考虑扩展输入词汇表。而这种扩展的成本相对较低，性价比很高。

说到底，这项研究最有价值的地方在于它改变了我们对大语言模型优化的思维方式。过去人们总是关注模型的"大脑"要有多复杂，现在我们发现模型的"词典"同样重要。就像一个学者，不仅需要聪明的头脑，也需要丰富的词汇储备。这个发现可能会影响未来大语言模型的设计思路，让研究者们在追求更强性能时有了新的方向。

对于普通用户来说，这项研究意味着未来的AI系统可能会变得更加智能，同时运行效率不会显著降低。无论是智能写作助手、代码生成工具，还是各种对话系统，都可能因为这种技术而变得更加精准和有用。而对于AI研究领域，这项工作开启了一个新的研究方向，可能会催生更多关于词汇表优化的创新技术。

研究团队在论文中详细记录了实验过程和技术实现细节，为其他研究者重现和扩展这项工作提供了完整的参考。他们还进行了大量的消融实验，系统地分析了不同设计选择对最终效果的影响，这些发现对于实际应用具有重要的指导意义。感兴趣的读者可以通过arXiv:2501.16975v2获取完整的技术细节和实验数据。

Q&A

Q1：过度词汇化变换器是什么技术？它是如何工作的？

A：过度词汇化变换器是一种新的大语言模型架构，核心思想是将输入和输出的词汇表分离处理。输入端使用超大规模词汇表（可�万词条）来增强理解能力，输出端保持相对简洁来控制计算成本。这种设计让模型在阅读理解时能参考更丰富的词汇信息，但在生成回答时保持高效，就像一个博学的学者能理解复杂概念但用简洁语言表达。

Q2：为什么扩大词汇表能提升模型性能而不增加太多计算成本？

A：关键在于词汇表的访问是稀疏的。虽然词汇表很大，但模型在处理每个词时只需要激活其中很小一部分，就像图书馆虽然藏书百万，但读者每次只需要查阅几本书。研究发现词汇表大小与性能呈对数线性关系，每扩𷮊倍词汇表，性能显著提升，但额外计算开销控制𶞕%以内。

Q3：这项技术对普通用户使用AI产品有什么实际影响？

A：这项技术会让AI系统变得更聪明但运行效率基本不变。比如ChatGPT、文档写作助手、代码生成工具等可能会变得更精准，能更好地理解复杂问题和细微差别，回答质量更高。在数学推理、阅读理解等任务上，学习速度可能提𴃉-5倍，这意味着AI产品的更新迭代会更快，用户体验会持续改善。

攻苦食淡網

ByteDance发现词汇表竟然也有「超量」：大语言模型的增长密码

作者:瑪卡吧咔咔咔 來源:大慶 瀏覽: 【大中小】 發布時間:2025-09-21評論數:

作者:瑪卡吧咔咔咔　來源:大慶　瀏覽:　【大中小】　發布時間:2025-09-21評論數: