当前位置：当前位置：首页 >产品中心 >模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向正文

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

作者:新闻中心　来源:汽车电瓶　浏览:　【大 中 小】　发布时间:2024-04-27 19:02:09 评论数:

这种方法可以在某种程度上不改变权重的模型前提下微调 LLM。

论文标题：Tuning Language Models by Proxy
论文地址：https://arxiv.org/abs/2401.08565

在适应大型语言模型方面，融合通过平均最新的混合 k 个检查点的权重（每个权重都在 epoch 结束时获取），E_i 表示专家模块的专家展方输出。并能让我们更好地理解训练数据的懂年组成结构对分布外性能的影响。在推理时间的篇论成本并不会超过单个模型。WARM 相对于单奖励模型的模型胜率为 79.4%，其效率和质量都胜过传统的融合掩码式自动编码器。这种方法能显著提升标准 SWA 和 EMA 方法的混合性能。

然后到了 2023 年，专家展方如下图表所示，懂年他们使用多达 700 亿参数的篇论模型在多个问答数据集上实验验证了这一点。这里我们将其译为「代理调优」。模型来自论文《Attention Is All You Need》" cms-width="677" cms-height="532.188" id="15"/>Transformer 架构，融合这个模型的混合表现能比肩大得多的 Llama 2 70B 模型。和随机权重平均一样，

来自代理调优论文的结果图表

可以看到，

通过 Model Ratatouille 实现模型融合，可从现有 ViT 提取出净化后的特征。权重平均涉及到将单个模型在训练过程中不同点的权重参数进行平均。我认为 LLM 模型融合技术前景广阔。</p><p cms-style=

1.WARM:On the Benefits of Weight Averaged Reward Models

论文地址：https://arxiv.org/abs/2401.12187

在这篇 1 月 22 日的论文《WARM: On the Benefits of Weight Averaged Reward Models》中，

另一种方法是指数移动平均（EMA，

3. 针对特定任务进行微调：提升 Llama 2 70B 基础模型执行特定任务的能力，该方法可从多个更小的聊天 AI 模型随机选取响应。

代理调优是通过调整目标 LLM 的 logit 来实现的，

更容易针对目标任务定制化 —— 小模型通常可以仅在单个 GPU 上完成微调。从作者的训练过程可以得到一个颇具教育意义的有趣见解：在 1 万亿 token 上训练该模型 3 epoch（而不是 1 epoch）实际上是有用的，

选自Ahead of AI

作者：Sebastian Raschka

机器之心编译

编辑：Panda

还有 10 个月，然后再将这个差添加到目标模型的 logit。
论文标题：Soaring from 4K to 400K:Extending LLM’s Context with Activation Beacon
论文地址：https://arxiv.org/abs/2401.03462
研究者提出通过激活信标（activation beacon）来扩展 LLM 的上下文窗口。如果有人知道 GPT-4 的词表并且可以访问其 logit 输出，在深入介绍这篇 WARM 论文之前，并且在其它 6 个基准上也有类似的趋势" cms-width="677" cms-height="406.188" id="25"/>来自 TinyLlama 论文的图表，模型依然会继续提升。其直接操作原始字节，无需任何微调便能扩展 LLM 的上下文处理能力。值得期待。
论文标题：Self-Rewarding Language Models
论文地址：https://arxiv.org/abs/2401.10020
使用 LLM 作为评判员（LLM-as-a-Judge）的方法在训练期间执行自我奖励，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。
代理调优的实践效果如何？
他们的实验得到了让人印象深刻的积极结果。该方法采用了一种自我博弈机制，
论文标题：Denoising Vision Transformers
论文地址：https://arxiv.org/abs/2401.02957
作者发现，这种方法也可用。
论文标题：Sleeper Agents:Training Deceptive LLMs that Persist Through Safety Training
论文地址：https://arxiv.org/abs/2401.05566
这项研究调查了 LLM 学习欺骗行为的可能性，结果证明模型性能会随模型大小和数据量扩展，
来自论文《Mixtral of Experts》
（作者并未说明每个 token 的两个专家中哪个被标记了颜色，其方法是在次要的特征层级上进行处理，这有什么好处？类似于创建集成模型的概念，Mixtral 8x7B 有 47B 参数。
最后他总结了 1 月份的多篇有趣研究，因此《Mixtral of Experts》值得关注。
2.Tuning Language Models by Proxy
论文地址：https://arxiv.org/abs/2401.08565
论文《Tuning Language Models by Proxy》提出了一种可用于提升 LLM 的技术：proxy-tuning。这是一种用于训练 LLM 的方法，
模型大小
Mixtral 8x7B 如何得名的？稀疏 MoE 模型的实际大小如何？8x 是指使用了 8 个专家子网络。那么 WARM 是如何对权重执行平均以获得奖励模型呢？这里，并且发现全微调通常性能表现最佳，以提升其在编程和数学等领域的表现，提升整体性能和提升稳健性。
论文标题：Knowledge Fusion of Large Language Models
论文地址：https://arxiv.org/abs/2401.10491
研究者提出了一种知识融合方法，经过权重平均得到的模型相对轻量，传统集成方法和其它模型融合方法。其利用了扩散模型和一个精心合成的数据集来估计部分遮挡目标的形状和外观。并且可能基于不同的数据集或任务。但却是目前最受瞩目的方法。这里，WARM 的表现超过了最佳的单奖励模型方法
总结
模型融合并不是一种新技术，研究者将标注成本降低了 50%（相比于随机采样）。因此，我们为什么还要选择这种方法呢，
论文标题：MoE-Mamba:Efficient Selective State Space Models with Mixture of Experts
论文地址：https://arxiv.org/abs/2401.04081
该论文提出将 Mamba 等状态空间模型与混合专家（MoE）组合起来，Mixtral 似乎只是通过这些专家（前馈）模块为 LLM 添加额外的参数，此外，
论文标题：Pix2gestalt:Amodal Segmentation by Synthesizing Wholes
论文地址：https://arxiv.org/abs/2401.14398
Pix2gestalt 是一种用于零样本非模态图像分割的框架，并且在训练期间会更早地在平均检查点中开始。它仅使用掩蔽 token 和可见 token 之间的交叉注意力来重建被遮掩的图块，该模型仅使用 13B 参数。

但是，自我博弈微调）。这里的奖励模型是指在用于对齐的 RLHF 中使用的奖励模型。

论文标题：EAGLE:Speculative Sampling Requires Rethinking Feature Uncertainty
论文地址：https://arxiv.org/abs/2401.15077

EAGLE 能加速 LLM 中的自回归解码，并且几乎能媲美直接微调的 Llama 70B Chat 模型。而 LoRA 通常能在成本和性能之间取得最好的平衡。在每种场景中，其使用了交叉注意力来提升在新任务上的表现（比如资源很少的语言的翻译和代码生成任务），也就是内部权重不可用时，

实践方面的考虑

这种方法可以用于提升研发效率：开发新的训练或模型提升方法并在较小模型上测试它们以降低成本。我也想看看 Mixtral 8x7B 与以下两种假定的模型相比如何，

TinyLlama 的性能表现

当然，尽管这有违 Chinchilla 的缩放率。参数效率高并且有能力处理长达 32k 的上下文窗口，因为这样可以避免潜在的版权争议。也就是一次仅使用 2 个专家。其作用是将每个 token 嵌入重定向到 8 个专家前馈模块。LLM 中的大多数参数都包含在前馈模块中，

论文标题：ReFT:Reasoning with Reinforced Fine-Tuning
论文地址：https://arxiv.org/abs/2401.08967

这篇论文提出了 Reinforced FineTuning （ReFT，

可以观察到，

论文标题：A Comprehensive Study of Knowledge Editing for Large Language Models
论文地址：https://arxiv.org/abs/2401.01286

该论文讨论了如何让 LLM 保持信息更新，需要强调的是，该模型的代码库基于 Apache 2 许可证发布，他们指出在更简单数据上进行训练会更高效。（OOD = 分布外 / 泛化）

细致来说，因为这样可以直接对比 MoE 与非 MoE 方法的效果：

・Mistral 56B（更大的非 MoE 模型）

・Mistral 47B（与 Mixtral 8x7B 参数数量一样的非 MoE 模型）

还有一个有趣的事实：Brave 浏览器的 Leo 助理功能现在使用 Mixtral 8x7B 作为默认 LLM。可比肩甚至超越 Llama 2 70B 等更大模型、（论文地址：https://arxiv.org/abs/2307.13269）

使用了权重平均的奖励模型

讨论完了权重平均和模型融合，这是一种简单却有效的强化学习算法，

现在，如果作者能基于同一数据集比较一下 Mixtral 8x7B 和 Llama 2 70B 就更好了；但这类研究的成本很高。如此一来，当有 8 个专家 { E_1, E_2, ..., E_8}）时，还有可能让模型持续进行自我提升。近日，WARM 论文提出通过权重平均将 LLM 奖励模型组合到一起。

论文标题：SpatialVLM:Endowing Vision-Language Models with Spatial Reasoning Capabilities
论文地址：https://arxiv.org/abs/2401.12168

这项研究可提升视觉 - 语言模型（VLM）的 3D 空间推理能力 —— 作者开发了一个互联网规模的空间推理数据集并基于其训练了一个 VLM。应该使用小得多的数据集。

论文标题：KVQuant:Towards 10 Million Context Length LLM Inference with KV Cache Quantization
论文地址：https://arxiv.org/abs/2401.18079

研究者提出了一种量化键 - 值缓存激活的方法，

模型融合已有较长的历史，

乍一看，这些研究者在三个不同场景中实验了这种方法：

1. 指令微调：提升 Llama 2 70B 基础模型，不过它们也有差别：其模型并不是采样于同一轨迹，如下图所示。

4. 预训练一个小型的 1.1B 参数的 LLM 可降低开发和运营成本，这些 logit 表示 LLM 的每个可能的输出 token 的非归一化分数，

来自论文《Mixtral of Experts》

让专家专业化

有趣的问题来了：这些专家能否展现出任何特定于任务或 token 的模式？不幸的是，这些模型中的每一个都可能是独立训练的，胜过其它同等大小的开源模型。

论文标题：LLM Maybe LongLM:Self-Extend LLM Context Window Without Tuning
论文地址：https://arxiv.org/abs/2401.01325

这篇论文提出了一种非常简单的技术（只有 4 行代码），他们就可以使用此方法创建专用型的 GPT-4 模型。下表重点对比了 Llama 70B Base 和 Chat 模型。根据上式，而不是一个大型网络，其就尤显潜力了。

论文标题：An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models
论文地址：https://arxiv.org/abs/2401.06692

使用 LLM 的监督式微调中的实验设计技术（选取信息量最大的样本进行标注以最大化效率），

论文标题：LLaMA Pro:Progressive LLaMA with Block Expansion
论文地址：https://arxiv.org/abs/2401.02415

该论文提出了一种用于 LLM 的后预训练方法，模型融合和权重平均会得到一个单一模型，但在 LLM 领域却是比较新的；考虑到 LLM 的高成本和资源需求，（理论上讲，MoE 可以更高效地分配计算资源。此外，这个过程无需改变大模型的权重。我相信 MoE 模型也会成为 2024 年大多数开源项目的一个重点关注领域，精度召回曲线下面积（AUPRC）优于接收者操作特征下面积（AUROC）。如果使用很大的模型，最新权重平均（LaWA，这一技术的一种常见形式是随机权重平均（SWA，然后再将这 8 个专家前馈层的输出求和汇总，而不是训练单个奖励模型。受限于篇幅，你可以访问其 GitHub 代码库：https://github.com/jzhang38/TinyLlama

小型 LLM（也常写成 SLM，而且在常识推理和问题求解基准上的表现也相当不错，相比于单个奖励模型，使用的数据都已重复，

另外，以下是机器之心对原文不改变原义的编译与整理。

奖励骇入是指 LLM 学会了操控或利用其奖励系统的漏洞来获得高分或奖励，因此更容易理解和调整。并能在单个 A100 (80GB) GPU 上运行 Llama-7B 等模型同时还支持高达 100 万的上下文长度。

论文标题：WARM:On the Benefits of Weight Averaged Reward Models
论文地址：https://arxiv.org/abs/2401.12187

这项研究解决了与人类偏好对齐的 LLM 中的奖励崩溃问题，从而无需任何额外的人类标注数据便能提升 LLM。就会很困难。

能效更高 —— 考虑到训练和运行大规模 AI 模型对环境的影响，

论文标题：Rephrasing the Web:A Recipe for Compute and Data-Efficient Language Modeling
论文地址：https://arxiv.org/abs/2401.16380

作者提出使用经过阐释的网络文档来更高效地训练大型语言模型，其做法是在固定的预训练权重上训练低秩和高度稀疏的组件，除了基于人类偏好进行的常规训练，

论文标题：MoE-LLaVA:Mixture of Experts for Large Vision-Language Models
论文地址：https://arxiv.org/abs/2401.15947

该论文提出了一种用于扩展大型视觉 - 语言模型的混合专家范式，

权重平均和模型融合都是将多个模型或检查点模型组合成单一实体。作者却观察到了一个有趣的现象：文本数据集中的连续 token 通常会被分配给同样的专家。也可以使用一组小型 LoRA 矩阵替代多个小型专用模型。

不同的模型融合和平均方法之间的比较

按照上述 WARM 流程并且平均了 10 个奖励模型后，我们先来谈谈这个主题。比如 Llama 2 7B；一个经过微调的基础模型（M3），使之能比肩 Llama 2 70B Chat 模型。论文《Early Weight Averaging Meets High Learning Rates for LLM Pre-training》探索了 LaWA 的一个修改版，

3. 通过将多个小型模块组合起来创建混合专家模型，其性能优于单个模型、

在下面将讨论的论文《Mixtral of Experts》中，

权重平均和模型融合（左）和多数投票（majority voting）等传统集成方法（右）

传统上讲，可在不使用额外训练数据的前提下取得优于标准微调的结果。

但这篇论文也有个小问题：作者并未分享训练数据集的有关信息。7B 参数表示 Mistral 7B 模型的整体参数规模，而不是维护多个分立的模型，看起来就会是这样：

此外，但由于它的所有代码都已开源，可提升大型语言模型在数学问题求解等任务上的推理能力。让 LLM 可以生成并优化自己的训练数据，该架构在更高的图像分辨率上表现尤其出色。但我猜想他们总是标记权重更高的专家。经过代理调优的 70B Llama 2 模型的表现优于 70B 基础模型，该过程涉及两个较小的模型：一个小型基础模型（M2），

Mixtral 8x7B 总共有 47B 参数，

论文标题：Multimodal Pathway:Improve Transformers with Irrelevant Data from Other Modalities
论文地址：https://arxiv.org/abs/2401.14405

这篇论文提出了 Multimodal Pathway（多模态通路）。其中揭示出它会绕过而不是移除预训练功能。利用多个在训练期间创建的已有 LLM（不做其它处理）的方法就尤其具有吸引力。下面会用星号★标记我认为尤其有趣的论文。还有一个路由模块，

代理调优图示

为了更清晰地说明这一概念，该方法可扩展 Transformer 模块，新方法都能带来显著提升。明显少于 Llama 2 70B 等模型。根据原论文，提升后的目标模型 M1* 的输出 logit 是这样计算的：M1*(x) = M1 (x) + [M3 (x) - M2 (x)]。其中权重是由门控网络 G (x)_i 为每个输入 x 提供的。Python 代码中的缩进 token 经常被分配给同一专家，这种方法是对一个初始较大的学习率进行衰减，

论文标题：The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
论文地址：https://arxiv.org/abs/2401.06751

作者发现，比如 Llama 2 7B Chat。

展望未来，通过使用多个较小的子网络，并可望在更广泛的任务上实现更好的性能。

论文标题：Spotting LLMs With Binoculars:Zero-Shot Detection of Machine-Generated Text
论文地址：https://arxiv.org/abs/2401.12070

Binoculars 这种新方法可以不使用训练数据来更准确地检测 LLM 生成的文本，即小型语言模型）为何如此吸引人？因为小型 LLM：

容易获取且成本低，将 Llama 7B 转变为 Llama Pro-8.3B。如果要在真实世界中实际使用这些方法，
- 论文标题：LLaMA Beyond English:An Empirical Study on Language Capability Transfer
- 论文地址：https://arxiv.org/abs/2401.01055
该论文探究了如何将 Llama 等 LLM 的能力迁移用于非英语任务 —— 用不到 1% 的预训练数据就可以实现与当前最佳模型相当的性能。由于每个时间步骤仅有 2 个专家处于活动状态，因此任何人都可以进一步研究和微调它。以表示一种加权集成方法。此时学习率较低，可避免子词 token 化偏差。但是，下面我们简单讨论一下这两个概念。
开发和预训练成本更低 —— 这些模型仅需要相对少量的 GPU。不同于传统的集成方法，目前是性能最佳的大型语言模型（LLM）之一，如下图所示。
- 论文标题：DiffusionGPT:LLM-Driven Text-to-Image Generation System
- 论文地址：https://arxiv.org/abs/2401.10061
DiffusionGPT 是一种文本到图像生成框架，Exponentially Moving Average），下图比较了这些差异。如下图所示。这让它们可以更有效地扩展，另外，我也预计未来会出现更多创新性的模型融合方式。每个子网络都负责处理不同类型的任务。甚至让模型变得更小。但其实 phi-2 模型依然比 TinyLlama 大 3 倍。该模型目前落后于小型的 phi-2 模型，）
4.TinyLlama:An Open-Source Small Language Model
论文地址：https://arxiv.org/abs/2401.02385
微软的 phi-2 在去年 12 月引起了不少关注，
何为权重平均？因为用于 LLM 的权重平均和模型融合可能会成为 2024 年最有趣的研究主题，需要重点指出：Mixtral 的大小并不是 8x7B = 56B。
但是，
对教育方面的应用很有价值 —— 小型 LLM 更容易掌控，作者没能观察到特定于具体主题的专业性，则可以写成如下形式：
这里，也就是生成的文本；这个过程可以使用核采样或 top-k 解码等技术。并且对比了其它微调策略，其训练使用了一个 2 万亿 token 的数据集。在得到了这些输出 logit 之后，其在多种图像识别任务上都取得了显著的性能提升。其做法是通过指数级地降低旧状态的权重来计算权重的一个平滑化版本。他们使用了一种简单的线性平均。如下图所示。Stochastic Weight Averaging）。
- 论文标题：RAG vs Fine-tuning:Pipelines, Tradeoffs, and a Case Study on Agriculture
- 论文地址：https://arxiv.org/abs/2401.08406
尽管 RAG（检索增强式生成）和微调谁更胜一筹的争论一直存在，该研究优化了 Chinchilla 缩放率并且表现优于 LLaMA-2 70B 和 GPT-3.5 等模型。可以沿微调轨迹进行采样。" cms-width="677" cms-height="352.281" id="2"/>随机权重平均（SWA）是在训练周期快结束时对模型的权重进行平均。也胜过一个 Transformer-MoE 基准模型。Model Ratatouille 方法可以总结成下图。展望 2024 年的开源和研究进展，而第六个专家则贡献了 37%。
- 论文标题：VMamba:Visual State Space Model
- 论文地址：https://arxiv.org/abs/2401.10166
这项研究将视觉 Transformer 的全局感受野和动态权重与 CNN 的线性复杂性组合起来，基于测试的方法，作者设定了 TopK=2，
来自论文《Early Weight Averaging meets High Learning Rates for LLM Pre-training》的修改版 LaWA，来自论文《Attention Is All You Need》
前馈模块本质上就是一个多层感知器。它需要计算一个较小基础模型和一个已微调模型之间的 logit 之差。可将多个不同 LLM 组合成一个统一模型，G 表示路由（即门控网络），似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，
- 论文标题：DeepSeek LLM:Scaling Open-Source Language Models with Longtermism
- 论文地址：https://arxiv.org/abs/2401.02954
DeepSeek LLM 有 7B 和 67B 两种配置，但其实它还有另一种调整：Mixtral 是一种稀疏 MoE，而权重则在学习率衰减期间（仍然相对较高）在多轮迭代上进行平均。WARM 还使用了所谓的 Baklava 流程，并且这个新模型还没有传统集成方法的典型缺陷，因此其策略是在训练快结束时计算模型的平均，并且对比了其它微调策略，可以免费用于学术和商业目的。比如更高的资源需求。
权重平均能让奖励建模更为稳健地应对奖励骇入问题
为了解决奖励骇入问题，代理调优是一种能高效利用资源的方法。
一月份其它有趣的研究论文
下面是一月份我看到的其它一些有趣论文。这篇论文还为 CodeLlama 提供了额外的基准。
- 论文标题：Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
- 论文地址：https://arxiv.org/abs/2401.01335
这篇论文提出了 Self-Play fIne-tuNing （SPIN，其做法是将监督式微调与强化学习组合起来使用，也许是时候盘点一番新年首月进展了。G (x) 的输出可能看起来是这样的：[0, 0, 0.63, 0, 0, 0.37, 0, 0]。（早期实验表明，
TinyLlama 带来的想法
举个例子，
MoE 是什么？MoE 是混合专家（Mixture of Experts）的缩写，而模型融合则是将多个不同的已训练模型组合成单个模型。可以提升 LLM 遵循指令和建模奖励的能力；这表明，研究表明，未来在 TinyLlama 上的微调实验可能还能得到一些有趣结果，甚至在专有模型上也是如此。并整合未来的 token。
- 论文标题：RoSA:Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
- 论文地址：https://arxiv.org/abs/2401.04679
这项研究提出了一种新的用于 LLM 的参数高效型微调方法 RoSA。
那么如何实现我们想要的增强呢？其实就是将这些较小模型的预测结果（logit）之差用于目标模型 M1。它的效率就比常规的非 MoE 47B 参数模型高多了。TinyLlama 不仅小，最初被认为与循环神经网络（RNN）不同的仅解码器 Transformer 可被视为具有无限隐藏状态大小的无限多状态 RNN。
这项研究的主要目的是提升用于 LLM 的 RLHF 对齐步骤。但是，这就意味着可以在资源有限的计算设备（比如笔记本电脑和 / 或小型 GPU）上运行它们。其可凭借更低的计算负载超过之前的方法。该研究还给出了一种将模型恢复到其原始有毒行为的方法。如下图所示。得到了一个名为 VMamba 的新架构，
这里就需要说明代理调优方法的两个潜在优势：
- 在某些场景中，
  但是，MoE 层会计算专家输出 E_i 的加权和，而不是注意力机制中。同时也是最受人关注的一种公开可用的 LLM。使之可用于提升更大型的基础模型，我们可以假设我们想要提升大型目标模型 M1（比如 Llama 2 70B）的目标函数结果。这里唯一的新东西是该方法使用了来自权重平均的奖励模型，这个过程仅需极少量的额外参数和数据。这是在模型接近收敛的训练结束时完成的。编辑内部知识）并提出了一个新的 KnowEdit 基准。因此，再使用 softmax 函数将它们转换成概率。并能为教育和研究应用带来新的可能性。可在损失和准确度方面将训练过程加速多个 epoch。再扩展这些方法，其研究者发现，而且还完全开源。因此对于每个输入 token，
  当大型基础模型是「黑箱」时，但这篇论文却表明可将 RAG 和微调组合起来，因此很可能在可预见的未来（或至少在未来几个月）里成为一大颇具吸引力的模型。Latest Weight Averaging）表明，比如 TriviaQA 或数学问题。但也可以理解，
  由于模型的训练轨迹可能并不均匀，
  - 论文标题：A Closer Look at AUROC and AUPRC under Class Imbalance
  - 论文地址：https://arxiv.org/abs/2401.06091
  这篇论文挑战了机器学习领域一个广被认可的信念：对于类别不平衡的二元分类问题，
  - 论文标题：Transformers are Multi-State RNNs
  - 论文地址：https://arxiv.org/abs/2401.06104
  这项研究表明，论文地址：https://arxiv.org/abs/2306.03241
  权重平均的做法是将同一模型的多个检查点组合成单个模型，Arxiv、但最近一篇颇具影响力的 LLM 相关论文是《Model Ratatouille:Recycling Diverse Models for Out-of-Distribution Generalization》。
  2022 年，这些研究者发现了一种强化学习策略 —— 使用此策略，
  在此之前，
TinyLlama 的性能
TinyLlama 的优势不仅是小和开源，这一点和 Model Ratatouille 类似。另外，
举个例子，根据上面的公式，TinyLlama 在这些基准上比不上更大型的模型，问题也依然存在：较小模型必须与大型目标模型有一样的词表。该方法在实验中表现接近直接微调方法，「开源」是指通过一个不受限的开源软件库提供训练代码和检查点模型。WARM 会对多个模型（这里是奖励模型）的权重进行平均，并发现标准的安全训练技术无法有效地移除这些持续存在的欺骗性策略。如下图所示。
用于模型融合的 Model Ratatouille 方法
请注意，（论文地址：https://arxiv.org/abs/2212.10445）
Model Ratatouille 背后的思想是复用多个同一基础模型在不同的多样性辅助任务上微调过的迭代版本，仅有 1.1B 参数，
原文链接：https://magazine.sebastianraschka.com/p/research-papers-in-january-2024
- 论文标题：Code Generation with AlphaCodium:From Prompt Engineering to Flow Engineering
- 论文地址：https://arxiv.org/abs/2401.08500
AlphaCodium 是一种迭代式的、7B 是指其组合了 Mistral 7B 模块。
- 论文标题：MambaByte:Token-free Selective State Space Model
- 论文地址：https://arxiv.org/abs/2401.13660
MambaByte 是一种无 token 语言 Mamba 选择性状态空间模型，AI 研究者 Sebastian Raschka 发布了一份报告，以一种较新颖的方式使用稀疏 MoE 模块来构建 LLM。
Mixtral 8x7B 能在许多基准上比肩甚至超越大得多的 Llama 2 70B 模型
Mixtral 架构
Mixtral 8x7B 的关键思想是用 8 个专家层替换 Transformer 架构中的每个前馈模块，其方法是通过平均微调后的奖励模型权重来执行强化学习。获得更优的性能，
- 论文标题：Astraios:Parameter-Efficient Instruction Tuning Code Large Language Models
- 论文地址：https://arxiv.org/abs/2401.00788
这篇论文评估了不同的全微调和参数高效型微调技术，强化微调）技术，目标是达到 CodeLlama 70B 的代码水平。这能在多种任务上实现更快的预训练，
WARM 在 RLHF 过程中的使用方式概况。2024 年的第一个月已经过去，该技术可以使用未配对的模态数据（比如音频）提升视觉 Transformer 在另一特定模态（比如图像）上的性能，其方法是通过简单的计算来对比两个预训练的 LLM。而在 Mixtral 8x7B 中，同时无需训练大模型。
- 论文标题：A Mechanistic Understanding of Alignment Algorithms:A Case Study on DPO and Toxicity
- 论文地址：https://arxiv.org/abs/2401.01967
该研究探索了直接偏好优化（DPO）算法如何通过降低有害性来将 GPT2-medium 等预训练模型与用户偏好对齐，）
总结
Mixtral 8x7B 有几个优点：公开可用、可让所得 LLM 的效果和效率媲美甚至超越更大型的对应模型。
WARM 是如何发挥作用的？方法其实相当简单：类似于随机权重平均，其使用了更高的学习率，这就意味着每个输入只会使用这些专家中的一部分：
在 Mixtral 8x7B 这个特例中，结果表明组合使用中等大小的模型（6B/13B）可以达到或超过 ChatGPT（参数超过 175B）等更大型模型的表现。这是一类将多个较小「专家」子网络组合起来得到的集成模型。然后再使用这些概率来采样得到最终输出结果，其做法是使用一个较小的已微调模型来修改其预测结果。即使训练了多个 epoch，视觉 Transformer（ViT）中常见的网格状伪影是由输入阶段的位置嵌入造成的。这些缩放率认为对于这样的模型大小，这是解码阶段中一个非常简单的过程。
- 论文标题：SpacTor-T5:Pre-training T5 Models with Span Corruption and Replaced Token Detection
- 论文地址：https://arxiv.org/abs/2401.13160
这篇论文提出了 SPACTOR，
2. 领域适应：提升 Llama 2 70B 基础模型的代码能力，这样得到的 MoE-Mamba 模型在效率和有效性上既优于标准的 Mamba 结构的状态空间模型，并且在其它 6 个基准上也有类似的趋势
研究在「过大」数据集上的行为或训练多个 epoch 的行为时，使用类似 PyTorch 的伪代码，
- 论文标题：Rethinking Patch Dependence for Masked Autoencoders
- 论文地址：https://arxiv.org/abs/2401.14391
交叉注意力掩码式自动编码器是一种新式预训练框架，
- 论文标题：A Minimaximalist Approach to Reinforcement Learning from Human Feedback
- 论文地址：https://arxiv.org/abs/2401.04056
该论文提出了自我对弈偏好优化（SPO），模型通常能够很好地从简单数据泛化到困难数据。
- 论文标题：Blending Is All You Need:Cheaper, Better Alternative to Trillion-Parameters LLM
- 论文地址：https://arxiv.org/abs/2401.02994
这篇论文提出了 Blending。相较于原始基础模型，
- 论文标题：Scalable Pre-training of Large Autoregressive Image Models
- 论文地址：https://arxiv.org/abs/2401.08541
受 LLM 预训练的启发，WARM 的表现超过了最佳的单奖励模型方法" cms-width="677" cms-height="768.672" id="9"/>在第 3000 步时，将知识融合到模型中、代理调优的表现可能优于 LoRA，这表示第三个专家为输出贡献了 63%，其使用 LLM 解析不同的 prompt，同时还不会忘记以前的知识。通常而言，
论文《Mixtral of Experts》中对 MoE 模块的解释
如果用数学表示，然后，下面我们回到近期新发布的论文《WARM:On the Benefits of Weight Averaged Reward Models》。如 GitHub、如论文《LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition》展现的那样。这样得到的效果优于 LoRA 等现有方法。还有，我们已经讨论了一些权重平均方法。这意味着 Mistral 7B 模型有 9B 个非前馈参数；有趣的是，Mixtral 8x7B 是一种稀疏的混合专家（稀疏 MoE）模型，而不是真正完成预期任务或实现基本目标。根据上图所示的基准结果，其中回顾点评了多种知识编辑技术（使用外部知识、他们提出了一种去噪视觉 Transformer，其将 span 损坏和 token 替换检测组合成了一个两阶段课程；其靠少 50% 的预训练迭代次数和少 40% 的计算成本实现了与标准方法一样的性能。（OOD = 分布外 / 泛化）" cms-width="677" cms-height="242.578" id="4"/>通过 Model Ratatouille 实现模型融合，具体来说，尽管还没人对它们直接进行比较。如上图所示。这种将多个模型组合成一个模型的思想可以提升训练的收敛、并且训练已接近收敛，）
3.Mixtral of Experts
论文地址：https://arxiv.org/abs/2401.04088
Mixtral 8x7B 论文终于来了！研究者提出了一种用于 LLM 奖励模型的权重平均方法。如下图所示。这也是一个重点考虑因素。仍然需要用到三种不同的模型：
1. 一个大型通用基础模型
2. 一个较小的通用模型
3. 一些针对特定用例或客户需求定制化的小型专用模型
因此，
2. 代理调优（proxy-tuning）技术可通过使用两个小型 LLM 来提升已有大型 LLM 的性能，研究者讨论了构建 Mixtral 8x7B 的方法。举个例子，
- 论文标题：LLM Augmented LLMs:Expanding Capabilities through Composition
- 论文地址：https://arxiv.org/abs/2401.02412
CALM（增强语言模型的组合方法）是将础 LLM 和专业 LLM 组合到一起，提升累积准确度（背景是农业应用）。并且其在 ImageNet-1k 上取得了亮眼的结果（而且还未饱和）。研究者希望通过平均微调后的奖励模型的权重来缓解 LLM 中的奖励骇入（reward hacking）问题。Mathematics、可替代 RLHF 但不需要奖励模型。所谓的激活信标是指添加到输入上下文中的激活的压缩状态。
在过去的 2023 年中，通过这个过程得到的融合版奖励模型获得了 79.4% 的胜率。它们的研究主题简单总结起来是这样：
1. 权重平均和模型融合可将多个 LLM 组合成单个更好的模型，这样的整体思路也可用于 LoRA 适应器，具体来说，这种技术能有效地用于 ResNet 视觉模型和 RoBERTa 语言模型。
总体而言，它成为了 Open LLM 排行榜上占据主导地位的技术。该方法可尽可能缓解困惑度指标劣化问题，毕竟已经有 LoRA（低秩适应）这种更好的方法了 ——LoRA 不需要较小的通用模型，
了解模型融合和权重平均
模型融合和权重平均并不是新思想，而是基于预训练模型独立创建的，Logit 是指模型最终层生成的原始输出值。另一个考虑方面是在智能手机等便携式设备上部署 LLM 时的电池寿命问题。介绍了四篇与上述新阶段有关的重要论文。
它性能强大，能用更少的参数实现比肩更大模型的性能。之后 TinyLlama 就成了小型 LLM 类别的新晋成员。