上海交大揭秘：Llama与Qwen的差异与OctoThinker

tech
2025年7月3日

大型语言模型（LLM）的快速崛起正在重新定义人工智能的边界，从简单的文本生成到复杂的逻辑推理，LLM 的能力不断进化，应用场景也呈现出爆炸式增长。然而，要真正释放 LLM 的全部潜力，使其具备更高级的智能行为，就需要将其与强化学习（RL）有效结合。这意味着，LLM 不仅仅是被动地生成内容，而是能够主动学习、适应环境，并做出最优决策。然而，不同 LLM 在与 RL 结合时表现出的兼容性差异，成为了当前研究的一个重要课题。

LLM 架构差异对强化学习的影响

上海交通大学的研究团队针对这一问题进行了深入的探索，他们聚焦于两个备受瞩目的开源 LLM——Llama 和 Qwen，分析了它们在与 RL 结合时的兼容性差异，并在此基础上提出了一种名为 OctoThinker 的框架，旨在提升 LLM 与 RL 的协同效应。这项研究的重要性在于，它不仅揭示了 LLM 架构设计对强化学习的影响，也为未来的 LLM 与 RL 融合提供了新的思路和方法。

Llama 和 Qwen 作为当前开源社区中极具影响力的 LLM，都拥有着大量的用户和开发者。Llama 系列模型，由 Meta 公司发布，以其相对较小的参数量和出色的性能而著称。它的成功很大程度上归功于其独特的技术特点，例如，Llama 采用了预归一化（Pre-normalization）技术，这有助于稳定训练过程，提高模型的收敛速度。此外，Llama 还使用了旋转位置嵌入（RoPE），这使得模型能够更好地处理长文本，并捕捉文本中不同位置之间的关系。

相比之下，Qwen 系列模型，由阿里巴巴公司发布，则在模型规模和训练数据方面进行了大规模的扩展。Qwen 拥有更大的参数量，这意味着它能够学习到更复杂的模式和关系。同时，Qwen 也接受了海量数据的训练，这使得它能够更好地理解自然语言，并生成更流畅、更自然的文本。在架构方面，Qwen 也采用了不同的注意力机制和激活函数，这些差异使得 Qwen 在某些任务上表现出优于 Llama 的性能。

然而，正是这些架构上的差异，也导致了 Llama 和 Qwen 在与 RL 结合时表现出不同的兼容性。研究表明，Llama 在直接应用传统的 RL 算法时，往往表现出训练不稳定、奖励信号利用率低等问题。这主要是因为 Llama 的内部状态表示与 RL 算法所期望的状态空间存在较大差距。换句话说，Llama 的内部状态可能不够清晰和明确，导致 RL 算法难以准确地评估 LLM 的行为，并提供有效的反馈。例如，Llama 的 token embedding 和隐藏状态在语义上可能不够连贯，使得 RL 算法难以理解 LLM 的意图，并做出相应的调整。

相比之下，Qwen 在与 RL 结合时表现出更好的稳定性。这可能得益于 Qwen 更大的模型规模和更丰富的训练数据，使其能够学习到更具表达力的内部状态表示。更大的模型规模意味着 Qwen 能够捕捉到更多的信息，而更丰富的训练数据则使得 Qwen 能够更好地泛化到不同的任务和场景。此外，Qwen 的注意力机制和激活函数可能更适合于 RL 算法的优化过程，从而更容易地实现有效的强化学习。然而，即使是 Qwen，在与 RL 结合时仍然存在一些挑战，例如训练效率较低、奖励塑造困难等。这意味着，即使是性能优异的 LLM，也需要在与 RL 结合时进行专门的优化和调整。

OctoThinker 框架的核心机制

为了解决 Llama 与 RL 结合的兼容性问题，并进一步提升 LLM 与 RL 的协同效应，上海交通大学的研究团队推出了 OctoThinker 框架。OctoThinker 的核心思想是引入多视角反馈和动态奖励塑造机制，从而更好地引导 LLM 的学习过程。

多视角反馈是指从多个不同的角度对 LLM 的行为进行评估，例如从准确性、流畅性、逻辑性等多个维度进行评分。通过综合考虑这些不同的反馈信号，可以更全面地了解 LLM 的优缺点，并为 RL 算法提供更准确的奖励信号。OctoThinker 采用了多种反馈机制，包括人工反馈、基于规则的反馈和基于模型的反馈，从而实现了多视角的评估。例如，在评估 LLM 生成的文本时，OctoThinker 可以同时考虑文本的语法正确性、语义完整性和逻辑连贯性，从而给出一个更全面的评价。

动态奖励塑造是指根据 LLM 的学习进度和表现，动态地调整奖励函数的参数。在学习初期，可以给予 LLM 更宽松的奖励标准，鼓励其进行探索；随着 LLM 的学习深入，可以逐渐提高奖励标准，引导其朝着更优的目标前进。OctoThinker 采用了基于课程学习（Curriculum Learning）的动态奖励塑造策略，根据任务的难度和 LLM 的掌握程度，逐步增加任务的复杂性，从而有效地提升了学习效率。例如，在训练 LLM 进行数学问题求解时，OctoThinker 可以先从简单的加减法开始，然后逐步过渡到更复杂的乘除法和代数问题，从而让 LLM 能够循序渐进地掌握相关技能。

研究团队在多个复杂的推理任务上对 OctoThinker 进行了实验验证，结果表明，OctoThinker 能够显著提升 Llama 与 RL 的协同效应。在数学问题求解、逻辑推理和代码生成等任务上，OctoThinker 都取得了比传统 RL 算法更好的性能。例如，在 GSM8K 数学问题求解数据集上，OctoThinker 将 Llama 的准确率提升了 15 个百分点。这充分证明了 OctoThinker 的有效性和优越性。

未来展望

OctoThinker 的成功表明，通过巧妙地设计反馈机制和奖励函数，可以有效地解决 LLM 与 RL 结合的兼容性问题，并充分发挥 LLM 的潜力。然而，OctoThinker 仍然存在一些局限性，例如对人工反馈的依赖程度较高、奖励塑造策略的设计需要一定的经验等。这意味着，OctoThinker 仍然有很大的改进空间。

未来，研究团队将继续探索更有效的反馈机制和奖励塑造策略，例如利用无监督学习方法自动生成奖励信号、采用更先进的强化学习算法等。此外，还将研究如何将 OctoThinker 应用于更广泛的 LLM 和任务，例如对话系统、机器人控制等。随着 LLM 和 RL 技术的不断发展，我们有理由相信，未来的 AI 系统将能够更好地理解人类意图、解决复杂问题，并为人类社会带来更大的价值。OctoThinker 的出现，无疑为这一愿景迈出了重要的一步，它为我们展示了 LLM 与 RL 融合的巨大潜力，也为未来的研究方向提供了新的启示。

上海交大揭秘：Llama与Qwen的差异与OctoThinker

发表评论