
在强化学习日益成为大模子性能打破时弊的配景下,腾讯优图建议了一种“免熟谙”的GRPO步调,激发了对于本钱、效劳与改革旅途的深层权衡。本文聚焦DeepSeek-V3.2的强化战略,判辨其背后的本事逻辑与行业真谛,为AI研发者和家具司理提供一线知悉。

大模子虽强,但在专科领域发扬频频不尽如东谈见识。常见的处理决策是通过监督微调或者强化学习更新模子参数,但这背后是不菲的代价与新的局限:
算力黑洞:单次熟谙动辄消耗数万好意思元,每一次迭代都是真金白银的参预泛化窘境:通过参数微调优化的模子,频频泛化性欠安,只可胜任特定窄域任务。这导致企业不得不部署多个专用模子来肃清圆善业务需求,权臣加多了系统复杂度和惊羡本钱数据稀缺:需要浩繁高质地标注数据。针对上述挑战,腾讯优图推行室建议Training-Free GRPO步调,这种步调的中枢想想是:不修改模子参数,而是通过反复蕴蓄和迭代“提醒学问”来计划模子行径。Training-Free GRPO的建议,坚硬化学习在超大界限LLM及复杂Agent系统上的熟谙成为可能,运行了低本钱、高效劳的强化学习新时间。从此,强化学习不再是巨头的专属游戏,每个缔造者的小业务都能用得起、用得好。

论文标题:Training-Free Group Relative Policy Optimization
论文研究:https://arxiv.org/pdf/2510.08191
技俩主页:GitHub – TencentCloudADP/youtu-agent at training_free_GRPO
01 步调如图2所示,传统GRPO需要更新模子参数,而Training-Free GRPO冻结了模子参数,通过多轮强化学习不断更新优化提醒库,在推理时注入学习到的提醒学问,罢了了零参数更新的强化学习成果。
第一步:多旅途探索(Rollout)
如图3左侧所示,对于每个问题,模子会生成多个不同的解答旅途。就像让学生用不同步休养吞并皆题,大致不雅察多样可能的解题想路。比如在数学题中,有的旅途可能采用复杂的坐标几何法,有的可能发现更神秘的几何性质法。这种多旅途探索匡助咱们发现最优战略。
第二步:强化学习奖励(Reward)
奖励只需提供少许样本过甚参考谜底,提供一个优化的场合即可。每个生成的解答都会获取一个客不雅评分。这个评分不错是:(1)与标准谜底的匹配度;(2)代码实施限度的正确性;(3)网页搜索任务的告捷率。
第三步:语义上风索要(Group Advantage)
如图3右侧所示,模子会自我反想:比较吞并组内的不同解答,回归出:“为什么A步调得分高?B步调那处出错了?”。比如在案例中,模子发现:
告捷旅途:正确设定坐标场合,系统化考据总共条款失败旅途:场合设定失实,贫寒圆善性检讨这种语义层面的知悉比单纯的数值评分更有计划真谛。
第四步:提醒库优化(Optimization)
基于索要出的语义上风,模子会动态更新提醒学问库:
新增提醒:添加被考据有用的解题战略修正提醒:完善现存计划原则删除提醒:淘汰被讲明无效的步调总共这个词历程就像一位学生在不断更新学习札记,蕴蓄千里淀学到的提醒
02 评估在数学推理上,仅用100个熟谙样本,虚耗约8-18好意思元,就能在依然弥散巨大的671B模子上陆续进步性能。如表1所示,不管是否罗致代码器具(CI,code interpreter)匡助解题,在AIME榜单上的Mean@32有计划都能罢了进步。
熟谙仅需要三个轮次,图4左侧子图中熟谙集Reward有计划(橙色)和样本外AIME榜单上Mean@32有计划(绿色和蓝色)都在稳步进步。右侧子图展现了熟谙中庸样本外的平均器具调用次数均有所减少。这标明Training-Free GRPO 不仅大致饱读舞正确的推理和行径,还能训导智能体找捷径,更高效理智地使用器具。
表4所示的网页搜索场景中,Training-Free GRPO通常无需更新模子参数,即可在DeepSeek-V3.1-Terminus强悍水平之上,罢了了4.6%的Pass@1权臣进步。
与传统强化学习(RL)步调比较,Training-Free GRPO罢了了熟谙本钱的数目级镌汰:
传统RL熟谙:约10,000好意思元(熟谙32B模子如Retool,400个step需要2万A100卡时)Training-Free GRPO:约8~18好意思元(优化DeepSeek-V3.1或V3.2的671B模子)同期,对于大多数非密集调用型的内容欺诈,有意准备GPU提供熟谙好的32B模子推理劳动也带来一定的固定本钱。而Training-Free GRPO不管熟谙和推理都仅需API,随用随付!
这种步调相称相宜:开yun体育官网入口登录app开云体育
长尾细分场景适配:有一订价值,但无法撑捏大界限熟谙和部署快速迭代场景:需要往往更新的大模子欺诈预算有限团队:个东谈主缔造者,中小企业和研究机构