快手-W早盘涨超3% 发布全新大模子老师门径SRPO并告示开源

热门栏目自选股数据中心行情中心资金流向模拟交游客户端

　　快手-W（01024）早盘飞腾3.47%，现报52.20港元，成交额7.68亿港元。

　　4月23日，快手Kwaipilot团队发布全新大模子老师门径SRPO并告示开源。该门径仅用 GRPO 1/10的老师本钱，在数学与代码双限制基准测试中完了性能冲破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专科限制同期复现DeepSeek-R1-Zero 的门径。

　　快手 Kwaipilot 团队在最新究诘后果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中建议了一种革命的强化学习框架 —— 两阶段历史重采样战略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同期在数学和代码两个限制复现 DeepSeek-R1-Zero 性能的门径。

　　通过使用与 DeepSeek 疏浚的基础模子（Qwen2.5-32B）和地谈的强化学习老师，SRPO得手在AIME24和LiveCodeBench基准测试中获取了优异收货（AIME24 = 50、LiveCodeBench = 41.6），罕见了DeepSeek-R1-Zero-32B 的发达。更值得夺办法是，SRPO 仅需 R1-Zero 罕见之一的老师步数就达到了这一水平。

海量资讯、精确解读，尽在新浪财经APP

拖累裁剪：卢昱君

让建站和SEO变得简单

快手-W早盘涨超3% 发布全新大模子老师门径SRPO并告示开源