两个人高清视频免费观看www-两个人的视频在线免费观看-两个人的视频在线观看免费完整版-两个人的视频在线观看www免费-两个人的视频在线观看www-两个人的视频在线观看

首頁|必讀|視頻|專訪|運營|制造|監管|芯片|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|大數據|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

微軟攜手清華、北大推出獎勵推理模型:根據 AI 任務復雜性動態分配計算資源

2025年5月27日 15:36  IT之家  作 者:故淵

科技媒體 marktechpost 今天(5 月 27 日)發布博文,報道稱微軟研究院聯合清華大學、北京大學組建團隊,推出獎勵推理模型(Reward Reasoning Models,RRMs),通過顯式推理過程動態分配計算資源,提升復雜任務評估效果。

援引博文介紹,強化學習(Reinforcement Learning,RL)已成為大語言模型(LLM)后訓練的核心方法,通過人類反饋(RLHF)或可驗證獎勵(RLVR)提供監督信號。

然而,RLVR 在數學推理中雖有潛力,卻因依賴可驗證答案的訓練查詢而受限,難以應用于通用領域的大規模訓練。

此外,現有獎勵模型分為標量型和生成型兩大類,均無法有效擴展測試時的計算資源。當前方法對所有輸入統一分配計算資源,缺乏針對復雜查詢進行細致分析的能力,導致評估效果不佳。

為解決上述問題,微軟研究院、清華大學和北京大學的研究者聯手推出獎勵推理模型(RRMs)。RRMs 在給出最終獎勵前執行顯式推理過程,能夠根據任務復雜性自適應分配額外計算資源。

這種方法通過“思維鏈”(Chain-of-Thought)推理,針對獎勵不明顯的復雜查詢投入更多測試時計算資源。

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架構,將獎勵建模轉化為文本補全任務,生成推理過程后給出最終判斷。

研究團隊利用 RewardBench 庫進行系統分析,評估指標包括指令遵循性、幫助性、準確性、無害性和細節水平。RRMs 還支持多響應評估,通過 ELO 評分系統和淘汰賽機制,結合多數投票提升計算資源利用率。

測試結果顯示,RRMs 在 RewardBench 和 PandaLM Test 基準測試中表現突出。其中,RRM-32B 在推理類別中達到 98.6% 的準確率,與使用相同數據訓練的 DirectJudge 模型相比,RRMs 展現出顯著性能差距,證明其在復雜查詢中有效利用測試時計算資源。

在獎勵引導的最佳 N 推理(Best-of-N Inference)和后訓練反饋中,RRMs 超越所有基線模型,且進一步提升多數投票機制效率。

研究還表明,隨著模型規模從 7B、14B 到 32B 擴展,更長的推理時間始終帶來準確性提升。RRMs 通過并行和順序擴展方法高效利用計算資源,為傳統標量獎勵模型提供強大替代方案。

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
中興通訊首席發展官崔麗:數智賦能 共拓中拉合作新路徑
精彩視頻
2025工業互聯網大會 | 深化賦能 工業互聯網產業成果發布
2025工業互聯網大會 | 六大重要成果發布 產業變革再添“強引擎”
工業互聯網發展也太給力了!走,看看到底怎么回事?
中國信通院趙爽:加快工業互聯網安全體系建設 護航新型工業化行穩致遠
精彩專題
2025工業互聯網大會
2025世界電信和信息社會日大會
第八屆數字中國建設峰會
通信產業2024年業績盤點
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 满溢游泳池免费土豪全集下拉版 | 18美女光胸光屁屁洗澡 | ffee性xxⅹ另类老妇hd | 亚洲嫩模吧粉嫩粉嫩冒白浆 | 亚洲美洲国产日产 | 国产一区二区精品久久 | 韩国日本香港毛片免费 | 青草视频网站在线观看 | www.大逼色| 高h辣文小说网 烧书阁 | 午夜理伦片免费 | 晚上禁用的十大黄台视频 | 91精品久久 | 亚洲第一成年免费网站 | 波多野结衣xxxx性精品 | 色花堂中文字幕98堂网址 | 久久偷拍国2017 | 亚欧视频在线观看 | 美艳教师刘艳第三部166 | 91精品国产亚一区二区三区 | 关晓彤被调教出奶水 | 成人资源在线观看 | 五月天狠狠 | 成人18视频在线观看 | 蜜汁肉桃全文免费阅读 | 亚洲狠狠婷婷综合久久久久网站 | 毛片亚洲毛片亚洲毛片 | 美女的隐私无遮挡的网页 | 欧美国产日韩1区俺去了 | a级在线看 | 大东北chinesexxxx露脸 | 国产成人精品免费久久久久 | 91精品国产亚一区二区三区 | 爱福利视频一区 | 狠狠综合久久综合网站 | 国产精品猎奇系列在线观看 | 日韩欧美国产免费看清风阁 | 涩涩屋在线观看 | 精品国产成人高清在线 | 欧美一级在线全免费 | 狠狠色婷婷丁香六月 |