色婷婷综合中文久久一本,无码人妻av一区二区三区波多野 ,欧美午夜精品久久久久久浪潮

久久久久国色AV免费观看性色 ,色情A片直播免费观看,国产又色又爽无遮挡免费,人人妻人人澡人人爽精品日本

加快打造原始創(chuàng)新策源地，加快突破關(guān)鍵核心技術(shù)，努力搶占科技制高點(diǎn)，為把我國(guó)建設(shè)成為世界科技強(qiáng)國(guó)作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國(guó)家重大需求、面向人民生命健康，率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展，率先建成國(guó)家創(chuàng)新人才高地，率先建成國(guó)家高水平科技智庫(kù)，率先建設(shè)國(guó)際一流科研機(jī)構(gòu)。

——中國(guó)科學(xué)院辦院方針

首頁(yè) > 科研進(jìn)展

研究提出基于信息論的大模型強(qiáng)化學(xué)習(xí)微調(diào)框架

2025-10-24 軟件研究所

【字體：大中小】

語(yǔ)音播報(bào)

隨著LLMs能力提升，其應(yīng)用場(chǎng)景已從基礎(chǔ)自然語(yǔ)言處理任務(wù)，擴(kuò)展到需要多步邏輯推理的復(fù)雜問(wèn)題。分析發(fā)現(xiàn)，對(duì)于復(fù)雜推理任務(wù)，現(xiàn)有LLMs多以推理計(jì)算的最終結(jié)果為獎(jiǎng)勵(lì)信號(hào)，缺乏對(duì)中間推理步驟的及時(shí)反饋，使模型產(chǎn)生冗余計(jì)算，造成資源浪費(fèi)，甚至可能降低推理效果。

針對(duì)上述問(wèn)題，L2T框架進(jìn)行了問(wèn)題重構(gòu)，將推理過(guò)程建模為多回合層次化對(duì)話，同時(shí)引入基于信息論的稠密過(guò)程獎(jiǎng)勵(lì)機(jī)制。該機(jī)制通過(guò)評(píng)估每一推理回合帶來(lái)的信息增益，并采用改進(jìn)的GRPO算法策略對(duì)大語(yǔ)言模型進(jìn)行優(yōu)化，鼓勵(lì)有理推理步驟、抑制冗余生成，從而實(shí)現(xiàn)對(duì)推理路徑的精細(xì)化調(diào)控，提升推理質(zhì)量和效率。

通過(guò)AIME、AMC和HumanEval等推理基準(zhǔn)測(cè)試，L2T在不同規(guī)模的基礎(chǔ)模型如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B上，均表現(xiàn)出穩(wěn)定的性能提升。結(jié)果顯示，與基于結(jié)果獎(jiǎng)勵(lì)的方法相比，L2T在準(zhǔn)確率上提升超過(guò)3.2%，同時(shí)token效率翻倍；與基于過(guò)程獎(jiǎng)勵(lì)的基線相比，L2T在準(zhǔn)確率上仍有約2%的提升，效率提高約1.2倍。同時(shí)，在多任務(wù)評(píng)估中，L2T在不同難度任務(wù)上實(shí)現(xiàn)了平均近3%的準(zhǔn)確率提升，并在不同token預(yù)算下均保持穩(wěn)定的性能優(yōu)勢(shì)。

相關(guān)論文發(fā)表在人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025上。

論文鏈接

近日，中國(guó)科學(xué)院軟件研究所研究團(tuán)隊(duì)聚焦大語(yǔ)言模型（LLMs）在復(fù)雜推理任務(wù)中的優(yōu)化問(wèn)題，提出了基于信息論的強(qiáng)化微調(diào)框架Learning to Think（L2T），旨在平衡模型的推理效果和效率，為大語(yǔ)言模型在實(shí)際應(yīng)用中的推理優(yōu)化提供了新的技術(shù)路徑。隨著LLMs能力提升，其應(yīng)用場(chǎng)景已從基礎(chǔ)自然語(yǔ)言處理任務(wù)，擴(kuò)展到需要多步邏輯推理的復(fù)雜問(wèn)題。分析發(fā)現(xiàn)，對(duì)于復(fù)雜推理任務(wù)，現(xiàn)有LLMs多以推理計(jì)算的最終結(jié)果為獎(jiǎng)勵(lì)信號(hào)，缺乏對(duì)中間推理步驟的及時(shí)反饋，使模型產(chǎn)生冗余計(jì)算，造成資源浪費(fèi)，甚至可能降低推理效果。針對(duì)上述問(wèn)題，L2T框架進(jìn)行了問(wèn)題重構(gòu)，將推理過(guò)程建模為多回合層次化對(duì)話，同時(shí)引入基于信息論的稠密過(guò)程獎(jiǎng)勵(lì)機(jī)制。該機(jī)制通過(guò)評(píng)估每一推理回合帶來(lái)的信息增益，并采用改進(jìn)的GRPO算法策略對(duì)大語(yǔ)言模型進(jìn)行優(yōu)化，鼓勵(lì)有理推理步驟、抑制冗余生成，從而實(shí)現(xiàn)對(duì)推理路徑的精細(xì)化調(diào)控，提升推理質(zhì)量和效率。通過(guò)AIME、AMC和HumanEval等推理基準(zhǔn)測(cè)試，L2T在不同規(guī)模的基礎(chǔ)模型如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B上，均表現(xiàn)出穩(wěn)定的性能提升。結(jié)果顯示，與基于結(jié)果獎(jiǎng)勵(lì)的方法相比，L2T在準(zhǔn)確率上提升超過(guò)3.2%，同時(shí)token效率翻倍；與基于過(guò)程獎(jiǎng)勵(lì)的基線相比，L2T在準(zhǔn)確率上仍有約2%的提升，效率提高約1.2倍。同時(shí)，在多任務(wù)評(píng)估中，L2T在不同難度任務(wù)上實(shí)現(xiàn)了平均近3%的準(zhǔn)確率提升，并在不同token預(yù)算下均保持穩(wěn)定的性能優(yōu)勢(shì)。相關(guān)論文發(fā)表在人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025上。論文鏈接

打印