久久久久国色AV免费观看性色 ,色情A片直播免费观看,国产又色又爽无遮挡免费,人人妻人人澡人人爽精品日本

加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國(guó)建設(shè)成為世界科技強(qiáng)國(guó)作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國(guó)家重大需求、面向人民生命健康,率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國(guó)家創(chuàng)新人才高地,率先建成國(guó)家高水平科技智庫(kù),率先建設(shè)國(guó)際一流科研機(jī)構(gòu)。

——中國(guó)科學(xué)院辦院方針

首頁(yè) > 科研進(jìn)展

研究提出基于信息論的大模型強(qiáng)化學(xué)習(xí)微調(diào)框架

2025-10-24 軟件研究所
【字體:

語(yǔ)音播報(bào)

近日,中國(guó)科學(xué)院軟件研究所研究團(tuán)隊(duì)聚焦大語(yǔ)言模型(LLMs)在復(fù)雜推理任務(wù)中的優(yōu)化問(wèn)題,提出了基于信息論的強(qiáng)化微調(diào)框架Learning to Think(L2T),旨在平衡模型的推理效果和效率,為大語(yǔ)言模型在實(shí)際應(yīng)用中的推理優(yōu)化提供了新的技術(shù)路徑。

隨著LLMs能力提升,其應(yīng)用場(chǎng)景已從基礎(chǔ)自然語(yǔ)言處理任務(wù),擴(kuò)展到需要多步邏輯推理的復(fù)雜問(wèn)題。分析發(fā)現(xiàn),對(duì)于復(fù)雜推理任務(wù),現(xiàn)有LLMs多以推理計(jì)算的最終結(jié)果為獎(jiǎng)勵(lì)信號(hào),缺乏對(duì)中間推理步驟的及時(shí)反饋,使模型產(chǎn)生冗余計(jì)算,造成資源浪費(fèi),甚至可能降低推理效果。

針對(duì)上述問(wèn)題,L2T框架進(jìn)行了問(wèn)題重構(gòu),將推理過(guò)程建模為多回合層次化對(duì)話,同時(shí)引入基于信息論的稠密過(guò)程獎(jiǎng)勵(lì)機(jī)制。該機(jī)制通過(guò)評(píng)估每一推理回合帶來(lái)的信息增益,并采用改進(jìn)的GRPO算法策略對(duì)大語(yǔ)言模型進(jìn)行優(yōu)化,鼓勵(lì)有理推理步驟、抑制冗余生成,從而實(shí)現(xiàn)對(duì)推理路徑的精細(xì)化調(diào)控,提升推理質(zhì)量和效率。

通過(guò)AIME、AMC和HumanEval等推理基準(zhǔn)測(cè)試,L2T在不同規(guī)模的基礎(chǔ)模型如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B上,均表現(xiàn)出穩(wěn)定的性能提升。結(jié)果顯示,與基于結(jié)果獎(jiǎng)勵(lì)的方法相比,L2T在準(zhǔn)確率上提升超過(guò)3.2%,同時(shí)token效率翻倍;與基于過(guò)程獎(jiǎng)勵(lì)的基線相比,L2T在準(zhǔn)確率上仍有約2%的提升,效率提高約1.2倍。同時(shí),在多任務(wù)評(píng)估中,L2T在不同難度任務(wù)上實(shí)現(xiàn)了平均近3%的準(zhǔn)確率提升,并在不同token預(yù)算下均保持穩(wěn)定的性能優(yōu)勢(shì)。

相關(guān)論文發(fā)表在人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025上。

論文鏈接

打印 責(zé)任編輯:侯茜

掃一掃在手機(jī)打開(kāi)當(dāng)前頁(yè)

© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

  • © 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

    電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

  • © 1996 - 中國(guó)科學(xué)院 版權(quán)所有
    京ICP備05002857號(hào)-1
    京公網(wǎng)安備110402500047號(hào)
    網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
    電話:86 10 68597114(總機(jī))
       86 10 68597289(總值班室)