——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國(guó)科學(xué)院辦院方針
語(yǔ)音播報(bào)
近日,中國(guó)科學(xué)院軟件研究所研究團(tuán)隊(duì)聚焦大語(yǔ)言模型(LLMs)在復(fù)雜推理任務(wù)中的優(yōu)化問(wèn)題,提出了基于信息論的強(qiáng)化微調(diào)框架Learning to Think(L2T),旨在平衡模型的推理效果和效率,為大語(yǔ)言模型在實(shí)際應(yīng)用中的推理優(yōu)化提供了新的技術(shù)路徑。
隨著LLMs能力提升,其應(yīng)用場(chǎng)景已從基礎(chǔ)自然語(yǔ)言處理任務(wù),擴(kuò)展到需要多步邏輯推理的復(fù)雜問(wèn)題。分析發(fā)現(xiàn),對(duì)于復(fù)雜推理任務(wù),現(xiàn)有LLMs多以推理計(jì)算的最終結(jié)果為獎(jiǎng)勵(lì)信號(hào),缺乏對(duì)中間推理步驟的及時(shí)反饋,使模型產(chǎn)生冗余計(jì)算,造成資源浪費(fèi),甚至可能降低推理效果。
針對(duì)上述問(wèn)題,L2T框架進(jìn)行了問(wèn)題重構(gòu),將推理過(guò)程建模為多回合層次化對(duì)話,同時(shí)引入基于信息論的稠密過(guò)程獎(jiǎng)勵(lì)機(jī)制。該機(jī)制通過(guò)評(píng)估每一推理回合帶來(lái)的信息增益,并采用改進(jìn)的GRPO算法策略對(duì)大語(yǔ)言模型進(jìn)行優(yōu)化,鼓勵(lì)有理推理步驟、抑制冗余生成,從而實(shí)現(xiàn)對(duì)推理路徑的精細(xì)化調(diào)控,提升推理質(zhì)量和效率。
通過(guò)AIME、AMC和HumanEval等推理基準(zhǔn)測(cè)試,L2T在不同規(guī)模的基礎(chǔ)模型如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B上,均表現(xiàn)出穩(wěn)定的性能提升。結(jié)果顯示,與基于結(jié)果獎(jiǎng)勵(lì)的方法相比,L2T在準(zhǔn)確率上提升超過(guò)3.2%,同時(shí)token效率翻倍;與基于過(guò)程獎(jiǎng)勵(lì)的基線相比,L2T在準(zhǔn)確率上仍有約2%的提升,效率提高約1.2倍。同時(shí),在多任務(wù)評(píng)估中,L2T在不同難度任務(wù)上實(shí)現(xiàn)了平均近3%的準(zhǔn)確率提升,并在不同token預(yù)算下均保持穩(wěn)定的性能優(yōu)勢(shì)。
相關(guān)論文發(fā)表在人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025上。
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1
京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1
京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有
京ICP備05002857號(hào)-1
京公網(wǎng)安備110402500047號(hào)
網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話:86 10 68597114(總機(jī))
86 10 68597289(總值班室)