近日,中國人民大學(xué)STILL項目團(tuán)隊聯(lián)合九章云極DataCanvas發(fā)布突破性論文《R1-Searcher: 通過強(qiáng)化學(xué)習(xí)激勵大模型的檢索能力》。該論文提出了一種全新框架R1-Searcher,旨在通過強(qiáng)化學(xué)習(xí)(RL)顯著增強(qiáng)大型語言模型(LLMs)的推理與搜索能力,解決了現(xiàn)有模型處理知識密集型問題時的不足,在多跳問答、實(shí)時信息處理等場景展現(xiàn)出顛覆性潛力。據(jù)論文公布,九章云極DataCanvas AIaya NeW智算操作系統(tǒng)支撐該R1-Searcher工程部署。
該框架開源代碼在GitHub上一經(jīng)發(fā)布,引發(fā)AI界高度關(guān)注。傳統(tǒng)大型推理模型在處理開放式任務(wù)時,尤其是涉及知識密集型問題、本地數(shù)據(jù)庫私有信息及時效性問題時,往往表現(xiàn)出力不從心。R1-Searcher框架的提出,正是為了解決這一關(guān)鍵難題——它允許大模型在推理過程中自主調(diào)用外部搜索系統(tǒng)以實(shí)現(xiàn)更審慎的推理,從而有效突破了內(nèi)部知識的局限,一舉打破大型語言模型(LLMs)“知識繭房”。
九章云極DataCanvas聯(lián)合研究團(tuán)隊公布了該框架全參數(shù)開源方案,完整開放了從模型訓(xùn)練到推理部署的全鏈路工程代碼,同步公開實(shí)踐驗(yàn)證過的技術(shù)實(shí)例,為開發(fā)者提供可直接部署的工業(yè)化級大模型訓(xùn)練框架。論文實(shí)驗(yàn)結(jié)果顯示,相比于最好的基線ReARTeR,R1-Searcher在2WikiMultiHopQA上提升了21.7%,在Bamboogle上提升了4.0%**(LLM-as-Judge)。
研究同步公開了該實(shí)驗(yàn)數(shù)據(jù)背后的工業(yè)化部署方法,其核心在于九章云極DataCanvas AIaya NeW智算操作系統(tǒng)支持的一鍵構(gòu)建?“檢索-推理-反饋”閉環(huán)系統(tǒng)?,通過將動態(tài)檢索能力深度植入大型語言模型(LLMs)的推理本能;并通過全鏈路優(yōu)化實(shí)現(xiàn)動態(tài)知識更新與實(shí)時性能調(diào)優(yōu),從根本上解決了域外/域內(nèi)數(shù)據(jù)難度分布和數(shù)據(jù)多樣性對訓(xùn)練的影響,育發(fā)“智能檢索”成為大模型的本能。
九章云極支持的R1-Searcher 框架不僅解決了大模型知識時效性問題,更通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了檢索策略的自主優(yōu)化,在經(jīng)濟(jì)層面實(shí)現(xiàn)低成本高性能。有AI技術(shù)專家認(rèn)為,該算法為垂直領(lǐng)域大模型開發(fā)提供了新范式,未來或催生更多實(shí)時智能應(yīng)用。對于AI應(yīng)用企業(yè)而言,這不僅意味著更準(zhǔn)確的搜索結(jié)果,更代表著一種企業(yè)自主可運(yùn)營的AI基礎(chǔ)設(shè)施——像“水電煤”一樣實(shí)時適配業(yè)務(wù)變化。
【免責(zé)聲明】【廣告】本文僅代表作者本人觀點(diǎn),與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評論