【必一運(yùn)動(dòng)bsport體育科技消息】必一運(yùn)動(dòng)bsport體育從外媒獲悉,蘋(píng)果與俄亥俄州立大學(xué)的研究團(tuán)隊(duì)近日發(fā)布了一項(xiàng)突破性研究,提出了一種名為“Fer:破高膙轔?f然揩襮嫛蟿F鳩5pep=k?確矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鵒黮}劷:q{|?e ?%坖D覑眤丬鯇M(纈s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫-Step Discrete Flor:破高膙轔?f然揩襮嫛蟿F鳩5pep=k?確矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鵒黮}劷:q{|?e ?%坖D覑眤丬鯇M(纈s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫-Matching(FS-DFM)”的新型語(yǔ)言模型。該模型基于擴(kuò)散模型(diffusion model)的改進(jìn)架構(gòu),能夠以極快的速度生成高質(zhì)量長(zhǎng)文本,速度最高可達(dá)傳統(tǒng)自回歸模型(如ChatGPT)的128倍。

與傳統(tǒng)自回歸模型逐詞生成文本的方式不同,F(xiàn)S-DFM通過(guò)并行生成多個(gè)詞元(token)并在少量迭代步驟中逐步優(yōu)化文本,最終實(shí)現(xiàn)完整輸出。研究顯示,F(xiàn)S-DFM僅需8輪迭代即可生成與需上千步迭代的擴(kuò)散模型相媲美的長(zhǎng)文本內(nèi)容。
據(jù)悉,為實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)采用了三重技術(shù)策略:首先訓(xùn)練模型適應(yīng)不同迭代步數(shù)的計(jì)算預(yù)算;其次引入“教師”模型引導(dǎo)迭代過(guò)程,確保每次更新更準(zhǔn)確且避免過(guò)度修正;最后優(yōu)化迭代機(jī)制,以更少、更穩(wěn)定的步驟達(dá)成最終結(jié)果。

在性能評(píng)估中,F(xiàn)S-DFM在困惑度(perplexity)和熵(entropy)兩項(xiàng)關(guān)鍵指標(biāo)上表現(xiàn)優(yōu)異。與70億參數(shù)的Dream擴(kuò)散模型及80億參數(shù)的LLaDA擴(kuò)散模型相比,參數(shù)規(guī)模僅17億、13億甚至1.7億的FS-DFM變體均實(shí)現(xiàn)了更低的困惑度(表明文本更自然準(zhǔn)確)和更穩(wěn)定的熵值(避免文本重復(fù)或混亂)。

研究團(tuán)隊(duì)表示,由于該方法展現(xiàn)出顯著潛力且目前缺乏類(lèi)似公開(kāi)模型,他們將發(fā)布代碼和模型檢查點(diǎn)以促進(jìn)學(xué)術(shù)復(fù)現(xiàn)與進(jìn)一步探索。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-必一運(yùn)動(dòng)bsport體育提交信息后,業(yè)務(wù)人員將盡快與您聯(lián)系
Copyright ? 2024 必一運(yùn)動(dòng)(B-Sports)官網(wǎng)登錄智慧城市滬ICP備06053922號(hào)-1
首頁(yè)
必一運(yùn)動(dòng)(B-Sports)
用微信掃一掃,關(guān)注我們?nèi)〉寐?lián)系