當前位置：首頁 > 科技 > 知識百科

用自洽性提升大模型推理能力，谷歌解答基準中75%數學問題，比GPT-3提升20%

來源：責編：時間：2023-08-07 16:30:09 332觀看

導讀盡管語言模型在一系列 NLP 任務中取得了顯著的成功，但它們的推理能力往往不足，僅靠擴大模型規模不能解決這個問題。基于此，Wei et al. (2022) 提出了思維提示鏈（chain of though

盡管語言模型在一系列 NLP 任務中取得了顯著的成功，但它們的推理能力往往不足，僅靠擴大模型規模不能解決這個問題。基于此，Wei et al. (2022) 提出了思維提示鏈（chain of thought prompting），提示語言模型生成一系列短句，這些短句模仿一個人在解決推理任務時可能采用的推理過程。

現在來自 Google Research 的研究者們提出了一種稱為「自洽性（self-consistency）」的簡單策略，它顯著提高了大型語言模型的推理準確率。

論文地址：https://arxiv.org/pdf/2203.11171.pdf

該論文的作者之一、Google Brain 的創始成員 Quoc Le 今天在推特上發文表示：這種自洽方法能夠解決 GSM8K 基準中 75% 的數學問題，大幅超越現有方法。

圖源：https://twitter.com/quocleix/status/1513632492124663808

簡單來說，復雜的推理任務通常有多個能得到正確答案的推理路徑，自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑，然后返回其中最自洽的答案。

該方法在一系列算術和常識推理基準上評估自洽性，可以穩健地提高各種語言模型的準確性，而無需額外的訓練或輔助模型。當與最近的大型語言模型 PaLM-540B 結合使用時，自洽方法將多個基準推理任務的性能提高到 SOTA 水平。

該方法是完全無監督的，預訓練語言模型直接可用，不需要額外的人工注釋，也不需要任何額外的訓練、輔助模型或微調。

該研究在三種大型語言模型上評估一系列算術推理和常識推理任務的自洽性，包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發現，對于這幾種規模不同的語言模型，自洽方法都能顯著提高其推理能力。與通過貪心解碼（Wei et al., 2022）生成單一思維鏈相比，自洽方法有助于在所有推理任務中顯著提高準確性，如下圖 2 所示。

多樣化推理路徑上的自洽

人類的一個突出特征是思維方式不同。人們會很自然地假設，在需要深思熟慮的任務中，可能有幾種解決方法，所有這些方法都會得出相同的正確答案。因此，研究者建議可以通過從語言模型解碼器采樣以在語言模型中模擬這一過程。

如下表 1 所示，一個模型可以為一個數學問題生成多個可能的回答，這些回答最終得出相同的正確答案（如輸出 2、4 和 5）。由于語言模型不是完美的推理器，模型也可能產生錯誤的推理路徑或者在某一個推理步驟中出錯（例如輸出 1 和 3 中），這種解決方案不太可能得出相同的答案（表 1 中的 26 和 14）。

也就是說，當假設推理過程正確，即使它們是多樣化的，在最終答案中往往比不正確的推理過程具有更高的一致性。

研究者提出通過一種自洽（self-consistency）方法來利用這種直覺。具體步驟如下：

首先，使用一組手動編寫的思維鏈示例對語言模型進行提示；接著，從語言模型的解碼器中采樣一組候選輸出，生成一組不同的候選推理路徑；最后，通過在生成的答案中選擇最自洽的答案來集成結果。

在實驗調查中，研究者發現思維鏈提示與相結合，會比單獨使用僅考慮單一生成路徑的思維鏈產生好得多的結果。

實驗結果

研究者進行了一系列實驗，以在不同的算術和常識推理基準上將提出的自洽方法與現有方法進行比較。結果發現，該方法極大地提高了每種語言模型的推理準確性，涵蓋了廣泛的模型尺度。

具體地，他們評估了不同推理路徑上的自洽性，即自洽性（多路徑）（Multipath）。結果取 10 次運行的平均值，在每次運行中獨立于解碼器對 40 個輸出進行采樣。比較的基線是貪心解碼單個思想鏈，稱為貪心解碼（Single-path），之前已被用于大型語言模型中的解碼。

算術推理結果如下表 2 所示。對于 LaMDA-137B，自洽性策略在每個任務上較貪心解碼（Single-path）均實現了顯著的性能提升，在 AddSub、ASDiv、AQuA 和 GSM8K 任務上獲得接近 10% 絕對準確率提升，在 MultiArith 和 SVAMP 任務上分別提升了 23.9% 和 14.4%。

對于更大的 PaLM540B 模型，自洽性策略顯著提升性能，在 ASDiv、AQuA、SVAMP 和 GSM8K 上實現了 7.9%、12.5%、7.6% 和 17.9% 的顯著增益。

常識推理結果如下表 3 所示。對于 LaMDA-137B 模型，自洽性策略顯著提升所有任務的準確率，其中 StrategyQA 和 CommonsenseQA 的絕對準確率提升了 2%-5%，ARC easy set 和 ARC challenge set 的絕對準確率分別提升了 4.0% 和 4.7%。

同樣地，更大的 PaLM540B 模型也實現了持續收益，StrategyQA 上提升了 6.3%，ARC-challenge 上提升了 3.5%。

下圖 3 中通過對來自解碼器的不同數量的推理路徑進行采樣，展示了自洽性與貪心解碼（Single-path）的性能比較。可以看到，采樣更多數量（如 40 個）的推理路徑始終會產生更好的性能，再次強調了在推理路徑中引入多樣性的重要性。

該研究將自洽方法和基于集成的方法進行小樣本學習來比較二者的性能。結果如下表 5 所示，與自洽方法相比，基于集成的方法獲得的增益要小得多。

另一種提高生成質量的常用方法是采樣排序（sample-and-rank），其中從解碼器中采樣多個序列，然后根據每個序列的對數概率或基于額外訓練的重排序器進行排序。

該研究使用 GPT-3 模型得到了如下圖 4 所示的結果。雖然采樣排序方法通過額外的采樣序列和排序提高了準確性，但與自洽方法相比，增益要小得多。

更多細節內容請參閱論文原文。

本文鏈接：http://m.www897cc.com/showinfo-119-2270-0.html用自洽性提升大模型推理能力，谷歌解答基準中75%數學問題，比GPT-3提升20%

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：飛機“黑匣子”數據緣何上云難？

下一篇：裁員、收縮、過冬，云計算怎么了？

標簽：

熱門焦點

對標蘋果的靈動島華為帶來實況窗功能

繼蘋果的靈動島之后，華為也在今天正式推出了“實況窗”功能。據今天鴻蒙OS 4.0的現場演示顯示，華為的實況窗可以更高效的展現出實時通知，比如鎖屏上就能看到外賣、打車、銀行
Automa-通過連接塊來自動化你的瀏覽器

1、前言通過瀏覽器插件可實現自動化腳本的錄制與編寫，具有代表性的工具就是：Selenium IDE、Katalon Recorder，對于簡單的業務來說可快速實現自動化的上手工作。Selenium IDEKat
一篇聊聊Go錯誤封裝機制

%w 是用于錯誤包裝（Error Wrapping）的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞，用于將一個錯誤（或其他可打印的值）包裝在一個新的錯誤中。使
分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS網站旨在為全球Office用戶提供豐富的高品質原創PPT模板、實用文檔、數據圖表及個性化定制服務。優點：OfficePLUS是微軟官方網站，囊括PPT模板、Word模
從零到英雄：高并發與性能優化的神奇之旅

作者 | 波哥審校 | 重樓作為公司的架構師或者程序員，你是否曾經為公司的系統在面對高并發和性能瓶頸時感到手足無措或者焦頭爛額呢？筆者在出道那會為此是吃盡了苦頭的，不過也得
信通院：小米、華為等11家應用商店基本完成APP簽名及驗簽工作

中國信通院表示，目前，小米、華為、OPPO、vivo、360手機助手、百度手機助手、應用寶、豌豆莢和努比亞等9家應用商店，以及抖音和快手2家新型應用分發平
三星Galaxy Z Fold/Flip 5國行售價曝光：最低7499元/12999元起

據官方此前宣布，三星將于7月26日也就是明天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

10月30日，據韓國媒體消息，自今年年初以來一直在上漲的 DRAM 存儲器的交易價格僅在本月就下跌了近 10％，此次是全年首次降價，而NAND 閃存本月價格與上月持平。市
微軟發布Windows 11新版引入全新任務欄狀態

近日，微軟發布了Windows 11新版，而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等，系統更流暢了。更新中，Windows 11加入了專門針對平板優化的任務欄

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

用自洽性提升大模型推理能力，谷歌解答基準中75%數學問題，比GPT-3提升20%

對標蘋果的靈動島華為帶來實況窗功能

Automa-通過連接塊來自動化你的瀏覽器

一篇聊聊Go錯誤封裝機制

分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

從零到英雄：高并發與性能優化的神奇之旅

信通院：小米、華為等11家應用商店基本完成APP簽名及驗簽工作

三星Galaxy Z Fold/Flip 5國行售價曝光：最低7499元/12999元起

DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

微軟發布Windows 11新版引入全新任務欄狀態

最新推薦

猜你喜歡

熱門推薦

相關資訊