日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 知識百科

用自洽性提升大模型推理能力,谷歌解答基準中75%數學問題,比GPT-3提升20%

來源: 責編: 時間:2023-08-07 16:30:09 332觀看
導讀 盡管語言模型在一系列 NLP 任務中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴大模型規模不能解決這個問題。基于此,Wei et al. (2022) 提出了思維提示鏈(chain of though

盡管語言模型在一系列 NLP 任務中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴大模型規模不能解決這個問題。基于此,Wei et al. (2022) 提出了思維提示鏈(chain of thought prompting),提示語言模型生成一系列短句,這些短句模仿一個人在解決推理任務時可能采用的推理過程。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

現在來自 Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡單策略,它顯著提高了大型語言模型的推理準確率。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/pdf/2203.11171.pdfm4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

該論文的作者之一、Google Brain 的創始成員 Quoc Le 今天在推特上發文表示:這種自洽方法能夠解決 GSM8K 基準中 75% 的數學問題,大幅超越現有方法。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

圖源:https://twitter.com/quocleix/status/1513632492124663808m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

簡單來說,復雜的推理任務通常有多個能得到正確答案的推理路徑,自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

該方法在一系列算術和常識推理基準上評估自洽性,可以穩健地提高各種語言模型的準確性,而無需額外的訓練或輔助模型。當與最近的大型語言模型 PaLM-540B 結合使用時,自洽方法將多個基準推理任務的性能提高到 SOTA 水平。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

該方法是完全無監督的,預訓練語言模型直接可用,不需要額外的人工注釋,也不需要任何額外的訓練、輔助模型或微調。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

該研究在三種大型語言模型上評估一系列算術推理和常識推理任務的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發現,對于這幾種規模不同的語言模型,自洽方法都能顯著提高其推理能力。與通過貪心解碼(Wei et al., 2022)生成單一思維鏈相比,自洽方法有助于在所有推理任務中顯著提高準確性,如下圖 2 所示。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

多樣化推理路徑上的自洽m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

人類的一個突出特征是思維方式不同。人們會很自然地假設,在需要深思熟慮的任務中,可能有幾種解決方法,所有這些方法都會得出相同的正確答案。因此,研究者建議可以通過從語言模型解碼器采樣以在語言模型中模擬這一過程。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

如下表 1 所示,一個模型可以為一個數學問題生成多個可能的回答,這些回答最終得出相同的正確答案(如輸出 2、4 和 5)。由于語言模型不是完美的推理器,模型也可能產生錯誤的推理路徑或者在某一個推理步驟中出錯(例如輸出 1 和 3 中),這種解決方案不太可能得出相同的答案( 表 1 中的 26 和 14)。 m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

也就是說,當假設推理過程正確,即使它們是多樣化的,在最終答案中往往比不正確的推理過程具有更高的一致性。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

研究者提出通過一種自洽(self-consistency)方法來利用這種直覺。具體步驟如下:m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

首先,使用一組手動編寫的思維鏈示例對語言模型進行提示;接著,從語言模型的解碼器中采樣一組候選輸出,生成一組不同的候選推理路徑;最后,通過在生成的答案中選擇最自洽的答案來集成結果。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

在實驗調查中,研究者發現思維鏈提示與相結合,會比單獨使用僅考慮單一生成路徑的思維鏈產生好得多的結果。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

實驗結果m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

研究者進行了一系列實驗,以在不同的算術和常識推理基準上將提出的自洽方法與現有方法進行比較。結果發現,該方法極大地提高了每種語言模型的推理準確性,涵蓋了廣泛的模型尺度。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

具體地,他們評估了不同推理路徑上的自洽性,即自洽性(多路徑)(Multipath)。結果取 10 次運行的平均值,在每次運行中獨立于解碼器對 40 個輸出進行采樣。比較的基線是貪心解碼單個思想鏈,稱為貪心解碼(Single-path),之前已被用于大型語言模型中的解碼。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

算術推理結果如下表 2 所示。對于 LaMDA-137B,自洽性策略在每個任務上較貪心解碼(Single-path)均實現了顯著的性能提升,在 AddSub、ASDiv、AQuA 和 GSM8K 任務上獲得接近 10% 絕對準確率提升,在 MultiArith 和 SVAMP 任務上分別提升了 23.9% 和 14.4%。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

對于更大的 PaLM540B 模型,自洽性策略顯著提升性能,在 ASDiv、AQuA、SVAMP 和 GSM8K 上實現了 7.9%、12.5%、7.6% 和 17.9% 的顯著增益。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

常識推理結果如下表 3 所示。對于 LaMDA-137B 模型,自洽性策略顯著提升所有任務的準確率,其中 StrategyQA 和 CommonsenseQA 的絕對準確率提升了 2%-5%,ARC easy set 和 ARC challenge set 的絕對準確率分別提升了 4.0% 和 4.7%。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

同樣地,更大的 PaLM540B 模型也實現了持續收益,StrategyQA 上提升了 6.3%,ARC-challenge 上提升了 3.5%。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

下圖 3 中通過對來自解碼器的不同數量的推理路徑進行采樣,展示了自洽性與貪心解碼(Single-path)的性能比較。可以看到,采樣更多數量(如 40 個)的推理路徑始終會產生更好的性能,再次強調了在推理路徑中引入多樣性的重要性。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

該研究將自洽方法和基于集成的方法進行小樣本學習來比較二者的性能。結果如下表 5 所示,與自洽方法相比,基于集成的方法獲得的增益要小得多。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

另一種提高生成質量的常用方法是采樣排序(sample-and-rank),其中從解碼器中采樣多個序列,然后根據每個序列的對數概率或基于額外訓練的重排序器進行排序。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

該研究使用 GPT-3 模型得到了如下圖 4 所示的結果。雖然采樣排序方法通過額外的采樣序列和排序提高了準確性,但與自洽方法相比,增益要小得多。m4628資訊網——每日最新資訊28at.com

 m4628資訊網——每日最新資訊28at.com

m4628資訊網——每日最新資訊28at.com

更多細節內容請參閱論文原文。m4628資訊網——每日最新資訊28at.com

本文鏈接:http://m.www897cc.com/showinfo-119-2270-0.html用自洽性提升大模型推理能力,谷歌解答基準中75%數學問題,比GPT-3提升20%

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 飛機“黑匣子”數據緣何上云難?

下一篇: 裁員、收縮、過冬,云計算怎么了?

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
在线观看av一区| 日韩视频一区二区三区在线播放| 国产精品www.| 国产精品视频一区二区三区 | 欧美三级电影一区| 亚洲一区免费在线观看| 亚洲一级电影| 久久精品噜噜噜成人av农村| 亚洲淫性视频| 久久久久综合网| 欧美大尺度在线| 国产精品免费区二区三区观看| 国产一区二区电影在线观看 | 伊人春色精品| 在线视频亚洲欧美| 久久黄金**| 欧美久色视频| 欧美国产精品劲爆| 久久人体大胆视频| 欧美日韩一区在线观看| 国内精品久久久久影院 日本资源| 国产精品欧美激情| 尤妮丝一区二区裸体视频| 在线视频你懂得一区| 久久久伊人欧美| 国产精品黄色在线观看| 激情小说亚洲一区| 亚洲一区久久久| 欧美不卡激情三级在线观看| 国产精品一区一区三区| 亚洲精品免费一二三区| 欧美一区深夜视频| 欧美日韩亚洲一区二区三区在线 | 99re成人精品视频| 久久久久久999| 国产精品看片资源| 国产精品美女一区二区| 亚洲国产视频一区| 99国产精品久久久久久久| 久久福利毛片| 欧美视频福利| 亚洲精品乱码久久久久久蜜桃麻豆 | 曰韩精品一区二区| 午夜日韩视频| 久久国产色av| 欧美午夜激情视频| 亚洲人线精品午夜| 久久一区亚洲| 国产亚洲欧美激情| 亚洲午夜影视影院在线观看| 欧美成人首页| 精品成人乱色一区二区| 性8sex亚洲区入口| 欧美午夜www高清视频| 亚洲日本中文字幕区| 久久久久se| 国产日韩欧美综合一区| 亚洲午夜在线观看| 欧美日韩在线视频一区| 亚洲激情第一页| 久久综合狠狠综合久久激情| 国产区精品在线观看| 亚洲一区二区动漫| 欧美日韩亚洲综合一区| 亚洲精美视频| 欧美.www| 亚洲国产日韩欧美在线99| 久久视频这里只有精品| 国产在线观看一区| 久久av一区二区三区| 免费欧美在线视频| 伊人色综合久久天天五月婷| 久久精品视频亚洲| 国产视频不卡| 欧美一级片一区| 国产精品永久免费在线| 最近中文字幕日韩精品 | 亚洲每日在线| 欧美精品入口| 99爱精品视频| 欧美日韩色综合| 一区二区三区四区蜜桃| 欧美色中文字幕| 中国日韩欧美久久久久久久久| 欧美日韩精品免费观看视频完整 | 麻豆av一区二区三区久久| 激情综合网址| 一区二区三区国产精品| 欧美日韩午夜激情| 亚洲午夜小视频| 国产精品一区毛片| 久久国产精品久久久| 黄色日韩精品| 欧美电影免费| 一区二区三区四区五区视频 | 欧美在线精品一区| 极品少妇一区二区三区| 男人的天堂成人在线| 亚洲日本视频| 欧美视频导航| 欧美一区二区三区视频免费| 国外成人网址| 欧美黄污视频| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产精品网站在线| 久久免费视频网| 亚洲精品美女在线| 国产精品久久久久久久久果冻传媒| 午夜精品在线视频| 狠狠v欧美v日韩v亚洲ⅴ| 免费成人美女女| 亚洲视频1区| 国产三级欧美三级| 欧美/亚洲一区| 一区二区三区精密机械公司 | 精品二区久久| 欧美精品在线一区二区三区| 亚洲一区二区免费| 国内偷自视频区视频综合| 欧美福利精品| 午夜精品电影| 影音先锋久久| 欧美三级电影精品| 久久精品成人欧美大片古装| 亚洲国语精品自产拍在线观看| 欧美日韩在线播放三区| 久久精品网址| 一区二区av在线| 欧美激情视频一区二区三区在线播放| 妖精成人www高清在线观看| 国产麻豆精品视频| 欧美**人妖| 亚洲欧美日韩国产综合| 在线观看欧美日本| 国产精品久久久久久久浪潮网站| 久久久www成人免费无遮挡大片| 亚洲精品三级| 国产一区二区精品久久99| 欧美精品七区| 久久精品久久综合| 在线一区二区三区做爰视频网站| 欧美三级免费| 久久久在线视频| 亚洲先锋成人| 91久久精品一区| 国产一区深夜福利| 欧美性猛交xxxx乱大交蜜桃| 六月婷婷一区| 欧美一级在线亚洲天堂| 99国产精品国产精品毛片| 韩日成人在线| 国产精品乱子乱xxxx| 欧美高清不卡| 久久蜜桃资源一区二区老牛| 亚洲综合日韩在线| 亚洲免费电影在线| 一区二区在线观看av| 国产精品视频网址| 欧美日韩一视频区二区| 老巨人导航500精品| 欧美亚洲综合另类| 国产精品99久久久久久久久久久久| 在线观看日韩av电影| 国产精品亚洲人在线观看| 欧美噜噜久久久xxx| 老司机精品福利视频| 久久成人精品无人区| 亚洲在线免费| 一区二区三区精密机械公司 | 国产精品一二三四区| 久久精品视频99| 亚洲欧美美女| 一区二区三区福利| 日韩视频在线观看免费| 亚洲福利一区| 欧美日韩三级一区二区| 麻豆av福利av久久av| 亚洲欧美国产日韩天堂区| 一区二区三区福利| 99国产精品久久久久久久久久 | 有坂深雪在线一区| 国产一级一区二区| 国产精一区二区三区| 国产精品爱啪在线线免费观看| 欧美国产在线电影| 麻豆成人91精品二区三区| 久久久久国内| 久久躁日日躁aaaaxxxx| 久久久精品五月天| 久久精品国产77777蜜臀 | 欧美成人免费网站| 亚洲综合首页| 亚洲一区二区久久| 亚洲图片欧美日产| 在线观看国产一区二区| 国语自产精品视频在线看8查询8| 国产精品久久久久一区二区三区共| 欧美日韩在线电影| 欧美日韩在线一区二区| 欧美日韩亚洲一区三区 | 久久综合久色欧美综合狠狠 | 国产日韩专区| 国产一区二区三区视频在线观看| 国产偷久久久精品专区|