123,123,123

<cite id="6uaey"></cite>

亞洲資本網(wǎng) > 滾動 > 正文

每日速訊：GPT-3、ChatGPT和GPT-4，一起做腦筋急轉(zhuǎn)彎

2023-06-26 21:34:50來源： 夕小瑤科技說?

一個烙餅煎一面一分鐘，兩個烙餅煎兩面幾分鐘？

【資料圖】

讓你來回答，是不是一不小心就掉到溝里了？如果讓大語言模型來做這種腦筋急轉(zhuǎn)彎會怎樣呢？研究發(fā)現(xiàn)，模型越大，回答就越可能掉到溝里，即使是擁有千億參數(shù)的大模型也不能幸免。但是ChatGPT卻能很好回答這些問題。讓我們一起來看看吧。

腦筋急轉(zhuǎn)彎

作者采用了CRT數(shù)據(jù)作為腦筋急轉(zhuǎn)彎的測試數(shù)據(jù)。該數(shù)據(jù)在心理學(xué)領(lǐng)域，廣泛地被用于衡量人類的思維習(xí)慣，判斷是否習(xí)慣于直覺思維。

腦筋急轉(zhuǎn)彎數(shù)據(jù)示例

如上圖所示，作者探索了3種CRT數(shù)據(jù)和1種語言邏輯陷阱。例如：

CRT-1：蘋果和梨花了1塊1，蘋果比梨貴1塊，問梨花了多少錢？直覺答案：0.1塊 = 1.1-1，正確答案：0.05塊。

CRT-2：5個人種5棵樹花5分鐘，10個人種10棵樹花多少分鐘？直覺答案：10分鐘，正確答案：5分鐘。

CRT-3：培養(yǎng)皿中的細菌每分鐘擴增一倍面積，48分鐘可以填滿，問填滿一半要多久？直覺答案：24分鐘，正確答案：47分鐘。

語言邏輯陷阱：剛上小學(xué)的小紅去參加高考，她會考幾科？直覺答案6科，正確答案：小學(xué)生不參加高考。

模型表現(xiàn)

模型表現(xiàn)如下圖所示，可以看到模型較小時，隨著模型增大，模型回答正確答案和直覺答案的比例在提高，回答無關(guān)答案的比例在下降。

但隨著模型進一步增大，無關(guān)答案比例進一步下降，直覺答案比例進一步上升，正確答案比例卻不升反降。包括BLOOM、LLAMA、GPT-3在內(nèi)的大語言模型明顯掉入腦筋急轉(zhuǎn)彎的陷阱。即使是經(jīng)過指令調(diào)整與RLHF的text davinci-002/003也未能幸免。

不同模型表現(xiàn)對比

而在上圖中，經(jīng)過指令調(diào)整的ChatGPT與GPT-4，一下子正確答案的比例就高了許多。究竟是什么魔法使得ChatGPT的腦筋會轉(zhuǎn)彎呢？我們不得而知。

下圖具體對比了GPT-3、ChatGPT，GPT-4在幾類不同的腦筋急轉(zhuǎn)彎的表現(xiàn)，可以更加凸顯上述現(xiàn)象。

不同腦筋急轉(zhuǎn)彎類型上的模型表現(xiàn)對比

如果改換輸入形式會怎樣？下圖上為問答的形式，和上面的實驗相同。下圖中、下分別為多選、續(xù)寫的形式。可以看到，修改提問形式之后，正確率略有上升，但整體差別不大。

下圖顯示，通過少監(jiān)督展示學(xué)習(xí)，GPT-3的正確率會有所上升。但即使展示到40個左右的樣本，準確率和無監(jiān)督的ChatGPT相比仍有差距，更不用說GPT-4了。

結(jié)論

這篇論文針對很有意思的一類問題，發(fā)現(xiàn)了大語言模型的一個很有意思的現(xiàn)象。作者也嘗試了多種方法，但無論是改變提問形式還是增加監(jiān)督數(shù)據(jù)，GPT-3在腦筋急轉(zhuǎn)彎上的表現(xiàn)仍然難以達到ChatGPT的水平。究竟ChatGPT使用了怎樣的魔法讓模型的腦筋會轉(zhuǎn)彎呢？

關(guān)鍵詞：

相關(guān)新聞

中國20歲小將殷若寧奪得高爾夫女子大滿貫首冠|天天視點

中國20歲小將殷若寧奪得高爾夫女子大滿貫首冠|天天視點

廣東10歲男童山上祭祖失聯(lián)9天，曾和家人打賭“誰先跑回家”，救援隊回應(yīng)：政府已接管此事，民間組織撤離了

廣東10歲男童山上祭祖失聯(lián)9天，曾和家人打賭“誰先跑回家”，救援隊回應(yīng)：政府已接管此事，民間組織撤離了

專題新聞

熱點新聞

全球熱點！皖能電力獲2家機構(gòu)調(diào)研：公司火電業(yè)務(wù)的業(yè)績修復(fù)在加速中，減虧增盈成效逐漸顯現(xiàn)（附調(diào)研問答）

全球熱點！皖能電力獲2家機構(gòu)調(diào)研：公司火電業(yè)務(wù)的業(yè)績修復(fù)在加速中，減虧增盈成效逐漸顯現(xiàn)（附調(diào)研問答）

中小板種業(yè)概念股票哪家強?市值排名來了!

中小板種業(yè)概念股票哪家強?市值排名來了!

最新研究：史前時期地球每天時長僅19小時-全球熱門

最新研究：史前時期地球每天時長僅19小時-全球熱門

訊息：雙胞胎兄弟高考同考688高分，母親：是學(xué)校老師而不是課外培訓(xùn)班培養(yǎng)的，爸爸的付出也很重要

訊息：雙胞胎兄弟高考同考688高分，母親：是學(xué)校老師而不是課外培訓(xùn)班培養(yǎng)的，爸爸的付出也很重要

廣發(fā)證券回應(yīng)App崩了：可以切換站點重試

廣發(fā)證券回應(yīng)App崩了：可以切換站點重試

天天即時：6月26日國內(nèi)DBP企業(yè)報價下跌

天天即時：6月26日國內(nèi)DBP企業(yè)報價下跌

李嘉誠復(fù)仇記？直擊暴雷房企，欲抄底地王項目

李嘉誠復(fù)仇記？直擊暴雷房企，欲抄底地王項目

國債期貨全線收漲

國債期貨全線收漲

快看：長三角鐵路端午假期收官五天發(fā)送旅客近1500萬人次

快看：長三角鐵路端午假期收官五天發(fā)送旅客近1500萬人次

全球首臺16兆瓦風(fēng)機主機機艙吊裝到位-百事通

全球首臺16兆瓦風(fēng)機主機機艙吊裝到位-百事通

大家都在看

最近更新

每日速訊：GPT-3、ChatGPT和GPT-4，一起做腦筋急轉(zhuǎn)彎

第十四屆夏季達沃斯論壇明天在天津開幕

【全球快播報】廣告的目的在于影響什么_廣告目的是什么

深度測評歐拉好貓，前置前驅(qū)，純電續(xù)航401KM，售價13.98萬|全球聚看點

皮爾磁：新能源光伏產(chǎn)業(yè)建設(shè)，安全少不了！-今日視點

住建局回應(yīng)貴州一小區(qū)發(fā)生滑坡塌陷：正在等待專家檢測

環(huán)球滾動:一條全是背影的視頻致敬禁毒英雄

值得買的百萬醫(yī)療險有哪些？有什么特點？|世界通訊

一拳超人搞笑向：鳳凰男強行致敬迪迦奧特曼網(wǎng)友：毫無違和感

全球熱議:北京傳染病報告發(fā)病數(shù)下降

全球?qū)崟r：尼康d5300如何_尼康d5300有什么缺點簡介介紹

均安控股(01559)發(fā)盈警，預(yù)計年度股東應(yīng)占綜合虧損約1.1億港元至1.3億港元

全球滾動:禾葡蘭產(chǎn)品貴嗎_禾葡蘭騙人

快訊：吳飛的簡歷（吳飛舟什么時候出生）

世界速訊：威海營商行丨審批事項“碼”上知曉，威海臨港區(qū)推出超輕量化數(shù)字指南

青海湖水域面積達到近十年來最大值湟魚洄游迎來高峰期

【時快訊】幫幫孩子！10歲女孩幫媽媽做家務(wù) 意外導(dǎo)致全身56%燒傷命懸一線

特色產(chǎn)業(yè)煥新生為鄉(xiāng)村振興注入新動能

快訊：國體和政體是內(nèi)容和形式的關(guān)系嗎_國體和政體

重婚罪需要哪些證據(jù)呢？悔過書可以是證據(jù)嗎？重婚的判刑標準是什么呢？

友情鏈接

新聞發(fā)布平臺 |科極網(wǎng) |環(huán)球周刊網(wǎng) |中國創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國商界網(wǎng) |萬能百科 |薄荷網(wǎng) |資訊_時尚網(wǎng) |連州財經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購省錢平臺 |海淘返利 |太平洋裝修網(wǎng) |勵普網(wǎng)校 |九十三度白茶網(wǎng) |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經(jīng)網(wǎng) |深圳熱線 |財報網(wǎng) |財報網(wǎng) |財報網(wǎng) |咕嚕財經(jīng) |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟網(wǎng) |中原網(wǎng)視臺 |財經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟網(wǎng) |消費導(dǎo)報網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國際財經(jīng)網(wǎng) |星島中文網(wǎng) |手機測評 |品牌推廣 |名律網(wǎng) |項目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務(wù)網(wǎng) |法律服務(wù) |法律咨詢 |成報網(wǎng) |媒體采購網(wǎng) |聚焦網(wǎng) |參考網(wǎng) |熱點網(wǎng)

亞洲資本網(wǎng) 版權(quán)所有

京ICP備2021034106號-51

Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站：55 16 53 8 @qq.com