成人伊人青草久久综合网,欧美内射深插日本少妇,2022国产91精品久久久久久

ChatGPT做決策：潛力大，風(fēng)險也更大

2023-08-15 05:41:10來源： 騰訊網(wǎng)

（視覺中國/圖）

(相關(guān)資料圖)

既能搜索信息，也能回答問題，人工智能應(yīng)用ChatGPT流行之后，包括各領(lǐng)域科學(xué)家在內(nèi)，社會上對ChatGPT這類人工智能應(yīng)用決策能力的探討不斷拓展，對相關(guān)風(fēng)險的規(guī)制也已經(jīng)開始實踐。

2023年7月10日，《生成式人工智能服務(wù)管理暫行辦法》已經(jīng)國家發(fā)改委、教育部、科技部、工信部、公安部、國家廣電總局等多部門同意并公布，自2023年8月15日起施行。管理辦法針對生成式人工智能技術(shù)提供的文本、圖片、音頻、視頻等內(nèi)容，對相關(guān)服務(wù)堅持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則。

事實上，針對這類人工智能應(yīng)用的決策潛力和風(fēng)險，一些科學(xué)研究已經(jīng)通過實驗等方式對部分場景進(jìn)行了初步預(yù)演。最近，一項醫(yī)學(xué)研究就對比了人工智能應(yīng)用與醫(yī)生在回答病人問題上的效果，評價結(jié)果顯示，人工智能應(yīng)用的回答收獲更多好評，在近六百個評價中，超過78%的評價認(rèn)為其優(yōu)于醫(yī)生的回答。

或可成為新型醫(yī)療器械

這項對比研究中的醫(yī)學(xué)問題全部隨機(jī)選自公共社交媒體論壇，經(jīng)過認(rèn)證的醫(yī)生已經(jīng)在線回答了這些問題。2022年底，加州大學(xué)圣迭戈分校的研究人員利用智能聊天應(yīng)用ChatGPT也來回答這些病人提出的問題，此時的ChatGPT即當(dāng)時剛發(fā)布的GPT-3.5版本。研究人員隨后通過收集評估意見，對相關(guān)能力進(jìn)行了對比。

這項研究2023年4月發(fā)表在《美國醫(yī)學(xué)會內(nèi)科學(xué)雜志》（JAMA Internal Medicine），經(jīng)過比對，ChatGPT和醫(yī)生所獲評價差距極大，從好評度的角度看，相比超過78%的評價認(rèn)為ChatGPT的回答質(zhì)量很好，認(rèn)為醫(yī)生的回答很好或非常好的比例僅有約22%，好評率有三倍多的差距。

不僅如此，ChatGPT的回答在同理心方面的好評度也遠(yuǎn)超醫(yī)生。僅有不到5%的評價認(rèn)為醫(yī)生的回答具有同理心或者非常具有同理心，但在這一指標(biāo)上，45%的評價都認(rèn)為ChatGPT對病人問題的回答具有同理心或者非常有同理心，這更是近十倍的差距。從一定程度上反映出人工智能應(yīng)用生成內(nèi)容所具有的潛力，在人們已習(xí)慣于就醫(yī)前先在線搜索相關(guān)病癥的環(huán)境下，這或許可以輔助醫(yī)療行業(yè)提高對病人問題的回應(yīng)。

正因如此，一些健康領(lǐng)域的研究人員已經(jīng)開始考慮讓大語言模型人工智能應(yīng)用成為專業(yè)醫(yī)療設(shè)備的可能性。德累斯頓工業(yè)大學(xué)數(shù)字健康中心教授斯蒂芬·吉爾伯特（Stephen Gilbert）等人就在《自然醫(yī)學(xué)》（Nature Medicine）撰文指出，基于大語言模型的人工智能聊天應(yīng)用需要獲批才能成為醫(yī)療器械，但它們現(xiàn)在不穩(wěn)定的特點使得這樣的設(shè)備很難獲批。

這樣的不穩(wěn)定性體現(xiàn)在多個方面，比如缺乏解釋性、透明度，難以驗證和監(jiān)督，而且可能存在偏見。因為現(xiàn)在的大語言模型并不是專門針對醫(yī)學(xué)實踐開發(fā)的模型，缺乏足夠?qū)I(yè)的支撐，可能會提供一些錯誤的信息，給病人帶來危險。而要想成為醫(yī)療器械，那么就要通過更科學(xué)嚴(yán)謹(jǐn)?shù)姆绞皆跍?zhǔn)確性、安全性和臨床效果方面證明自己，獲得專業(yè)機(jī)構(gòu)的認(rèn)可。

參與社會價值判斷不夠穩(wěn)定

相較而言，如果ChatGPT不用做相對獨立的決策，而只是輔助提高醫(yī)療行業(yè)的自動化程度，技術(shù)得到應(yīng)用可能更容易。倫敦圣瑪麗醫(yī)院外科和癌癥部門的研究人員在年初該應(yīng)用剛流行時就提出了一種應(yīng)用場景，即寫出院報告。因為記錄內(nèi)容龐雜，傳統(tǒng)的出院報告寫作對于醫(yī)生而言不僅任務(wù)繁重，而且容易丟失細(xì)節(jié)。但如果用ChatGPT等人工智能應(yīng)用來寫出院報告，這種文體標(biāo)準(zhǔn)化的格式可能正利于技術(shù)發(fā)揮優(yōu)勢。

而一旦涉及更多自主決策，相關(guān)應(yīng)用的潛力和風(fēng)險明顯更大。2023年4月，丹麥和德國等機(jī)構(gòu)的研究人員就用人工智能應(yīng)用ChatGPT復(fù)現(xiàn)了經(jīng)典道德判斷難題“電車?yán)Ь场保钛芯咳藛T感到驚訝和不幸的是，身為機(jī)器人的應(yīng)用并沒有因為超脫情緒羈絆而始終做出一致的道德判斷。

爭論近半個世紀(jì)的“電車?yán)Ь场蹦M的是人類社會一些普遍的道德情境，比如如何看待救人和犧牲，如何認(rèn)識直接傷害和間接傷害，以及如何權(quán)衡個體與集體的利益。該命題假設(shè)了一個交通場景，當(dāng)電車將要撞到五個人時，是否應(yīng)為了救這五個人而讓電車立刻轉(zhuǎn)向，撞到另一條軌道上本可以幸免的一個人。

人類社會的各類道德難題之所以難解，很重要的一個原因在于決策所受到的社會干擾因素太多，而道德標(biāo)準(zhǔn)作為全社會的尺度，穩(wěn)定性和一致性是一個基本的需要，這樣不同人在遇到同樣的問題時能采取極為相似的行為，從而保持良好的社會秩序。

人類的立場偏見和情緒等直覺層面的因素一般會干擾人們做出客觀的判斷，而ChatGPT面對同一道德問題也搞雙重標(biāo)準(zhǔn)，暴露出其參與社會道德決策問題時存在較大的風(fēng)險。這一研究發(fā)表在《科學(xué)報告》（Scientific Reports），ChatGPT不一致的道德判斷與此前科學(xué)家所揭示的其九歲兒童的心智能力相呼應(yīng)。

模仿人VS超越人

2023年2月，斯坦福大學(xué)計算社會科學(xué)家米哈爾·科辛斯基（Michal Kosinski）用人類標(biāo)準(zhǔn)的測試題測試ChatGPT的心智能力，結(jié)果表明GPT-3.5版本可以解決93%的心智任務(wù)，相當(dāng)于一個九歲兒童的表現(xiàn)。

米哈爾·科辛斯基告訴南方周末記者，這種像人一樣，可以推測其他人心理狀態(tài)的能力預(yù)示著人工智能發(fā)展到了一個分水嶺，可以極大地提高人工智能應(yīng)用與人類互動和溝通的能力，使其基于心智理論能夠進(jìn)一步開發(fā)出其他能力，諸如同理心、道德判斷或自我意識等。

而在ChatGPT參與的電車難題實驗中，研究人員就發(fā)現(xiàn)，當(dāng)提問方式不同，ChatGPT回答時會給出不同的道德建議，有時支持犧牲一個人救五個人，有時又特別反對為了救人而犧牲任何無辜的人，理由是“每個人的生命都有價值，不該由我們決定誰該活、誰該死”。而即便是支持救五個人的觀點，ChatGPT在回答時也會用很多委婉的說法，比如“很難說怎么做才對”“總體上”等等。

這種根據(jù)提問者的情況給出不同答案的行為，雖然提高了互動和溝通的體驗，但不一致的道德判斷通過影響使用該技術(shù)的人，可能會干擾人們在現(xiàn)實社會中做出明智的決策。實驗隨后對比驗證后還發(fā)現(xiàn)，ChatGPT的回答確實會影響使用者如何看待這個道德問題，即便他們知道這個建議來自聊天機(jī)器人，但人們通常會低估自己受到影響的程度。

ChatGPT這類智能應(yīng)用可以通過不一致的道德判斷影響使用者的決策，這一發(fā)現(xiàn)不僅對未來相關(guān)產(chǎn)品的設(shè)計和優(yōu)化提出了更高的要求，也提醒現(xiàn)實中的使用者要提升自身的數(shù)字素養(yǎng)，以更好地駕馭人工智能應(yīng)用。

而隨著科學(xué)家對ChatGPT決策潛力認(rèn)識的深入，相關(guān)風(fēng)險的管控可能并不容易。人們在面對大量新問題，解決新問題的過程中，通常會運用類比推理，從熟悉的問題中找到新問題的答案。而根據(jù)加州大學(xué)洛杉磯分校心理學(xué)系研究人員的對比測試，GPT-3版本的邏輯推理能力就達(dá)到了大學(xué)生的水平，只是不知道這種能力是在模擬人類推理還是某種新型認(rèn)知過程。

加強(qiáng)風(fēng)險規(guī)制

此外，2023年7月13日，麻省理工學(xué)院經(jīng)濟(jì)系的研究人員在《科學(xué)》雜志（Science）發(fā)布實驗結(jié)果，支持ChatGPT這樣的生成式人工智能應(yīng)用在提高生產(chǎn)力方面的能力。通過聚焦寫作方面的任務(wù)，研究人員發(fā)現(xiàn)，受過高等教育的專業(yè)人士如果使用了ChatGPT，就會更高產(chǎn)，更有效率，而且也會更享受這樣完成任務(wù)的過程，其中寫作能力更差的人在其中受益更多。

數(shù)據(jù)表明用了ChatGPT之后，人們完成任務(wù)的平均時間減少了40%，產(chǎn)出質(zhì)量卻高了18%。這些結(jié)果表明，無論是取代還是輔助專業(yè)人士，諸如ChatGPT這樣的生成式人工智能應(yīng)用可能會攪動勞動力市場的格局。這種影響不只限于醫(yī)療、寫作等領(lǐng)域，在一些創(chuàng)造力測試中，有研究還發(fā)現(xiàn)GPT-4版本的ChatGPT，其標(biāo)準(zhǔn)創(chuàng)造力思維測試得分可以擠進(jìn)人類排名的前1%，而這種創(chuàng)造性思維可能適用的領(lǐng)域顯然更廣。

為了規(guī)制相關(guān)的風(fēng)險，包括ChatGPT所屬公司OpenAI在內(nèi)，谷歌、微軟等多家人工智能公司已于2023年7月下旬參與了在白宮舉行的會議，承諾去防范人工智能應(yīng)用開發(fā)中潛在的風(fēng)險。

比如，發(fā)布前邀請獨立專家進(jìn)行安全性審查，報告技術(shù)的局限性，加強(qiáng)社會風(fēng)險研究，以及幫助用戶識別人工智能所生成內(nèi)容等。從科學(xué)證據(jù)來看，面對相關(guān)應(yīng)用決策潛力和風(fēng)險的發(fā)展，如何兼顧應(yīng)用潛力與風(fēng)險規(guī)制還有大量具體工作要做。

南方周末記者王江濤

責(zé)編朱力遠(yuǎn)

關(guān)鍵詞：

相關(guān)新聞

專題新聞