首頁(yè)信用卡
消息稱OpenAI研發(fā)新語(yǔ)音模型BiDi
2026-03-06 12:23:45來(lái)源: 鞭牛士


(相關(guān)資料圖)

AIPress.com.cn報(bào)道

3月6日消息,據(jù)The Information報(bào)道,OpenAI正在秘密研發(fā)一款代號(hào)為“BiDi”(Bidirectional,雙向)的全新音頻模型。目標(biāo)是讓用戶和ChatGPT的語(yǔ)音對(duì)話聽起來(lái)不那么像機(jī)器人。核心改進(jìn)點(diǎn)在于:當(dāng)用戶中途插話、打斷時(shí),AI能像真人聊天一樣及時(shí)調(diào)整話術(shù),而不是突然停住或重新來(lái)一遍。

目前ChatGPT的高級(jí)語(yǔ)音模式更像輪流發(fā)言的機(jī)制:用戶必須把話說(shuō)完,系統(tǒng)才會(huì)處理音頻并生成回答。如果用戶在AI說(shuō)話時(shí)插入一些很自然的反饋,比如“好的”“嗯”“對(duì)”,模型往往會(huì)直接停止輸出,難以做到人類對(duì)話那種邊聽邊說(shuō)、隨時(shí)糾偏的節(jié)奏。

OpenAI正在做的下一代音頻模型它的思路是持續(xù)處理說(shuō)話者的聲音流,一旦檢測(cè)到用戶插話,就能立刻改變自己的回應(yīng)方向,實(shí)現(xiàn)更自然的對(duì)話流。相比現(xiàn)有音頻模型一旦開口就很難修改、容易“照稿念完”,BiDi希望做到邊說(shuō)邊調(diào)整,甚至在對(duì)話中途平滑轉(zhuǎn)話題。

不過(guò),這項(xiàng)技術(shù)距離上線還有一段距離。知情人士稱,BiDi的原型在對(duì)話進(jìn)行幾分鐘后,容易出現(xiàn)故障,或者發(fā)出聽起來(lái)不太正常的聲音。OpenAI研究團(tuán)隊(duì)原本希望在今年一季度推出,但目前看時(shí)間可能推遲到二季度甚至更晚。

OpenAI的判斷是,如果語(yǔ)音模型的表現(xiàn)能更接近文本模型的速度和穩(wěn)定性,AI的普及面會(huì)進(jìn)一步擴(kuò)大,因?yàn)閷?duì)大多數(shù)人來(lái)說(shuō),開口說(shuō)話比打字更自然。

落地場(chǎng)景方面,OpenAI預(yù)計(jì)BiDi在客服類應(yīng)用會(huì)更有價(jià)值。比如用戶打電話給零售商的AI客服,本來(lái)要退貨,聊到一半臨時(shí)改成換貨,如果系統(tǒng)能實(shí)時(shí)理解并調(diào)整話術(shù),就能順暢接著聊,而不是卡頓、停頓或把流程重來(lái)一遍。知情人士還表示,BiDi在調(diào)用外部工具和第三方應(yīng)用時(shí)也更擅長(zhǎng)。

這也呼應(yīng)了OpenAI更長(zhǎng)期的硬件設(shè)想。此前OpenAI提過(guò)要改進(jìn)音頻模型,用于未來(lái)以語(yǔ)音交互為主的AI設(shè)備,并在考慮開發(fā)類似智能音箱的產(chǎn)品,讓用戶通過(guò)語(yǔ)音完成查郵件、訂餐廳等任務(wù)。實(shí)時(shí)、可被打斷的對(duì)話能力,被認(rèn)為是這類“語(yǔ)音優(yōu)先”設(shè)備的關(guān)鍵底層能力。

(AI普瑞斯編譯)

關(guān)鍵詞:

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com