IT之家 8 月 14 日消息,谷歌在今天召開的 Pixel 9 系列手機發(fā)布會上,發(fā)布了 Gemini Live 服務,將于今天開始率先面向使用英語的 Gemini Advanced 訂閱用戶開放。
推動自然、流暢的對話交流
谷歌表示 Gemini Live 提供了一種移動對話體驗,讓用戶和 Gemini 展開自由流暢的對話。
Gemini Live 可以說是對標 OpenAIChatGPT 最新上線的 Advanced Voice 模式(限量 Alpha 測試),采用了增強型語音引擎,可以展開更連貫、更有情感表達力、更逼真的多輪對話。
谷歌表示用戶可以在聊天機器人說話時打斷它,提出后續(xù)問題,聊天機器人會實時適應用戶的說話模式。
IT之家翻譯谷歌博文部分內(nèi)容如下:
通過 Gemini Live [使用 Gemini 應用程序],用戶可以與 Gemini 對話,并從 [10 種新的] 自然聲音中選擇它可以回應的聲音。
用戶甚至可以按照自己的節(jié)奏說話,或在回答中途打斷并提出澄清性問題,就像在人類對話中一樣。
谷歌演示Gemini Live的一個場景,模擬用戶和招聘經(jīng)理(或人工智能,視情況而定)交談,為用戶提供演講技巧推薦、提供優(yōu)化建議。
谷歌發(fā)言人表示:
Live 使用的是我們的 Gemini Advanced 模型,我們對其進行了調(diào)整,使其更具對話性。當用戶與 Live 進行長時間對話時,就會使用該模型的大型上下文窗口。
不支持多模態(tài)輸入
Gemini Live 還不具備谷歌在 I / O 大會上展示的功能之一:多模態(tài)輸入。
谷歌今年 5 月發(fā)布了一段預先錄制的視頻,展示了 Gemini Live 通過手機攝像頭捕捉的照片和錄像看到用戶周圍的環(huán)境并做出反應,例如說出一輛壞掉的自行車上的零件名稱,或者解釋電腦屏幕上的部分代碼是做什么用的。
谷歌表示,多模態(tài)輸入將在“今年晚些時候”推出,但拒絕透露具體細節(jié)。