谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景

来源：铁马金戈网编辑：实时快报时间：2024-10-23 20:23:09

mxgwcdr">IT之家 8 月 14 日消息，谷歌谷歌在今天召开的发布 Pixel 9 系列手机发布会上，发布了 Gemini Live 服务，支持将于今天开始率先面向使用英语的语音 Gemini Advanced 订阅用户开放。推动自然、聊天流畅的可模对话交流谷歌表示 Gemini Live 提供了一种移动对话体验，让用户和 Gemini 展开自由流畅的拟面对话。Gemini Live 可以说是试场对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式（限量 Alpha 测试），采用了增强型语音引擎，谷歌可以展开更连贯、发布更有情感表达力、支持更逼真的语音多轮对话。谷歌表示用户可以在聊天机器人说话时打断它，聊天提出后续问题，可模聊天机器人会实时适应用户的拟面说话模式。IT之家翻译谷歌博文部分内容如下：通过 Gemini Live [使用 Gemini 应用程序]，用户可以与 Gemini 对话，并从 [10 种新的] 自然声音中选择它可以回应的声音。用户甚至可以按照自己的节奏说话，或在回答中途打断并提出澄清性问题，就像在人类对话中一样。谷歌演示Gemini Live的一个场景，模拟用户和招聘经理（或人工智能，视情况而定）交谈，为用户提供演讲技巧推荐、提供优化建议。谷歌发言人表示：Live 使用的是我们的 Gemini Advanced 模型，我们对其进行了调整，使其更具对话性。当用户与 Live 进行长时间对话时，就会使用该模型的大型上下文窗口。不支持多模态输入Gemini Live 还不具备谷歌在 I / O 大会上展示的功能之一：多模态输入。谷歌今年 5 月发布了一段预先录制的视频，展示了 Gemini Live 通过手机摄像头捕捉的照片和录像看到用户周围的环境并做出反应，例如说出一辆坏掉的自行车上的零件名称，或者解释电脑屏幕上的部分代码是做什么用的。谷歌表示，多模态输入将在“今年晚些时候”推出，但拒绝透露具体细节。

上一篇：春天的简笔画简单又漂亮（春天的简笔画）
下一篇：坚韧球合成（坚韧球怎么合）

谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景

友情链接