#
Gemini語音模型特點
Published 2026-01-15
#
Gemini 2.5 Flash 原生音頻 (Native Audio)
#
核心特點
自然對話: 具有卓越質量的語音交互,更合適的表達性和韻律(節奏模式),以極低延遲提供,讓您能夠流暢對話。
增強的語音質量和適應性: Live API原生音頻提供更豐富、更自然的語音交互。
#
情感對話能力
情感對話功能: 使用Live API原生音頻的模型可以理解並適當響應用戶的情感表達,進行更細緻的對話。
#
實時交互
Gemini 2.5 Flash Live模型與Live API配合使用,實現與Gemini的低延遲雙向語音和視頻交互。
#
Gemini 2.5 Flash 預覽版 TTS
#
多說話者支持
首創的多說話者支持功能,通過原生音頻輸出實現雙聲音文本到語音轉換。
#
表達能力
文本到語音具有表達性,能夠捕捉非常細微的差別,如耳語。
#
多語言功能
支持超過24種語言,能夠無縫切換語言。
#
高級控制
增強的節奏和發音控制: 控制傳送速度,確保發音更準確,包括特定單詞的發音。
#
內容生成
多說話者對話生成: 該模型可以從文本輸入生成雙人"NotebookLM風格"音頻概述,使內容更具吸引力。
#
Gemini 2.5 Pro 預覽版 TTS
#
最強大的TTS模型
Gemini 2.5 Pro預覽版TTS是我們最強大的文本到語音模型,為播客生成、有聲書、客戶支持等結構化工作流程提供高度控制和透明度。
#
高級功能
Gemini 2.5 TTS引入了先進功能,如可定制的語音風格、自然交互模擬和多說話者音頻生成,增強了音頻內容創作的表達性和真實性。
#
專業應用
該模型具有高度的多功能性,適用於有聲書敘述等應用。
#
共同特點
#
原生音頻輸出
支持單個和多個說話者的原生音頻輸出,涵蓋24種語言。
#
風格控制
可以控制TTS表達和風格,創建豐富的音頻輸出。
#
多說話者生成
Gemini 2.5預覽版TTS可以生成多說話者語音,這使得可以創建播客,如NotebookLM音頻概述中使用的功能。