# Gemini語音模型特點

Published 2026-01-15

# Gemini 2.5 Flash 原生音頻 (Native Audio)

# 核心特點

自然對話: 具有卓越質量的語音交互,更合適的表達性和韻律(節奏模式),以極低延遲提供,讓您能夠流暢對話。

增強的語音質量和適應性: Live API原生音頻提供更豐富、更自然的語音交互。

# 情感對話能力

情感對話功能: 使用Live API原生音頻的模型可以理解並適當響應用戶的情感表達,進行更細緻的對話。

# 實時交互

Gemini 2.5 Flash Live模型與Live API配合使用,實現與Gemini的低延遲雙向語音和視頻交互。

# Gemini 2.5 Flash 預覽版 TTS

# 多說話者支持

首創的多說話者支持功能,通過原生音頻輸出實現雙聲音文本到語音轉換。

# 表達能力

文本到語音具有表達性,能夠捕捉非常細微的差別,如耳語。

# 多語言功能

支持超過24種語言,能夠無縫切換語言。

# 高級控制

增強的節奏和發音控制: 控制傳送速度,確保發音更準確,包括特定單詞的發音。

# 內容生成

多說話者對話生成: 該模型可以從文本輸入生成雙人"NotebookLM風格"音頻概述,使內容更具吸引力。

# Gemini 2.5 Pro 預覽版 TTS

# 最強大的TTS模型

Gemini 2.5 Pro預覽版TTS是我們最強大的文本到語音模型,為播客生成、有聲書、客戶支持等結構化工作流程提供高度控制和透明度。

# 高級功能

Gemini 2.5 TTS引入了先進功能,如可定制的語音風格、自然交互模擬和多說話者音頻生成,增強了音頻內容創作的表達性和真實性。

# 專業應用

該模型具有高度的多功能性,適用於有聲書敘述等應用。

# 共同特點

# 原生音頻輸出

支持單個和多個說話者的原生音頻輸出,涵蓋24種語言。

# 風格控制

可以控制TTS表達和風格,創建豐富的音頻輸出。

# 多說話者生成

Gemini 2.5預覽版TTS可以生成多說話者語音,這使得可以創建播客,如NotebookLM音頻概述中使用的功能。