# Gemini語音模型特點

Published 2026-01-15

# Gemini 2.5 Flash 原生音頻 (Native Audio)

自然對話： 具有卓越質量的語音交互，更合適的表達性和韻律（節奏模式），以極低延遲提供，讓您能夠流暢對話。

增強的語音質量和適應性： Live API原生音頻提供更豐富、更自然的語音交互。

情感對話功能： 使用Live API原生音頻的模型可以理解並適當響應用戶的情感表達，進行更細緻的對話。

Gemini 2.5 Flash Live模型與Live API配合使用，實現與Gemini的低延遲雙向語音和視頻交互。

首創的多說話者支持功能，通過原生音頻輸出實現雙聲音文本到語音轉換。

文本到語音具有表達性，能夠捕捉非常細微的差別，如耳語。

支持超過24種語言，能夠無縫切換語言。

增強的節奏和發音控制： 控制傳送速度，確保發音更準確，包括特定單詞的發音。

多說話者對話生成： 該模型可以從文本輸入生成雙人"NotebookLM風格"音頻概述，使內容更具吸引力。

Gemini 2.5 Pro預覽版TTS是我們最強大的文本到語音模型，為播客生成、有聲書、客戶支持等結構化工作流程提供高度控制和透明度。

Gemini 2.5 TTS引入了先進功能，如可定制的語音風格、自然交互模擬和多說話者音頻生成，增強了音頻內容創作的表達性和真實性。

該模型具有高度的多功能性，適用於有聲書敘述等應用。

支持單個和多個說話者的原生音頻輸出，涵蓋24種語言。

可以控制TTS表達和風格，創建豐富的音頻輸出。

Gemini 2.5預覽版TTS可以生成多說話者語音，這使得可以創建播客，如NotebookLM音頻概述中使用的功能。