ChatTTS介紹
chatTTS 是一個開源的文本轉語音(Text-to-Speech, TTS)項目,旨在將文字內容轉換為接近人類真實聲音的語音輸出。該項目在GitHub上迅速獲得了大量關注,因其語音合成效果非常逼真,甚至超越了一些商用TTS服務。chatTTS使用了大量的語音數據進行訓練,目前提供的模型已能夠生成語氣、停頓和節奏都極其自然的語音,並且支持多種語言和音色的合成。該項目允許用戶在本地或雲端(如Colab)環境中運行,並提供了易於使用的整合包和腳本,方便用戶快速上手。
官方網站
Github項目地址: https://github.com/2noise/ChatTTS/tree/main
直接可使用的易用版本ChatTTS_colab: https://github.com/6drf21e/ChatTTS_colab
模型的優勢
- 對話式TTS:ChatTTS針對對話式任務進行了最佳化,能夠實現自然且富有表現力的合成語音。
- 精細的控制:模型可以預測和控制精細的韻律特徵,包括笑聲、停頓和插入語。
- 更好的韻律:ChatTTS在韻律方面超越了大多數開源TTS模型。
ChatTTS安裝
Clone Repo
git clone https://github.com/2noise/ChatTTS
cd ChatTTS
安裝相關套件
pip install --upgrade -r requirements.txt
啟動
python examples/web/webui.py
ChatTTS_colab下載
這個套件真的可以讓人很容易地使用ChatTTS,從官方Github的下載連結下載、解壓縮後,直接便可以使用
點選運行就可以跑出網頁操作介面了
以下為網頁介面的樣子,可使用音色抽卡功能挑選滿意的音色,並且下載該語音模型檔案
另外有Refine Text的功能,這個功能可以透過大語言模型,自動為所輸入的文字加上停頓或笑聲,或者我們也可以自己手動加上這個(使用特別的標籤[uv_break]
或[uv_laugh]
)
也可以透過文本來產生多個人的對話,用::來分隔”腳色”和”對話內容”,例如:
旁白::在一個風和日麗的下午,小紅帽準備去森林裡看望他的奶奶
接著按下步驟1提取腳色,右邊的腳色種子就會根據文本的腳色來出現在表格當中,接著我們可以填入預選好的種子編號以及相關語速、笑聲等設定,就可以將整段對話產生為一個音檔
此為開啟伺服器的python視窗,我們可以看到伺服器正在產生影片
模型產生的音檔試聽
也有整理過的音色評比網站,登入後可直接線上試聽不同的音色