文字轉語音的開源套件ChatTTS

ChatTTS介紹

chatTTS 是一個開源的文本轉語音（Text-to-Speech, TTS）項目，旨在將文字內容轉換為接近人類真實聲音的語音輸出。該項目在GitHub上迅速獲得了大量關注，因其語音合成效果非常逼真，甚至超越了一些商用TTS服務。chatTTS使用了大量的語音數據進行訓練，目前提供的模型已能夠生成語氣、停頓和節奏都極其自然的語音，並且支持多種語言和音色的合成。該項目允許用戶在本地或雲端（如Colab）環境中運行，並提供了易於使用的整合包和腳本，方便用戶快速上手。

官方網站

Github項目地址: https://github.com/2noise/ChatTTS/tree/main

直接可使用的易用版本ChatTTS_colab: https://github.com/6drf21e/ChatTTS_colab

模型的優勢

對話式TTS：ChatTTS針對對話式任務進行了最佳化，能夠實現自然且富有表現力的合成語音。
精細的控制：模型可以預測和控制精細的韻律特徵，包括笑聲、停頓和插入語。
更好的韻律：ChatTTS在韻律方面超越了大多數開源TTS模型。

ChatTTS安裝

Clone Repo

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安裝相關套件

pip install --upgrade -r requirements.txt

啟動

python examples/web/webui.py

ChatTTS_colab下載

這個套件真的可以讓人很容易地使用ChatTTS，從官方Github的下載連結下載、解壓縮後，直接便可以使用

點選運行就可以跑出網頁操作介面了

以下為網頁介面的樣子，可使用音色抽卡功能挑選滿意的音色，並且下載該語音模型檔案

另外有Refine Text的功能，這個功能可以透過大語言模型，自動為所輸入的文字加上停頓或笑聲，或者我們也可以自己手動加上這個(使用特別的標籤[uv_break]或[uv_laugh])

也可以透過文本來產生多個人的對話，用::來分隔”腳色”和”對話內容”，例如:

旁白::在一個風和日麗的下午，小紅帽準備去森林裡看望他的奶奶

接著按下步驟1提取腳色，右邊的腳色種子就會根據文本的腳色來出現在表格當中，接著我們可以填入預選好的種子編號以及相關語速、笑聲等設定，就可以將整段對話產生為一個音檔

此為開啟伺服器的python視窗，我們可以看到伺服器正在產生影片

模型產生的音檔試聽

也有整理過的音色評比網站，登入後可直接線上試聽不同的音色

https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker