Posted on

文字轉語音的開源套件ChatTTS

ChatTTS介紹

chatTTS 是一個開源的文本轉語音(Text-to-Speech, TTS)項目,旨在將文字內容轉換為接近人類真實聲音的語音輸出。該項目在GitHub上迅速獲得了大量關注,因其語音合成效果非常逼真,甚至超越了一些商用TTS服務。chatTTS使用了大量的語音數據進行訓練,目前提供的模型已能夠生成語氣、停頓和節奏都極其自然的語音,並且支持多種語言和音色的合成。該項目允許用戶在本地或雲端(如Colab)環境中運行,並提供了易於使用的整合包和腳本,方便用戶快速上手。

官方網站

Github項目地址: https://github.com/2noise/ChatTTS/tree/main

直接可使用的易用版本ChatTTS_colab: https://github.com/6drf21e/ChatTTS_colab

模型的優勢

  1. 對話式TTS:ChatTTS針對對話式任務進行了最佳化,能夠實現自然且富有表現力的合成語音。
  2. 精細的控制:模型可以預測和控制精細的韻律特徵,包括笑聲、停頓和插入語。
  3. 更好的韻律:ChatTTS在韻律方面超越了大多數開源TTS模型。

ChatTTS安裝

Clone Repo 

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安裝相關套件

pip install --upgrade -r requirements.txt

啟動

python examples/web/webui.py

ChatTTS_colab下載

這個套件真的可以讓人很容易地使用ChatTTS,從官方Github的下載連結下載、解壓縮後,直接便可以使用

點選運行就可以跑出網頁操作介面了

以下為網頁介面的樣子,可使用音色抽卡功能挑選滿意的音色,並且下載該語音模型檔案

另外有Refine Text的功能,這個功能可以透過大語言模型,自動為所輸入的文字加上停頓或笑聲,或者我們也可以自己手動加上這個(使用特別的標籤[uv_break][uv_laugh])

也可以透過文本來產生多個人的對話,用::來分隔”腳色”和”對話內容”,例如:

旁白::在一個風和日麗的下午,小紅帽準備去森林裡看望他的奶奶

接著按下步驟1提取腳色,右邊的腳色種子就會根據文本的腳色來出現在表格當中,接著我們可以填入預選好的種子編號以及相關語速、笑聲等設定,就可以將整段對話產生為一個音檔

此為開啟伺服器的python視窗,我們可以看到伺服器正在產生影片

模型產生的音檔試聽

也有整理過的音色評比網站,登入後可直接線上試聽不同的音色

https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker