[爆卦]discord文字轉語音是什麼?優點缺點精華區懶人包

為什麼這篇discord文字轉語音鄉民發文收入到精華區:因為在discord文字轉語音這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者saces (saces)看板AI_Art標題[分享] 聲音生成 ElevenLabs 和 d...


最近稍微試了一下ElevenLabs
蠻驚艷的,就來分享一下。
它是一個文字轉語音的AI服務。
還能用已有的聲音去複製聲線
最近很多美國總統玩遊戲的影片都是用這個

有10000字的試用額度,它是連標點符號和空白都算的。
https://i.imgur.com/HVIc1Q6.jpg
上面是文字生聲音
下面是生產或複製聲線

https://i.imgur.com/Un5Q0B6.jpg

介面基本上長這樣。
Stability 越高聲音就越穩定,調低的話情緒會比較明顯,我自己是覺得真實很多。調高
就比較有機械感

Clarity + Similarity Enhancement 就清晰度和原本聲音的相似度。這不建議調太低,
不然效果不好。

一般說話的聲音,我看Discord一些用戶的建議是將 stability 25% Clarity 85%

另外是文字的部分,雖然試用可以一次生成2500字,但太長的話,有時候聲音會突然變調
,建議分段都在500-600字以下。

AI本身會偵測文字的語氣,但也可以用文字敘述,可以在一段話前加上,He said angril
y 或 He whisper。AI就會用相應語氣。用這方法最好將Stability 降到10%左右。

另外 全大寫字母,或是表情符號也有效果


聲線部分,它原本就有一些預設的聲線,其實效果算不錯。非會員可以用隨機生產聲線的
功能。複製聲線功能之前好像被玩壞了,現在只有會員才能用。

隨機的部分,可以選性別、年紀和口音。
https://i.imgur.com/dVFORW3.jpg
Generate 就可以生成一個新的聲線。
並且產生一段範例聲音
但會消耗你範例裡文字數的額度
喜歡的話就可以存起來
我覺得這蠻看運氣的,有時候蠻機械化的,但有時候又能骰到不錯的聲線。

最後就是複製聲音的部分,基本上一小段話丟進去就能複製到非常像,複製本身不會產生
範例,也不會消耗額度。盡量不要有噪音,他們是說五分鐘以上效果最好。

這AI大概是我目前聽過最真實的文字轉語音,不過目前只有英文效果最好,中文可以轉,
但超級爛,完全不建議。

d-id
是另一個文字轉語音加影片。能讓圖片動起來嘴形符合語音。

https://youtu.be/eyJ5kZeSF8k

這影片有在關注AI的可能會有看過。裡面有教學,它本身能文字轉語音,但我覺得效果普
通。你也可以匯入其他的語音。ElevenLabs產的聲音丟進d-I’d效果蠻好的。另外圖片選
擇的時候,盡量選擇正臉的圖片。側臉會變的非常獵奇。


我覺得ElevenLabs運用應該蠻廣的,例如在一些indie game 開發上會蠻有用的。d-id 就
比較像玩具一點。








--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.148.51 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1678386291.A.59B.html
ZMTL: 還沒用直接先問,目前中文可以work嗎XD 03/10 04:08
v86861062: 推推 03/10 07:05
saces: Elevenlab中文會變成有點像外國人講話用拼音發音的感覺, 03/10 08:00
saces: 機械感也很明顯 03/10 08:00
strangegamma: 看起來是真的對indie很有用 03/10 08:35
saces: https://reurl.cc/rL5R6Z discord有人分享用在遊戲中的影 03/10 10:44
saces: 片 03/10 10:44
Vulpix: 中文的話可以考慮微軟的azure平臺,不過沒有太自由的mode 03/10 23:14
Vulpix: l。我想找有沒有人做類似SDwebui這種project可以訓練自己 03/10 23:14
Vulpix: model和生成語音的。 03/10 23:14

你可能也想看看

搜尋相關網站