為什麼這篇discord文字轉語音鄉民發文收入到精華區:因為在discord文字轉語音這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者saces (saces)看板AI_Art標題[分享] 聲音生成 ElevenLabs 和 d...
最近稍微試了一下ElevenLabs
蠻驚艷的,就來分享一下。
它是一個文字轉語音的AI服務。
還能用已有的聲音去複製聲線
最近很多美國總統玩遊戲的影片都是用這個
有10000字的試用額度,它是連標點符號和空白都算的。
https://i.imgur.com/HVIc1Q6.jpg
上面是文字生聲音
下面是生產或複製聲線
https://i.imgur.com/Un5Q0B6.jpg
介面基本上長這樣。
Stability 越高聲音就越穩定,調低的話情緒會比較明顯,我自己是覺得真實很多。調高
就比較有機械感
Clarity + Similarity Enhancement 就清晰度和原本聲音的相似度。這不建議調太低,
不然效果不好。
一般說話的聲音,我看Discord一些用戶的建議是將 stability 25% Clarity 85%
另外是文字的部分,雖然試用可以一次生成2500字,但太長的話,有時候聲音會突然變調
,建議分段都在500-600字以下。
AI本身會偵測文字的語氣,但也可以用文字敘述,可以在一段話前加上,He said angril
y 或 He whisper。AI就會用相應語氣。用這方法最好將Stability 降到10%左右。
另外 全大寫字母,或是表情符號也有效果
聲線部分,它原本就有一些預設的聲線,其實效果算不錯。非會員可以用隨機生產聲線的
功能。複製聲線功能之前好像被玩壞了,現在只有會員才能用。
隨機的部分,可以選性別、年紀和口音。
https://i.imgur.com/dVFORW3.jpg
Generate 就可以生成一個新的聲線。
並且產生一段範例聲音
但會消耗你範例裡文字數的額度
喜歡的話就可以存起來
我覺得這蠻看運氣的,有時候蠻機械化的,但有時候又能骰到不錯的聲線。
最後就是複製聲音的部分,基本上一小段話丟進去就能複製到非常像,複製本身不會產生
範例,也不會消耗額度。盡量不要有噪音,他們是說五分鐘以上效果最好。
這AI大概是我目前聽過最真實的文字轉語音,不過目前只有英文效果最好,中文可以轉,
但超級爛,完全不建議。
d-id
是另一個文字轉語音加影片。能讓圖片動起來嘴形符合語音。
https://youtu.be/eyJ5kZeSF8k
這影片有在關注AI的可能會有看過。裡面有教學,它本身能文字轉語音,但我覺得效果普
通。你也可以匯入其他的語音。ElevenLabs產的聲音丟進d-I’d效果蠻好的。另外圖片選
擇的時候,盡量選擇正臉的圖片。側臉會變的非常獵奇。
我覺得ElevenLabs運用應該蠻廣的,例如在一些indie game 開發上會蠻有用的。d-id 就
比較像玩具一點。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.148.51 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1678386291.A.59B.html