公告

建议用pc端或平板访问,否则少了很多东西哦~ 登录后台

ChatTTS

2025-4-16 18:00

|

ChatTTS(链接可点击)用于日常对话的生成语音模型。

1.我需要多少VRAM？推理速度如何？

对于 30 秒的音频片段，至少需要 4GB （所以低端显卡也能使用非常nice!）的 GPU 内存。对于 4090 GPU，它可以每秒生成大约 7 个语义 token 对应的音频。实时因子 (RTF)约为0.3。

2.模型稳定性不够好，存在多个说话者或音频质量差等问题。
这是一个通常发生在自回归模型（例如 bark 和valle）中的问题，通常很难避免。可以尝试多个样本以找到合适的结果。

3.除了笑声，我们还能控制其他东西吗？我们能控制其他情绪吗？
在当前发布的模型中，可用的 token 级控制单元是［laugh] ，［uv_break］和[1break]。未来的版本中，我们可能会开源具有更多情绪控制功能
的模型。

如果可以的话，欢迎投喂~

暂无评论

发送评论编辑评论

Markdown

悄悄话

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!