![]() |
Midjourney授权图片 |
#AI工具 我们介绍了 Fish Audio 在榜单的位置,以及为什么选择 Fish Audio 。本篇文章我们将讲述 Fish Audio 用法和使用建议。{AlertInfo}
{getToc} $title={Table of Contents}
选择音色
对于如何选择克隆音色,选择自己需要的就好,这里就不在提及,对于中文用户登录后,选择Chinese切换到中文音色。
如何生成
基础用法
Fish audio使用建议
- 推荐使用 简体中文。
- 文本不要太长(尽量控制在 2~3 句话,100 字以内),否则容易卡顿或语音不自然。
- 如需生成长文本,可分段调用多次合成。
高级用法:控制指令
所有控制指令都必须放在括号 ()
内。此语法是通用的。
作用范围: 一个指令会对其后的所有文本生效,直到遇到一个新的指令。中文的指令放置规则比其他语言更灵活,详见下文。
指令分为三大类:情感指令、语气控制指令和副语言指令
情感指令
情感指令用于设定一句话或一个短语的情感基调。
规则: 情感指令可以放置在句子的 开头 或 中间,这为表达提供了更大的灵活性。
示例:
句首用法:(愤怒)你就是这样回报我的吗?
我对你这么信任,(愤怒)你就是这样回报我的吗?
常用中文指令列表:
正面情绪:(开心)
(兴奋)
(高兴)
(得意)
(坚定)
(感激)
(自信)
(愉快)
(生气)
(气愤)
(愤怒)
(讽刺)
(讥讽)
(悲伤)
(难过)
(无奈)
(失望)
(着急)
(内疚)
(沮丧)
(疑惑)
(疑问)
(质问)
(思考)
(惊讶)
(震惊)
(严肃)
(平静)
语气控制指令
放置在句子的任意位置,以调整声音的表达方式。
速度控制:
(语速变快)
:用于营造紧张、急切的氛围。
示例: 快走!后面有人在追,(语速变快)再不跑就来不及了!
(语速变慢)
:用于营造庄重、思考或强调的氛围。
示例: 他一字一顿,(语速变慢)仿佛每个字都有千斤重。
音量/音调控制:
(大声)
:用于模拟喊叫或需要特别强调的场景。
示例: (大声)你说什么?我听不见!
(声音变小)
:用于模拟耳语、自言自语或悄悄话。
示例: 他凑到我耳边,(声音变小)悄悄告诉我一个秘密。
(语气激动)
:用于表达强烈的情绪波动,如惊喜、激动。
示例: 这太不可思议了!(语气激动)我们竟然真的成功了!
副语言指令
这类指令用于模拟非语言声音,并且 必须 后跟相应的拟声词。
(大笑)
:用于表达开怀大笑。示例:
听到这个笑话,他再也忍不住了,(大笑)哈哈哈哈!
(哭泣)
:用于表达伤心哭泣。
她捂着脸,(哭泣)呜呜呜,再也说不出一句话。
(叹气)
:用于表达失望、无奈或疲惫。
事情怎么会变成这样……(叹气)唉。
高级用法与组合示例
组合不同的指令,可以创造出富有层次和动态变化的语音效果。
中文示例 (展示灵活性):
(愤怒)你竟然敢背叛我!(语气激动) 我对你这么信任,(大声) 你就是这样回报我的吗?
重要提示与最佳实践
- 严格遵守规则: 虽然中文规则较灵活,但将情感指令置于情感单元的开头通常能获得最清晰的效果。
- 优先使用标准指令: 上述列表中的官方指令具有最高的准确率。
- 慎用描述性指令: 避免创造如
(用悲伤安静的声音)
这样的复杂指令。模型很可能会直接读出它,而不是执行命令。应组合使用标准指令,例如(悲伤)(声音变小)
。 - 避免指令过度堆砌: 在短句中使用过多指令可能会干扰模型,请有目的地使用。
- 注意已知问题: 某些拟声词(特别是笑声或哭声)的发音偶尔可能听起来不自然。这是一个我们正努力改进的已知问题。
就是 目前最新的模型就是S1 。{alertWarning}
使用指导
[1] https://github.com/fishaudio/fish-speech?tab=readme-ov-file
[2] https://docs.fish.audio/emotion-control/tts-emotion-and-control-tags-user-guide-zh
更多阅读
TTS Fish Audio 榜单的选择:https://www.lksr.net/2025/06/AI-tools-TTS-for-Chinese.html
Fish Audio 地址:
版权声明:Ahmedabad
感谢您的阅读,除非文中已经注明来源网站,否则均为理科生网原创内容,转载时请务必以超链接(而非纯文本链接)标注来源于理科生网及本文完整链接,感谢!{alertInfo}