最新推荐
-
EZStationv3.9.0官方版 媒体软件 / 52.4M
-
趣看全媒体一体化导播台v6.0.0.515官方版 媒体软件 / 192M
-
4Easysoft DVD to AMV Converter(视频转换软件)v3.2.20官方版 媒体软件 / 7.5M
-
迅捷音频编辑软件v2.1.0.36官方版 媒体软件 / 46M
-
酷猫直播助手v1.38官方版 媒体软件 / 93.6M
精品推荐
-
Magic Audio Joiner(音频合并软件)v2.9.6官方版 媒体软件 / 8.0M
查看 -
4Easysoft TOD Converter(视频转换工具)v3.2.22官方版 媒体软件 / 7.9M
查看 -
DmitriRender(视频插帧软件)v5.0.0.1免费版 媒体软件 / 81.1M
查看 -
迷你音乐v1.4.0官方版 媒体软件 / 84.0M
查看 -
超级lrc播放器v5.2.4官方版 媒体软件 / 59.8M
查看
本类排行
详情介绍
MoeTTS是仓库发布的非常优秀的Tacotron2/HifiGAN模型+编译的GUI版本。大多数角色的语音合成效果都非常好,稍后会发布到MoeTTS项目页面。
MoeTTS是一个非常优秀的Tacotron2/HifiGAN模型+编译好的GUI版本发布仓库。大部分角色的语音合成效果非常好,后续会发布到MoeTTS项目页面。
基本介绍
MoeTTS是一个Tacotron2/HifiGAN模型+编译的GUI版本发布仓库。训练时间为3天,约900 Epoch。 13人大模型还在训练中,稍后会发布到MoeTTS项目页面。视频背后的模型是400 Epoch。经过5天的训练,大部分字符的语音合成都很好,但少数数据较少的字符则不太好。
指示
模型目录格式
单个模型可以放置在任何地方。如果模型有配置文件,请将其重命名为config.json,并将其放在与TTS模型同一目录下。 (例如hifigan、vits型号,它们都带有配置文件)
对于VITS型号,请将config.json中的cleaners更改为custom_cleaners
文本输入格式
文本一般是输入音素(日语应该在这里输入罗马发音),但是这取决于模型训练者如何输入数据。例如,我的ATRI模型(Tacotron2版本)输入罗马化时不带空格,标点符号仅支持逗号和句点。
定制清洁剂和符号
您可以在moetts.exe 的同一目录中找到custom 文件夹,该文件夹存储了两个模型的文本模块。
自定义cleaner:找到cleaners.py,修改custom_cleaners函数(软件默认只会去除symbol中不存在的字符,不会对文本进行进一步处理)
自定义符号:找到symbols.py,将里面的符号改为自己需要的符号。
注意:不同的模型可能会使用不同的清洁剂和符号进行训练。如有必要请进行修改,以保证模型能够正常使用。
如何使用图形用户界面
塔科特隆2
选择你的模型路径和输出目录,最后输入要合成的文本,点击Synthesize Speech,稍等片刻,软件就会将音频输出到输出目录/outpus.wav
防范措施:
第一次综合需要加载模型,耗时较长。如果再次合成同一个模型,则不会再次加载,直接合成。
如果切换模型,将重新加载再次合成。
如果修改了清洁剂和符号,则重新启动软件后才会生效。
该软件为64位版本,不支持32位系统。
VITS 的特别说明
VITS-Single 和VITS-Multi 分别是单角色模型和多角色模型。
VITS-Multi中的原始角色ID为待合成语音的角色ID,需要填写数字。目标角色ID为待迁移语音迁移功能的目标角色ID。
要迁移的音频需要22050、16 位和单声道的采样率。