GPT-SoVITS语音合成简单教程

使用GPT-SoVITS,通过别人训练好的模型来合成自己需要的语音。

首先需要关注up主:花儿不哭

在ta的私信中下载整合包。我下载的是GPT-SoVITS-beta0217fix,这个整合包你可以训练自己的语音,生成模型。

也可以使用别的地方下载的模型来直接合成语音。接下来我带来的是合成语音的方法。

一、打开webui

打开解压文件的根目录,然后双击go-webui.bat文件打开。等待一会将会在浏览器打开ui操作界面。

image-20240517204002390

二、下载模型

在up主白菜工厂1145号员工提供教程视频中,你可以学到详细的语音训练过程。我在这里只带来使用模型的方法,适合想要快速玩到语音合成的玩家。

首先你需要在该up主的教程视频下找到他的语雀文档。

以下是视频简介:

文档链接:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e?# 《GPT-SoVITS指南》 视频讲的不是很详细,请对照着文档看 感谢花儿不哭,海鱼Harry的共同编写。感谢项目的所有贡献者 我的小交流群:941610468 字幕:自动识别(过几天我会重新上传字幕的)

打开文档链接之后,直接ctrl+f搜索“派蒙”,点击下载作者提供的派蒙模型。

image-20240517204610627

下载完成后记得解压。之后我们需要将模型放在固定的位置。

三、使用模型

image-20240517204749302

将模型压缩文件解压完成后,打开\派蒙-30h\模型目录

以及整合包根目录,找到对应名字的文件夹,两个后缀是weights的文件夹。

image-20240517204920301

将文件夹中的模型文件复制到对应的文件夹里。

image-20240517205102717

四、合成语音

开启TTS推理webui

还记得前面已经打开了webui了吗?现在直接看图,点击开启TTS推理webui

image-20240517205257452

等待一会,浏览器会启动一个新的页面。

具体模型怎么选可以看文档,不想了解的话SoVITS模型可以随便选一个试试。

image-20240517205405826

上传参考音频

点击上传参考音频的窗口,进入派蒙-30h\参考音频文件夹,选中需要的语气语调参考音频。

建议各种不同的参考音频和文本都尝试一下,会有不同的效果哦!

先复制一下文件名,比如“激动—好耶!《特尔克西的奇幻历险》出发咯!”

image-20240517205830333

参考文本一定要填,无参考文本模式会让效果大打折扣,最好别用。

image-20240517205853737

之后再下方需要合成的文本中输入你要合成的语音内容就行了

关于“怎么切”,这个我觉得要自己去感受,我习惯使用的是按中文句号切,感觉流畅一些。你可以每个都试试。右边的参数不用动。

top_k属性调高,可以让优秀的和劣质的语音出现概率增加,如果你的模型训练的不好,可以用这个碰碰运气。

image-20240517210128224

合成语音

点击合成语音就能够获得音频了,可以试听也可以点击右侧三个点可以下载使用。

image-20240517210322194