RVC的使用教程（WEB_UI推理版）

这是写给从未接触RVC的小伙伴们，近期有许多入门的小伙伴刚刚接触RVC，不太懂如何能跑通，本教程将会以最简单通俗的讲法来教您。

配置

项目	最低能跑	建议入门
显卡	GTX 1060 6 G 及以上 NVIDIA 卡	RTX 3060 12 G
CPU	4 核 8 线程	10 代 i5 / R5-5600 以上
内存	8 GB	16 GB
系统	Win10/11 64 位	同左

下载

网络环境好的小伙伴可以直接在Github上下载整合包，我们的所有模型都是基于（2.2.231006）该版本训练而成。

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases/tag/2.2.231006

当然作者也准备了慢速包的下载地址。

	RVC国内满速下载直链
老版&非50系N卡	https://www.modelscope.cn/models/FlowerCry/rvc-windows-packages/resolve/master/RVC20231006Nvidia.7z
老版&A卡I卡	https://www.modelscope.cn/models/FlowerCry/rvc-windows-packages/resolve/master/RVC20231006AMD_Intel.7z
新版&非50系N卡	https://www.modelscope.cn/models/FlowerCry/rvc-windows-packages/resolve/master/RVC20240604Nvidia.7z
新版&50系N卡	https://www.modelscope.cn/models/FlowerCry/rvc-windows-packages/resolve/master/RVC20240604Nvidia50x0.7z
新版&A卡I卡	https://www.modelscope.cn/models/FlowerCry/rvc-windows-packages/resolve/master/RVC20240604AMD_Intel.7z

下载完成后直接解压。

其中，你只需要注意项目根目录下的两个文件：

go-realtime-gui.bat（实时变声客户端）

go-web.bat（RVC_Web）

这两个的区别在于前者只需要配合声卡（虚拟声卡）跳线，即可实时进行音色的转换。后者可以进行音频推理以及模型的训练。

模型训练以及实时变声客户端这里就不进行阐述，上方模型关联有教程，如果您感兴趣，可以看看《从入门到精通》的这个教程。

这里主要教大家怎么使用RVC_web进行音频推理（一般用于ai翻唱，二创）等。

推理

go-web.bat，双击打开文件，控制台会输出以下信息：

\RVC1006Nvidia>runtime\python.exe infer-web.py --pycmd runtime\python.exe --port 6968默认端口是6969，我这里由于和其他端口有冲突，改成了6968，如果遇到警告端口冲突，你只需要在go-web.bat编辑一个新的端口重新运行即可。
2025-09-21 13:55:10 | INFO | configs.config | Found GPU NVIDIA GeForce RTX 4090这里是你的GPU信息，如果无，可能你没有选择对应的整合包版本，识别不出来。
is_half:True, device:cuda:0同上
2025-09-21 13:55:14 | INFO | __main__ | Use Language: zh_CN默认的语言。

Running on local URL: http://0.0.0.0:6968

之后就会弹出网页（可能有一部分小伙伴的电脑弹不出来，那么就请你在浏览器中输入）http://127.0.0.1:6969即可。基本上在这里你的环境就没有什么问题。有问题可能结合问题搜索一下解决方法。

—–补充——-

有小伙伴控制台一直没有跳出这个网页这一步，卡住了。解决方法，控制台回车即可。

这里比较重要，要想获得推理的模型，首先将我们的模型放入。

RVC1006Nvidia\assets\weights

切记，以后下载的所有rvc模型，后缀带有pth一律要放在这个文件夹内。

之后，我们刷新音色列表和索引路径即可，下拉到我们放入的模型。

关于index后缀，你可以随便放在什么地方，然后将路径填写到[特征检索库文件路径,为空则使用下拉的选择结果]即可。

变调：假设我们的模型告诉你是女声的音源，那么你是男声，你就在这里直接填入数字12，当然你也可以填写一个你认为差不多的音调数值。反之，我们的模型告诉你是男生的音源，那么数字就要填写-12。也是根据实际情况来填写数值。往往很多时候，小伙伴下载的模型和预览的模型听起来不一样，这里需要解释，每个人的音源都不同，所以大概只能达到70-80%相似程度，比如一个模型，a用和b用两个音色都会有一些差别。这里你只能根据变调来调整一个你觉得合适的位置。

输入待处理音频文件路径(默认是正确格式示例)：填写一个干净的音源，模型就会输出这个音源所说的话或者歌曲。