Cn_hubert使用说明

Cn_hubert使用说明

近期,我们发现有部分用户对模型在【咬字】方面的表现提出了反馈。经过多次对比测试与技术分析,我们确认在 Retrieval-based-Voice-Conversion-WebUI 项目中,HuBERT_base 对整体的发音清晰度、咬字准确性以及语音特征抽取,起到了至关重要的作用。

在深度追踪问题后,我们进一步发现:

  • 不同版本的 HuBERT(如 hubert_base、chinese-hubert、改进自监督版本)在特征提取上的差异,会直接影响模型对辅音/爆破音/弱音的识别。

  • 若底模使用的 HuBERT 权重质量不稳定,可能导致推理阶段出现 口胡、吞字、咬字不准、辅音残缺 等问题。

  • 用户训练的数据集质量(清晰度、情绪变化、噪音、断句)也会被 HuBERT 放大或弱化,从而影响最终的咬字效果。

为此,在前期的实验中,我们尝试对 Retrieval-based-Voice-Conversion-WebUI 所使用的 HuBERT_base 进行微调。为了确保之前模型能够与原有的自监督 HuBERT_base 权重保持兼容,我们特意 冻结了模型的部分前置层,仅对高层进行微调,使其在保留基础特征的同时适应新的训练数据。

然而在实际验证中我们发现:
虽然这种方法在某些场景下带来了一定的改善,但总体效果依旧不理想。此前所有基于旧特征训练的模型在推理时普遍出现 咬字混乱、发音漂移、甚至胡言乱语 等现象,影响较为严重。

显然,这次基于层冻结策略的微调并未达到预期目标,也无法满足用户对于咬字稳定性的要求。我们已判定该方向为一次失败的微调尝试,并基于此经验调整后续的优化路线。

之后我们不得不改变策略,直接使用chinese-hubert自监督模型来训练特征模型。

如何判断您的模型使用的是哪种 HuBERT 自监督模型

在模型详情页中,您可以在顶部看到该模型所使用的 HuBERT 类型:

模型详情页截图

详情页顶部的模型参数区域会明确显示:

模型参数截图

如果这里显示为:Cn_hubert,那么您必须按照下方教程进行操作,否则推理时模型将会出现:胡言乱语 / 咬字错误 / 发音混乱 等问题。


HuBERT 替换教程(务必仔细阅读)

请前往 Retrieval-based-Voice-Conversion-WebUI 的安装目录,并找到以下文件:

assets/hubert/hubert_base.pt

此文件就是 WebUI 推理时所依赖的 HuBERT 模型。

当使用“Cn_hubert 训练的模型”进行推理时,必须将此文件替换为我们提供的 Cn_hubert 版本,否则会导致推理异常。


Cn_hubert 下载地址

123 云盘: 点击下载

海外直链: 点击下载


替换步骤(请严格按顺序执行)

  1. 从上方链接下载 Cn_hubert 版本的 hubert_base.pt 文件。
  2. 进入您的 RVC WebUI 目录,找到:
    assets/hubert/hubert_base.pt
  3. 务必先手动备份原文件。
  4. 将下载好的新的 hubert_base.pt 覆盖原文件。
  5. 重新启动 WebUI。

由于“二改”版本或其他版本目录不一致的情况,直接在根目录下搜索hubert_base.pt替换也是可以的。


重要注意事项(一定要看!)

① 如果您使用的是 “非 Cn_hubert” 训练的模型:

如果你用的是En_hubert训练的模型替换成 Cn_hubert 后,会导致推理出现胡言乱语。

解决方法:换回您备份的原版 hubert_base.pt。

② 如果您使用的是 “Cn_hubert 训练的模型”:

不替换成 Cn_hubert 版本的 hubert_base.pt,也会出现胡言乱语。

解决方法:安装我们提供的 Cn_hubert 版本并重新启动 WebUI。


总结

一句话规则:

  • 用 Cn_hubert 训练的模型 → 必须使用 Cn_hubert 版本的 hubert_base.pt
  • 用原版 HuBERT 训练的模型 → 必须使用原版 hubert_base.pt
  • 在换句话说,如果你看到模型参数用的是Cn_hubert你就按照这篇操作文档替换来即可,如果是En_hubert则不需要更改任何文件,使用原版rvc加载模型即可。

只要 HuBERT 与模型训练时使用的版本不一致,就会直接导致推理出现发音混乱。

后期

之后,我们将陆续发布一批基于 Cn_hubert 自监督模型 训练的中文模型,用于改善中文场景下的【咬字】清晰度与稳定性。
需要注意的是:该系列模型主要针对 中文语音特征 优化,因此 无法保证在其他语言中的咬字准确度

未来,我们仍会在大部分模型训练中继续采用 Retrieval-based-Voice-Conversion-WebUI 原始的自监督 HuBERT 模型,以确保整体生态的兼容性与跨语言表现的稳定性。

最新活动

  1. 开通永久会员享受一次免费专属模型定制,之后定制模型按照五折计算,全场精品模型无限制免费下载。
  2. 开通普通会员全场精品模型每日限量下载,免费模型无限制下载。定制模型按照八折计算。
  3. 模型定制区全面开通,最优惠的价格,响应速度快,模型质量高。模型定制100起,快来定制您的专属模型吧。
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容