Cn_hubert使用说明

近期，我们发现有部分用户对模型在【咬字】方面的表现提出了反馈...

近期，我们发现有部分用户对模型在【咬字】方面的表现提出了反馈。经过多次对比测试与技术分析，我们确认在 Retrieval-based-Voice-Conversion-WebUI 项目中， HuBERT_base 对整体的发音清晰度、咬字准确性以及语音特征抽取，起到了至关重要的作用。在深度追踪问题后，我们进一步发现：不同版本的 HuBERT（如 hubert_base、chinese-hubert、改进自监督版本）在特征提取上的差异，会直接影响模型对辅音/爆破音/弱音的识别。若底模使用的 HuBERT 权重质量不稳定，可能导致推理阶段出现口胡、吞字、咬字不准、辅音残缺等问题。用户训练的数据集质量（清晰度、情绪变化、噪音、断句）也会被 HuBERT 放大或弱化，从而影响最终的咬字效果。为此，在前期的实验中，我们尝试对 Retrieval-based-Voice-Conversion-WebUI 所使用的 HuBERT_base 进行微调。为了确保之前模型能够与原有的自监督 HuBERT_base 权重保持兼容，我们特意冻结了模型的部分前置层，仅对高层进行微调，使其在保留基础特征的同时适应新的训练数据。然而在实际验证中我们发现：虽然这种方法在某些场景下带来了一定的改善，但总体效果依旧不理想。此前所有基于旧特征训练的模型在推理时普遍出现咬字混乱、发音漂移、甚至胡言乱语等现象，影响较为严重。显然，这次基于层冻结策略的微调并未达到预期目标，也无法满足用户对于咬字稳定性的要求。我们已判定该方向为一次失败的微调尝试，并基于此经验调整后续的优化路线。之后我们不得不改变策略，直接使用chinese-hubert自监督模型来训练特征模型。如何判断您的模型使用的是哪种 HuBERT 自监督模型在模型详情页中，您可以在顶部看到该模型所使用的 HuBERT 类型：详情页顶部的模型参数区域会明确显示：如果这里显示为： Cn_hubert ，那么您必须按照下方教程进行操作，否则推理时模型将会出现：胡言乱语 / 咬字错误 / 发音混乱等问题。 HuBERT...

Cn_hubert, rvc, 咬字, 模型, 清晰

使用帮助