Cn_hubert使用说明
近期,我们发现有部分用户对模型在【咬字】方面的表现提出了反馈...
近期,我们发现有部分用户对模型在【咬字】方面的表现提出了反馈。经过多次对比测试与技术分析,我们确认在 Retrieval-based-Voice-Conversion-WebUI 项目中, HuBERT_base 对整体的发音清晰度、咬字准确性以及语音特征抽取,起到了至关重要的作用。 在深度追踪问题后,我们进一步发现: 不同版本的 HuBERT(如 hubert_base、chinese-hubert、改进自监督版本)在特征提取上的差异,会直接影响模型对辅音/爆破音/弱音的识别。 若底模使用的 HuBERT 权重质量不稳定,可能导致推理阶段出现 口胡、吞字、咬字不准、辅音残缺 等问题。 用户训练的数据集质量(清晰度、情绪变化、噪音、断句)也会被 HuBERT 放大或弱化,从而影响最终的咬字效果。 为此,在前期的实验中,我们尝试对 Retrieval-based-Voice-Conversion-WebUI 所使用的 HuBERT_base 进行微调。为了确保之前模型能够与原有的自监督 HuBERT_base 权重保持兼容,我们特意 冻结了模型的部分前置层 ,仅对高层进行微调,使其在保留基础特征的同时适应新的训练数据。 然而在实际验证中我们发现: 虽然这种方法在某些场景下带来了一定的改善,但总体效果依旧不理想。此前所有基于旧特征训练的模型在推理时普遍出现 咬字混乱、发音漂移、甚至胡言乱语 等现象,影响较为严重。 显然,这次基于层冻结策略的微调并未达到预期目标,也无法满足用户对于咬字稳定性的要求。我们已判定该方向为一次失败的微调尝试,并基于此经验调整后续的优化路线。 之后我们不得不改变策略,直接使用chinese-hubert自监督模型来训练特征模型。 如何判断您的模型使用的是哪种 HuBERT 自监督模型 在模型详情页中,您可以在顶部看到该模型所使用的 HuBERT 类型: 详情页顶部的模型参数区域会明确显示: 如果这里显示为: Cn_hubert ,那么您必须按照下方教程进行操作,否则推理时模型将会出现:胡言乱语 / 咬字错误 / 发音混乱 等问题。 HuBERT...
Cn_hubert, rvc, 咬字, 模型, 清晰
使用帮助