2022年9月18日-22日,全球语音领域顶级会议INTERSPEECH 2022在韩国仁川举办。“云知声-上师大自然人机交互”联合实验室携提出的关于声音事件检测、单通道语音增强方向的2篇论文参会。这是继2022年6月亮相ICASSP2022(技术论文被收录)之后,云知声在2022年再一次获得国际语音顶会的认可。
INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,也是全球最大的综合性语音领域的科技盛会,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。
本届会议以“Human and humanizing speech technology”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域,收到近万篇投稿论文。会议研究成果代表着语音相关领域的最新研究水平和未来的技术发展趋势。此次论文入选,代表云知声在语音交互领域持续的技术创新。
声音事件检测
在声音事件检测方向,研究团队提出了一个教师-学生(Teacher-Student)半监督学习框架,充分利用强标签数据、弱标签数据与大量无标签数据训练模型,有效解决标签数据匮乏的问题。为了提高模型的检测能力,研究团队提出通过两阶段的训练策略并聚焦于难以分类的事件,以及利用一种深度特征蒸馏方法,更详细地关注到时间轴上细致的声学信息。
同时,研究团队还提出语音分离技术辅助声音事件检测系统建模的方法,通过使用分离数据与混合数据联合调整训练模型的方式,有效解决事件重叠与背景噪声干扰对系统建模带来的影响。在DCASE2019 Task4 数据集上,研究团队所提出的方案在F1, PSDS1 and PSDS2得分上分别达到了46.5%, 44.5%以及75.4%,相比baseline提高了2.2%, 7.2%以及20.5%,充分体现了所提出方案的优势。
单通道语音增强:
在单通道实时语音增强方向,研究团队提出了一个基于PercepNet模型并感知语音相位与信噪比的实时语音增强方案(PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement),该方案提取多种声学特征,以获取语音包括幅度,相位,基音周期在内的多种声学属性。这些特征被进一步在模型中使用提取时间相关性和频率相关性的GRU网络层进行融合,以提升该语音增强系统的性能。
同时,研究团队还提出一种基于信噪比的后处理机制,旨在改善语音增强中的过度抑制问题。该机制利用网络估计得到的语音信噪比为阈值条件,决定基于MMSE-LSA的后处理方法是否被应用于当前输入语音。研究团队的模型在VCTK测试集上达到了2.65 (PESQ) 的得分,相比原PercepNet模型的得分相对提升了8%,充分验证了所提出方案的有效性。
人工智能成功的关键在于应用。为不断拓宽自身基础能力边界,云知声深入探究语音领域中的语音识别、语音增强、信号处理、声纹识别、声音事件检测等诸多方向,形成丰富技术积累,并将相关技术在多个领域以及行业进行应用,取得诸多成功案例。比如云知声的ASR技术被广泛应用于音视频翻译、会议系统、同声传译、三代共6款专用AI语音交互芯片等相关产品与场景。
其中,云知声输出的软硬一体的语音交互芯片产品,覆盖各种形态的多品类产品,市占率领先,出货量不断增长。为国内传统行业迅速实现智能化产品升级与改造,提供了技术保障。
本次在 INTERSPEECH 2022 大会上提出的原创技术,也将进一步夯实云知声全栈+硬核的人工智能技术“底座”,提高云知声在语音交互领域的技术领先性,推动人工智能系统以更人性化、高效的方式服务于千行百业,为用户带来更好的交互体验。