10月30日、11月1日晚上,计算机学院2023秋季学期第二期@World“触感学术前沿”国际化交流活动顺利举办。本期活动邀请到了学院四位优秀学生张奥、张雍茂、宋堃、王晴。他们围绕各自的研究方向与在场同学进行了深入的交流、分享了最新的研究成果和经验心得。本场活动为我院学生提供了一个更加细化、专业化的学术交流平台,使得@World“触感学术前沿”系列活动更加丰富多元。
张奥分享了自己的ICASSP参会感受及对视听关键词检出论文做了简单介绍。在报告中,张奥详细地介绍了基于音频模态的关键词检出(KWS)系统在远场和有噪声干扰情况下性能下降的问题。为了解决这个问题,其团队提出了一种利用视觉信息提升性能的端到端关键词检出方法(VE-KWS)。该方法通过将视觉特征与音频特征相结合,提高了关键词检出的准确率。
张雍茂在报告中分享了interspeech参会感受及端到端歌声合成系统。这场报告探讨了端到端歌声合成 (SVS) 模型VISinger以及它的改进版本VISinger 2。原始VISinger模型相对于传统的两阶段歌声合成系统具有更少的参数,但存在一些问题,如文本到相位问题、谱断裂问题和低采样率。解决这些问题,张雍茂及团队将数字信号处理(DSP)方法与VISinger相结合,提出了VISinger 2模型。这个新的模型能够合成44.1kHz的歌声,带来了更丰富的表达和更好的音频质量。
宋堃分享了cassp参会感受并介绍了团队的鲁棒神经声码器论文。在报告中,宋堃介绍了团队的研究成果——DSPGAN,一个基于生成对抗网络的数字信号处理的声码器。这种技术在语音合成领域中显示出很大的潜力,尤其是在时域和频域的监督方法上。他在报告中详细描述了如何使用基于GAN的DSP来提高声码器的语音合成质量,使其更加高保真。特别地,他强调了一点,即当前许多基于GAN的声码器在合成语音时,常常会产生噪音、不连续以及声音不够饱满的问题,而他的DSPGAN在解决这些问题时体现较好的优越性。
王晴分享了基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击。在论文中,王晴及团队提出了一种用于说话人识别的音色保留的对抗攻击方法,不仅可以利用声纹模型的弱点,还可以在黑盒攻击条件下保留目标说话人的音色。为此,她在语音转换(Voice Conversion, VC)模型的训练过程中加入了对抗约束,从而生成了保留音色的假音频。然后,利用伪连通网络架构从黑盒说话人识别模型中学习,同时约束内在相似性和结构相似性。最终取得了比较理想的效果。
本次@World“触感学术前沿”国际化交流活动的圆满举办,展示了计算机学院优秀学生参加国际会议的风采,未来,计算机学院将持续开展国际化交流系列活动,为我院师生提供了解国际学术动态、拓宽研究视野的机会和平台,为激发同学们的学术研究创新注入新动力。
(审稿:郭斌)