计算机学院第二期@World“触感学术前沿”国际化交流活动顺利举办-计算机学院

新闻快递

计算机学院第二期@World“触感学术前沿”国际化交流活动顺利举办

2023年11月06日吴灿

10月30日、11月1日晚上，计算机学院2023秋季学期第二期@World“触感学术前沿”国际化交流活动顺利举办。本期活动邀请到了学院四位优秀学生张奥、张雍茂、宋堃、王晴。他们围绕各自的研究方向与在场同学进行了深入的交流、分享了最新的研究成果和经验心得。本场活动为我院学生提供了一个更加细化、专业化的学术交流平台，使得@World“触感学术前沿”系列活动更加丰富多元。

张奥分享了自己的ICASSP参会感受及对视听关键词检出论文做了简单介绍。在报告中，张奥详细地介绍了基于音频模态的关键词检出（KWS）系统在远场和有噪声干扰情况下性能下降的问题。为了解决这个问题，其团队提出了一种利用视觉信息提升性能的端到端关键词检出方法（VE-KWS）。该方法通过将视觉特征与音频特征相结合，提高了关键词检出的准确率。

张雍茂在报告中分享了interspeech参会感受及端到端歌声合成系统。这场报告探讨了端到端歌声合成 (SVS) 模型VISinger以及它的改进版本VISinger 2。原始VISinger模型相对于传统的两阶段歌声合成系统具有更少的参数，但存在一些问题，如文本到相位问题、谱断裂问题和低采样率。解决这些问题，张雍茂及团队将数字信号处理（DSP）方法与VISinger相结合，提出了VISinger 2模型。这个新的模型能够合成44.1kHz的歌声，带来了更丰富的表达和更好的音频质量。

宋堃分享了cassp参会感受并介绍了团队的鲁棒神经声码器论文。在报告中，宋堃介绍了团队的研究成果——DSPGAN，一个基于生成对抗网络的数字信号处理的声码器。这种技术在语音合成领域中显示出很大的潜力，尤其是在时域和频域的监督方法上。他在报告中详细描述了如何使用基于GAN的DSP来提高声码器的语音合成质量，使其更加高保真。特别地，他强调了一点，即当前许多基于GAN的声码器在合成语音时，常常会产生噪音、不连续以及声音不够饱满的问题，而他的DSPGAN在解决这些问题时体现较好的优越性。

王晴分享了基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击。在论文中，王晴及团队提出了一种用于说话人识别的音色保留的对抗攻击方法，不仅可以利用声纹模型的弱点，还可以在黑盒攻击条件下保留目标说话人的音色。为此，她在语音转换（Voice Conversion, VC）模型的训练过程中加入了对抗约束，从而生成了保留音色的假音频。然后，利用伪连通网络架构从黑盒说话人识别模型中学习，同时约束内在相似性和结构相似性。最终取得了比较理想的效果。

本次@World“触感学术前沿”国际化交流活动的圆满举办，展示了计算机学院优秀学生参加国际会议的风采，未来，计算机学院将持续开展国际化交流系列活动，为我院师生提供了解国际学术动态、拓宽研究视野的机会和平台，为激发同学们的学术研究创新注入新动力。

（审稿：郭斌）

上一条：西北工业大学计算机学院翱翔青年学者论坛成功举办下一条：西工大在2023 CCF CCSP （计算机系统与程序设计）竞赛荣获佳绩

【关闭】

微信公众号

官方微博

中国计算机学会 | 校内新闻 | 学校主页

陕西省西安市西北工业大学长安校区计算机学院886信箱