分享3篇清华大学人机语音交互实验室(THUHCSI)?在AAAI 2024上被录用的论文,本次被录用的3篇论文涉及基于大语言模型(LLM)的语音情感描述生成、基于强化学习(RL)的多样化舞蹈动作生成、基于节点相似度的图神经网络标定等多个研究领域。论文工作紧扣产学研,合作伙伴包括腾讯AI Lab、香港中文大学等。
01?Paper
SECap: Speech Emotion Captioning with Large Language Model
作者:Yaoxun Xu, Hangting Chen, Jianwei Yu, Qiaochu Huang, Zhiyong Wu, Shixiong Zhang, Guangzhi Li, Yi Luo, Rongzhi Gu
合作单位:腾讯 AI Lab
论文主要创新点:语音情感在人类交流中至关重要,被广泛应用于语音合成和自然语言理解等领域。之前的大多数研究,如语音情感识别,主要将语音情感划分为某一个固定的类别。然而,人类语音中表达的情感往往是复杂的,将其归入预定义的类别可能不足以充分表达语音情感。而通过自然语言直接描述语音情绪可能是更有效的方法。本文提出了基于大语言模型的语音情感描述生成(Speech Emotion Captioning)框架SECap,旨在使用自然语言有效地描述语音情感。SECap使用HuBERT作为音频编码器(Audio Encoder),通过具有强大语言理解和生成能力的大语言模型LLAMA作为文本生成器(Text Decoder),并使用Q-Former作为桥接网络(Bridge-Net)将两个模态进行连接。为了更好地给LLAMA提供和语音情感更相关的特征,本文使用互信息将与情感相关的语音特征和语音内容区分开来,同时通过对比学习提取更多与情感相关的语音特征。实验结果表明,SECap在客观评测中好于HTSAT-BART基线模型,并且可以生成与人工标注相媲美的语音情感描述。
SECap的整体结构
基于互信息以及对比学习的方法提取语音情感相关的特征
SECap的语音情感描述结果样例
02?Paper
Explore 3D Dance Generation via Reward Model from Automatically-Ranked Demonstrations
作者:Zilin Wang*, Haolin Zhuang*, Lu Li*, Yinmin Zhang, Junjie Zhong, Jun Chen, Yu Yang, Boshi Tang, Zhiyong Wu
论文主要创新点:本文提出了一个探索性三维舞蹈生成框架(Exploratory 3D Dance generation framework, E3D2),旨在解决现有的基于音乐的三维舞蹈生成模型探索能力不足的问题。E3D2框架如下图2所示,包括一个从自动排序的舞蹈示例中训练出来的奖励模型,然后由该模型指导强化学习过程。具体过程为:(1)通过行为克隆从人类专家数据集中学习初始策略;(2)基于该初始的行为克隆策略收集不同质量的舞蹈示例,其中在推断时通过注入不同等级的噪声实现舞蹈示例动作的质量排序自动标定;(3)通过已知排序的舞蹈示例训练奖励模型,以评估舞蹈动作的质量;(4)基于奖励模型提供的奖励信号对强化学习模型进行优化,以获得最优舞蹈动作生成策略。如下图1的可视化样例所示,本文所提方法具有更强的探索能力,能够鼓励舞蹈智能体探索并生成更高质量、更多样化的舞蹈动作序列。论文通过理论和实验验证了奖励模型的合理性。在AIST++数据集上的实验结果表明了探索性三维舞蹈生成框架E3D2的有效性。
可视化样例:本文方法生成的舞蹈具有更复杂、多样化的腿部运动变化
3D2的基本结构,包括行为克隆、自动排序示例收集、奖励模型训练、基于RL的探索
03?Paper
SimCalib: Graph Neural Network Calibration based on Similarity Between Nodes
作者:Boshi Tang, Zhiyong Wu, Xixin Wu, Qiaochu Huang, Jun Chen, Shun Lei, Helen Meng
合作单位:香港中文大学
论文主要创新点:图神经网络(GNN)在各种应用中展现了出色的性能。GNN标定问题也引起了越来越多的关注。现有工作从经验上对这个问题进行了研究并提出了一系列方法,但理论支持仍然不足。本文针对GNN的节点分类置信度标定问题,通过高斯图模型理论证明了图节点相似度和标定行为之间的相关性,据此提出了基于马氏距离和节点表征动态的全局-局部相似度度量,以此辅助GNN的节点置信度标定过程。在全局层面上,将当前节点与类原型间的马氏距离集成在一起,以隐式地考虑当前节点与同一类中的所有节点之间的相似性。在局部层面上,考虑节点表示运动动力学的相似性,通过节点同质性和相对度量进行量化。实验结果表明,本文所提的SimCalib框架对不同基础网络都有较好效果,并在Cora等8个数据集达到最优的性能。同时,本工作揭示了图神经网络的两个重要问题(过平滑问题和欠信心问题)的理论相关性。
对已训练的图神经网络分类器(冻结)进行置信度标定
SimCalib与其他基准方法的期望标定误差(expected calibration error, ECE)对比