本期为TechBeat人工智能社区第558期线上Talk。
北京时间12月27日(周三)20:00,浙江大学博士生—李可欣的Talk已准时在TechBeat人工智能社区开播!
她与大家分享的主题是:?“CATR-基于组合依赖和音频查询的视频分割模型”,介绍了她的团队在基于组合依赖和音频查询的视频分割模型所做的研究。
嘉宾:浙江大学博士生 李可欣
时间:北京时间?12月27日(周三)20:00
地点:TechBeat人工智能社区
点击下方链接,即可观看视频!
众所周知,由多模态引导的视频分割已经在很多应用领域大展身手,尤其是用点击、bounding-box、笔画线以及文字来做引导的任务和模型。而音频是一种常与视频共生的模态,因此,使用音频来引导视频的分割往往能更好地还原当时的场景。本文介绍了CATR,一种基于组合依赖和音频查询的视频分割模型,能更好地解读音频的引导信息,从而准确地定位和分割目标物体。
1、背景和挑战——跨模态视频分割的发展
2、现有方法的局限性和动机——现有方法存在目标物体定位错误、像素级分割不够准确等问题
3、解决方案——提出了跨模态组合依赖和音频查询等方法
4、实验分析
论文链接:
https://arxiv.org/abs/2309.09709
代码链接:
https://github.com/aspirinone/CATR.github.io
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
李可欣
浙江大学博士生
李可欣是浙江大学计算机学院的硕博连读的博二学生,现在的研究方向主要是交互式视频理解和跨模态视频分割,导师是肖俊教授。我们提出的CATR,一个更准确的音频引导的视频分割模型,获得了2023年ACM MM最佳论文奖。
个人主页:?
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区