我院1项成果被CCF A类国际学术会议ACM Multimedia 2024录用-计算机与信息工程学院（人工智能学院）

当前位置：首页 > 学院新闻 > 正文

我院1项成果被CCF A类国际学术会议ACM Multimedia 2024录用

阅读次数：发布时间：2024-11-06 更新时间：2024-11-06

近日，国际顶级会议ACM Multimedia 2024在澳大利亚墨尔本举办，由朱艾春和董冠男老师指导的我院2022级研究生张旭同学（第一作者）的长文 “TVPR: Text-to-Video Person Retrieval and a New Benchmark”被大会录用。ACM Multimedia是计算机学科多媒体领域的顶级国际会议，也是中国计算机学会（CCF）推荐的该领域唯一的A类国际学术会议。ACM Multimedia 2024共有4385篇投稿进入审稿阶段，经过Rebuttal后，最终有1149篇论文（26.20%）被录用。

图1：图片遮挡以及动作信息缺失情况示例

该论文提出了一个文本-视频行人检索（TVPR）新任务以及一个新数据集，并在此基础上提出了一种多元特征引导的片段化学习策略（Multielement Feature Guided Fragments Learning strategy，MFGF）。现有的大多数基于文本的人物检索方法都侧重于文本-图像的人物检索。然而，由于孤立帧提供的动态信息不足，当人物被遮挡时（如图1所示），检索性能会受到极大的影响。

图2：TVPReid数据集高频词云与行人视频示例

由于目前没有包含自然语言描述的行人视频数据集或基准，该研究团队耗费半年时间构建了一个大规模文本-视频行人检索数据集（Text-to-Video Person Re-identification dataset，TVPReid）。该数据集包含6559个行人视频，每个行人视频有两段文本描述。据悉，该团队将于近期公开发布该数据集。

图3：模型结构图

针对文本-视频行人检索任务，该论文提出了一种多元特征引导的片段化学习 (MFGF) 策略，该策略利用跨模态文本-视频表征来提供强大的文本-视觉和文本-运动匹配信息，以应对不确定的遮挡冲突和可变运动细节。该模型利用ViT和S3D联合提取行人视频的特征，增强视频特征中的动作信息，同时利用BERT编码文本描述，提取文本特征。此外，MFGF为文本和视频特征协作学习建立了两个潜在的跨模态空间，进一步缩小文本和视频之间的跨模态语义鸿沟，提升模型对文本-视频跨模态信息中语义共性的理解，进而提高了检索精度。

作者：朱艾春（计算机与信息工程学院（人工智能学院））

审核:高辉庆、万夕里