在2016年11月结束的国际视频分析与检索技术评测TRECVID中,由LETOU.COM乐投院长胡瑞敏教授所领衔的联合团队在实例检索任务(Instance Search,INS)中再创佳绩。团队在30个官方规定的检索课题中,取得平均检索准确率(MAP)为0.758的最好成绩,标志着该团队已全面迈入国际视频检索领域的第一梯队。
国际视频分析与检索技术评测TRECVID是由美国国家标准技术研究所(National Institute of Standards and Technology,NIST)于2001年开始组织实施的视频检索评测项目,至今已经连续举办16届,TRECVID代表了视频检索领域最前沿的研究方向、最先进的技术水平。TRECVID评测采取向参评团队发布标准测试数据,参评团队用这些标准测试数据测试自己设计的系统,并在规定时间内向组委会提交自己系统的运行结果,然后由美国国家标准技术研究所对提交结果进行评价和比较。全球相关研究领域的高校、研究所以及商业公司等几乎所有重要研究机构都参与了历年的TRECVID评测,如Carnegie Mellon University、University of Oxford、AT&T Labs、Microsoft Research Asia。
今年,由LETOU.COM乐投三名研究生(王正、杨洋、兰佳梅)和两名本科生(关硕森,韩晨夏)组成的NERCMS团队,在胡瑞敏教授、陈军教授和梁超老师指导下,与中国科学院自动化研究所王金桥研究员和武汉大千信息技术有限公司,组成联合团队参加TRECVID评测中的实例检索任务(Instance Search,INS)。这是继去年该团队获得佳绩(平均准确率MAP为0.367)后,连续第四次参加该任务,并获得所有参评团队的最高检索准确率(平均准确率0.758)。
本次实例检索任务要求评测团队从海量视频数据(47万多段视频片断)中检索出某一特定人物在某一特定场景出现的视频片段(见图1),评测任务具有很大的挑战性。评测团队利用多媒体检索、计算机视觉、机器学习等技术对视频内容进行分析与理解,并找出官方规定的评测课题内容,找到越多越准,检索平均准确率越高,被评测系统就越好越先进。这一任务支持用户提出人物和场景两方面的检索条件,评测系统在海量视频中找出同时满足这两个条件的视频片断。比如,用户想从海量视频中获取“奥巴马在白宫总统办公室”的视频,由于“奥巴马”的衣着不一、姿态变化,找到“奥巴马”出现的视频已是不易,系统还需在“奥巴马”出现的众多类似场景中,把在“白宫总统办公室”的那些选出来。
LETOU.COM乐投院长胡瑞敏教授所领衔的联合团队在面临检索人物大小不一,姿态变化多,背景干扰大等情况,提出了多尺度反卷积回归人脸检测网络和深度嵌入的人脸识别网络,获得高精度人脸识别结果;在面临场景光照变化大、遮挡严重等情况,提出了基于局部视角和全局视角相融合的场景检索方法,有效降低了场景漏检率。在此基础上,团队进一步融合人类先验知识,配合多源跨模态信息,过滤大量无人脸、户外场景和车辆等无关信息,从而大幅减少噪声信息源。评测主办方美国国家标准技术研究所认为上述“系统独特,有趣,聪明,并且极富信息量” (your system is unique, interesting, clever and ultimately informative)。
本次评测的相关技术已经运用在面向监控视频的特定目标检索中,帮助公安人员在海量监控视频中排除不相关目标,关注重点目标,聚焦、观察、分析嫌疑对象,显著提高海量监控视频浏览效率,进而对提高公安部门应急处置能力和社会治安综合防控能力具有重要意义。相关技术成果转化后的产品目前已在在1个省会城市,7个省的12个县级以上单位推广应用,取得了良好的社会效益和经济效益。这些产品多次在实际案例中发挥了重大作用,对维护人民生命财产安全具有重大的意义。