8月19日下午,应汪增福所长的邀请,美国德州大学圣安东尼奥分校(UTSA)计算机学院的田奇教授对智能所进行了访问,并在创新论坛做了题为“大规模视觉搜索(Large-scale Visual Search)”的专题报告。
报告中,田教授对大规模视觉搜索的历史现状、组成部分,面临的困难挑战等进行了总体性介绍。随着社会大量多媒体数据的涌现以及移动视觉搜索的应用,大规模视觉搜索这项技术应运而生。目前最先进的图像搜索算法是由经典的视觉词汇包(bag-of-visual-words)模块和可扩展索引结构所推动产生的。通常一个图像搜索系统包含几个主要模块,如特征描述、视觉码本构成、特征量化、索引策略、评分方案和后处理模块。特征描述又由特征检测标识和特质描述标识组成,这是为了使一幅图像成为能够展现自身特征的一个集合。为了实现类似于在信息检索中的文本一样简洁化的特征描述,视觉码本(visual codebook)需要通过收集大量的特征样本来获得特征的分布情况。然后每个特征就可以用视觉词汇(visual words)来描述,从而一幅图像就可以用一堆类似的视觉词汇来描述。在检索过程中,各种评分方案可以用来权衡不同的视觉词汇从而区分不同的图像。后处理技术,如几何验证、查询扩展和多模态融合等,也可以应用其中以加快检索速度和表现力。
此外,田教授还介绍了他们团队在大规模视觉搜索方面的研究进展。田教授的团队在特征描述、码本学习、特征量化、空间几何验证等方面做了大量而有成效的研究工作。同时田教授还向大家展示了他的一些代表性的研究成果,在现场进行了演示。在一个非常大的图像数据库中,任意点击一幅图像,与之相关或相接近的图像就会被选中,并按照相关度大小依次罗列出来。搜索用时很短,通常是在零点几秒以内。例如,若参考图片为一盘菜,则图像数据库中与菜相关的图片会被优先筛选出来。
田教授与前来听讲的职工和学生进行了现场互动。汪增福与田教授就视觉搜索的发展方向进行了深入探讨,多位职工和学生就所关心的问题对田教授进行了提问,田教授都一一给予了精彩而详实的解答。
田奇教授于2002年获得美国伊利诺伊大学香槟分校(UIUC)的博士学位,多年来一直专注于多媒体信息检索和计算机视觉领域的研究工作,取得了丰硕成果。田教授获得过计算机相关领域顶级会议ACM ICIMCS2012、MMM 2013等的最佳论文奖,并曾在微软亚洲研究院(MSRA)工作过。目前他还是多个国际期刊杂志(如TCSVT、JMM、MVA)的特邀编辑,同时也是中科大、西安交大、浙大、西安电子和中科院的兼职教授,以及清华大学的客座教授。