近日,在2023年世界互联网领先科技成果奖颁奖典礼上亮相的15项领先科技成果中,入选基础研究组奖项的是由北京交通大学、南开大学合作完成的“视觉媒体的层次化内容感知”成果,颇为引人注目。
“对于视觉媒体的层次化内容感知这项研究,简单来讲,就是赋予计算机由粗到细地识别图像或视频的能力。这里的由粗到细主要体现在从图像级到像素级的粒度变化。”北京交通大学信息与科学研究所所长赵耀教授表示。
针对层次化感知的几个关键问题,课题组着重研究了图像级多物体感知、物体级位置感知、像素级粗粒度感知和像素级细粒度感知,有效促进了视觉感知研究技术的发展。
据介绍,该成果系统深入研究了视觉内容层次化感知的相关理论和方法,形成从图像级、物体级到像素级粗粒度及细粒度的递进感知理论和解决方案,回答了“图像有何物体,物体有何像素,像素是何类别,类别如何细分”的系列问题。所涉及的研究内容包括图像级多物体感知、物体级位置感知、像素级粗粒度感知、像素级细粒度感知等。
赵耀介绍,该成果所产出的相关论文大多为各自研究方向的早期开拓性研究成果,并对相关方向的后续发展具有重要引领作用。论文得到了图灵奖获得者及100多位IEEE会士的引用和关注。
最后,赵耀表示:“目前这些成果已经成为历史,未来大模型和生成式人工智能将会给我们的研究带来更多的机遇和挑战。今后,团队一方面将在基础研究领域进行深入探索,另一方面也将和工业界展开广泛的合作,力争将成果转化为经济效益,并最终服务于社会大众。”
(北京交通大学供图)