首页 > 科技 > CSAIL和IBM创建的这个数据集,“难倒”了目前最好的CV模型

CSAIL和IBM创建的这个数据集,“难倒”了目前最好的CV模型


大数据文摘出品

来源:CSAIL

编译:林苗


当前的计算机视觉模型已经能够非常精确地识别照片中的物体,在某类物体上的表现甚至比人类还要好。


不过,在现实场景下,如果一直使用相同的物体识别检测器,识别性能会明显下降。这对于以计算机视觉为核心的系统,如自动驾驶而言,是一个明显隐患。


为了弥补上述性能差距,CSAIL和IBM的研究团队创建了一个有很多不同种类的物体识别数据集——ObjectNet。


ObjectNet是基于ImageNet创建的。ImageNet是一个众包的照片数据集,在早期时候引领了人工智能的潮流,ImageNet里的照片都是源于Flickr等社交媒体网站上。


与之不同的是,ObjectNet的照片都是付费请自由职业者拍的。照片里面的物体都是在一个杂乱的房间内部,以非常刁钻的角度倾斜摆放。


当前最好的物体识别检测模型对ImageNet照片里的物体识别准确率是97%,而如果用ObjectNet来测试时,准确率则会下降到50-55%。



CSAIL研究人员Boris Katz表示:“我们创建这个数据集,是为了告诉人们物体识别仍然是一个难题。我们需要更好、更智能的算法。”Katz和同事在神经信息处理系统会议(NeurIPS)上介绍了ObjectNet及其成果。


深度学习一直是推动AI发展的关键技术,它通过多层人工“神经元”在大量原始数据中找到规律模式,深度学习需要通过成百上千个样例学习,才能学会在照片上识别出一把椅子。然而,即使有上百万图像的数据集,也无法展示每一个物体所有可能的方向和属性。因此,当这些模型需要识别现实场景中的物体时,就会出现问题。


ObjectNet还有一个重要方面与常规的图像数据集有所不同:它没有训练集。大部分数据集都会分成训练集和测试集两部分。但是训练集和测试集之间总还是会有相似的地方,会影响模型在测试时陷入瓶颈。


乍一看,ImageNet拥有1400万张图像,数量巨大。但事实上,如果不包括训练集的话,其大小跟ObjectNet差不多,大概包含50,000张照片。


研究合作者、CSAIL和CBMM的科学家Andrei Barbu表示:“如果我们想知道我们的算法在现实场景中的表现怎么样,那就应该在没有任何偏向、从来没有见过的图像上对其进行测试。”


一个试图捕获现实世界物体复杂性的数据集


很少有人会向朋友分享ObjectNet的照片,这是很重要的一点。研究人员从Amazon Mechanical Turk聘请自由职业者,为随机摆放的家用物品拍摄了数百张照片。工人们在APP上收到分配的照片,并带有动画说明,告诉他们如何摆放分配的物体,从哪个角度拍摄以及是否将物体摆放在厨房,浴室,卧室或客厅中。


他们希望能够消除三个常见的摆放倾向习惯:正面朝上,在标志性位置,以及强相关的属性设置;如盘子总是被堆放在厨房里面。


从有想法开始到现在,包括中间设计一个能对数据收集过程进行标准化的app,研究人员大概花了三年的时间。研究合作者、MIT电气工程与计算机科学研究生David Mayo表示:“如何控制各种倾向误差来收集数据,是一件非常棘手的事情。我们还必须通过各种实验来保证指导语清晰无误,工人们能准确地知道自己应该要做什么。”


收集真实数据又大概花了一年的时间。但是最后,由于未达到研究人员的要求,近一半的自由职业者提交的照片都被舍弃。为了提升工作效率,一些工作人员还会在他们的拍摄对象上添加标签,或是将它们放在白色背景上,或者尝试改善分配给他们的照片的美观性。


很多照片都不是在美国拍摄的。因此,有些物体可能看起来很陌生,如成熟的橘子是绿色的,香蕉有各种不同的大小,衣服的形状和材质也各不相同。


Object Net VS ImageNet:两个主流物体识别模型的比较


当研究人员在ObjectNet上测试最新的计算机视觉模型时,他们发现模型的性能比在ImageNet上的下降了40-45个百分点。研究人员表示,这个结果说明,物体识别检测器仍然难以理解物体是三维的,并且可以被旋转和移动到新的环境中。IBM的研发人员Dan Gutfreund说:“这些概念并未内置在现代物体识别检测器的架构中。


为了表明ObjectNet是由于物体摆放和观看的方式,才很难实现精确性,研究人员让模型在ObjectNet一半的数据集上进行训练,然后在另一半上面进行测试。当模型在一样的数据集上进行训练和测试时,按理说会显著地提升模型的性能。然而,在ObjectNet上的测试却只有些微的改善,表明物体识别检测器确实尚未完全理解现实场景中物体的存在方式。


自2012年(AlexNet在年度ImageNet竞赛中碾压全场)以来,计算机视觉模型日益完善。随着数据集变得越来越大,模型的性能也得到了提高。


然而,研究人员警告说,设计更大版本的ObjectNet,增加物体的视角和方向,并不一定会带来更好的结果。ObjectNet的目标是为了能够激励研究者迸发出下一波的技术革新,就像最初的ImageNet一样。


Katz认为:“人们为这些检测器提供了大量数据,但是效果却并不明显。你无法通过所有可能的角度和背景来查看一个物体。我们希望这个新的数据集在计算机视觉方面的鲁棒性是非常强的,也不会在现实场景下出现令人咋舌的失误。”


该研究的其他合作者包括MIT的Julian Alvero,William Luo,Chris Wang和Joshua Tenenbaum。这项研究是由美国国家科学基金会,MIT的脑、思维和机器中心,MIT-IBM华盛顿AI联合实验室和,Toyota研究机构,以及SystemsThatLearn@CSAIL计划资助的。


相关报道:

https://www.csail.mit.edu/news/object-recognition-dataset-stumps-worlds-best-vision-models


荐:

【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

声明


来源:大数据文摘,RAD极客会(ID:RAD_Geek_Club)推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/282101.html