CSAIL和IBM创建的这个数据集，“难倒”了目前最好的CV模型-热点指南

大数据文摘出品

来源：CSAIL

编译：林苗

当前的计算机视觉模型已经能够非常精确地识别照片中的物体，在某类物体上的表现甚至比人类还要好。

不过，在现实场景下，如果一直使用相同的物体识别检测器，识别性能会明显下降。这对于以计算机视觉为核心的系统，如自动驾驶而言，是一个明显隐患。

为了弥补上述性能差距，CSAIL和IBM的研究团队创建了一个有很多不同种类的物体识别数据集——ObjectNet。

ObjectNet是基于ImageNet创建的。ImageNet是一个众包的照片数据集，在早期时候引领了人工智能的潮流，ImageNet里的照片都是源于Flickr等社交媒体网站上。

与之不同的是，ObjectNet的照片都是付费请自由职业者拍的。照片里面的物体都是在一个杂乱的房间内部，以非常刁钻的角度倾斜摆放。

当前最好的物体识别检测模型对ImageNet照片里的物体识别准确率是97%，而如果用ObjectNet来测试时，准确率则会下降到50-55%。

CSAIL研究人员Boris Katz表示：“我们创建这个数据集，是为了告诉人们物体识别仍然是一个难题。我们需要更好、更智能的算法。”Katz和同事在神经信息处理系统会议（NeurIPS）上介绍了ObjectNet及其成果。

深度学习一直是推动AI发展的关键技术，它通过多层人工“神经元”在大量原始数据中找到规律模式，深度学习需要通过成百上千个样例学习，才能学会在照片上识别出一把椅子。然而，即使有上百万图像的数据集，也无法展示每一个物体所有可能的方向和属性。因此，当这些模型需要识别现实场景中的物体时，就会出现问题。

ObjectNet还有一个重要方面与常规的图像数据集有所不同：它没有训练集。大部分数据集都会分成训练集和测试集两部分。但是训练集和测试集之间总还是会有相似的地方，会影响模型在测试时陷入瓶颈。

乍一看，ImageNet拥有1400万张图像，数量巨大。但事实上，如果不包括训练集的话，其大小跟ObjectNet差不多，大概包含50,000张照片。

研究合作者、CSAIL和CBMM的科学家Andrei Barbu表示：“如果我们想知道我们的算法在现实场景中的表现怎么样，那就应该在没有任何偏向、从来没有见过的图像上对其进行测试。”

一个试图捕获现实世界物体复杂性的数据集

很少有人会向朋友分享ObjectNet的照片，这是很重要的一点。研究人员从Amazon Mechanical Turk聘请自由职业者，为随机摆放的家用物品拍摄了数百张照片。工人们在APP上收到分配的照片，并带有动画说明，告诉他们如何摆放分配的物体，从哪个角度拍摄以及是否将物体摆放在厨房，浴室，卧室或客厅中。

他们希望能够消除三个常见的摆放倾向习惯：正面朝上，在标志性位置，以及强相关的属性设置；如盘子总是被堆放在厨房里面。

从有想法开始到现在，包括中间设计一个能对数据收集过程进行标准化的app，研究人员大概花了三年的时间。研究合作者、MIT电气工程与计算机科学研究生David Mayo表示：“如何控制各种倾向误差来收集数据，是一件非常棘手的事情。我们还必须通过各种实验来保证指导语清晰无误，工人们能准确地知道自己应该要做什么。”

收集真实数据又大概花了一年的时间。但是最后，由于未达到研究人员的要求，近一半的自由职业者提交的照片都被舍弃。为了提升工作效率，一些工作人员还会在他们的拍摄对象上添加标签，或是将它们放在白色背景上，或者尝试改善分配给他们的照片的美观性。

很多照片都不是在美国拍摄的。因此，有些物体可能看起来很陌生，如成熟的橘子是绿色的，香蕉有各种不同的大小，衣服的形状和材质也各不相同。

Object Net VS ImageNet：两个主流物体识别模型的比较

当研究人员在ObjectNet上测试最新的计算机视觉模型时，他们发现模型的性能比在ImageNet上的下降了40-45个百分点。研究人员表示，这个结果说明，物体识别检测器仍然难以理解物体是三维的，并且可以被旋转和移动到新的环境中。IBM的研发人员Dan Gutfreund说：“这些概念并未内置在现代物体识别检测器的架构中。

为了表明ObjectNet是由于物体摆放和观看的方式，才很难实现精确性，研究人员让模型在ObjectNet一半的数据集上进行训练，然后在另一半上面进行测试。当模型在一样的数据集上进行训练和测试时，按理说会显著地提升模型的性能。然而，在ObjectNet上的测试却只有些微的改善，表明物体识别检测器确实尚未完全理解现实场景中物体的存在方式。

自2012年（AlexNet在年度ImageNet竞赛中碾压全场）以来，计算机视觉模型日益完善。随着数据集变得越来越大，模型的性能也得到了提高。

然而，研究人员警告说，设计更大版本的ObjectNet，增加物体的视角和方向，并不一定会带来更好的结果。ObjectNet的目标是为了能够激励研究者迸发出下一波的技术革新，就像最初的ImageNet一样。

Katz认为：“人们为这些检测器提供了大量数据，但是效果却并不明显。你无法通过所有可能的角度和背景来查看一个物体。我们希望这个新的数据集在计算机视觉方面的鲁棒性是非常强的，也不会在现实场景下出现令人咋舌的失误。”

该研究的其他合作者包括MIT的Julian Alvero，William Luo，Chris Wang和Joshua Tenenbaum。这项研究是由美国国家科学基金会，MIT的脑、思维和机器中心，MIT-IBM华盛顿AI联合实验室和，Toyota研究机构，以及SystemsThatLearn@CSAIL计划资助的。

【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！

声明

来源：大数据文摘，RAD极客会（ID:RAD_Geek_Club）推荐阅读，不代表RAD极客会立场，转载请注明，如涉及作品版权问题，请联系我们删除或做相关处理！

人工智能 IBM 大数据技术算法深度学习设计众包服装无人驾驶 Flickr 大商潮流装备控动画人生第一份工作麻省理工学院亚马逊公司懒人挚爱

本文来自投稿，不代表本人立场，如若转载，请注明出处：http://www.souzhinan.com/kj/282101.html

CSAIL和IBM创建的这个数据集，“难倒”了目前最好的CV模型

【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！

相关推荐