首页 > 科技 > NeurlPS 2019: 滴滴出行与UC Berkeley联合提出多源域自适应学习新方法 | 将门好声音

NeurlPS 2019: 滴滴出行与UC Berkeley联合提出多源域自适应学习新方法 | 将门好声音

本文内容来自将门计算机视觉主题社群

作者:许鹏飞,李博

本文为将门好声音23 期,也是NeurlPS 2019系列分享第·2·

论文作者是来自将门计算机视觉主题社群、滴滴出行高级技术专家许鹏飞以及来自其团队的联合一作李博同学,将介绍他们团队与UC Berkeley的研究员合作发表在今年NeurlPS 2019的工作——Multi-source Domain Adaptation for Semantic Segmentation,利用多源域自适应学习,将语义分割的能力提升了12%。(本文相关原文和代码请查看文章最后)

如果你也想与广大群友分享自己的研究工作、文章观点、出坑经验,点击“阅读原文”或联系将门小姐姐!只要内容合适,我"门"送你头条出道!

领域自适应(domain adaptation)和知识迁移技术(knowledge transfer techniques),将在一个有标注源域上学习的知识迁移到另一个未标注的目标域中,而我们的工作首次实现了视觉语义分割中的多源领域自适应,通过学习多个源域上的知识,取得了更好的效果。

背 景

语义分割在自动驾驶、高精地图、场景理解等领域扮演着极其重要的角色,因需要对每个像素进行语义标注,其真实数据的获取极其昂贵,在Cityscapes等数据集上平均需要花费数十分钟的时间才能得到一张合格的语义标注样本。而合成数据以及其标签可以从游戏模拟器中自动生成,相对更加廉价易得。

当前从合成数据到真实数据的域自适应语义分割算法主要关注于单源域映射到目标域的场景。我们想利用不同源域的更多样的合成数据来帮助提升在目标域上的模型分割性能,例如,将GTA和SYNTHIA两个源域同时映射到目标域Cityscapes。

语义分割是一个高度结构化的任务,其预测空间复杂度远高于普通的分类任务,简单的组合源域数据并不能很好的利用不同源域中的不同场景的数据,因此我们需要更好的办法来解决多源状态下的语义分割自适应问题,来利用大量易得的多源合成数据来提升分割模型的性能,降低我们对真实数据的依赖,增加最终模型在真实场景的泛化性能。

文章贡献

我们设计并完善了一个新的可以端到端进行训练的框架:多源对抗域聚合网络(MADAN)。首先,我们为每个源生成一个具有动态语义一致性的自适应域,同时以像素级的周期一致地对准目标;其次,我们提出了子域聚合鉴别器和跨域循环鉴别器,以使不同的自适应域更紧密地聚合;最后,在训练分割网络的同时,对聚合域和目标域进行特征级对齐。应用MADAN从合成的GTA和SYNTHIA映射到真实的Cityscapes和BDDS目标域的大量实验证明,该模型比当前最先进的方法表现得更好。

多源域对抗式聚合网络(MADAN)

我们提出的多源域对抗式聚合网络能够实现端到端的方式进行训练。对于每个源域,该网络使用循环式对抗生成网络(CycleGAN)生成一个具有动态语义一致性以及像素级一致性的自适应域。针对于不同源域生成的自适应域,该网络采取子域聚合鉴别器(Sub Aggregation Discriminator)以及跨域循环鉴别器(Cross Domain Cycle Discriminator),以使得不同自适应域能够更一致性的聚合。同时,在训练分割网络的过程中,MADAN对聚合域数据以及目标域数据进行特征层面的一致性对齐,从而能够提升分割模型在目标域上的鉴别能力。

图1 MADAN网络结构图

该网络主要分为三个部分,采用动态对抗图像生成模块来保证生成的自适应域图像的语义一致性,以及自适应域与目标域真实图像的相似性,进一步保证生成器能产生正确的映射;采用对抗域聚合模块,保证不同自适应域的图像的一致性;采用分割特征语义对齐模块保证生成的自适应域图像在特征层级与目标域的一致性。

1、动态对抗图像生成模块

动态对抗图像生成模块使用循环生成器(Cycle-Generator)将不同域的图像映射到目标域,使其与目标域图像具有相似的纹理特征和图像风格。研究者们针对于不同的源域使用语义分割模型动态监督生成后的图像是否可以被正确的区分语义信息,以保证其图像质量的稳定。另外其使用鉴别器

用以保障不同生成域图像与目标域的真实图像的可分性,从而进一步的保证了循环生成器能够产生正确的映射。

2、对抗域聚合模块

为了融合不同的源域图像域适应域图像的一致性,研究者们提出使用对抗域聚合模块(ADA)来解决这个问题。该模块分为两个鉴别器,其中子域聚合鉴别器(Sub-domain Aggregation Discriminator)用来判断来自不同域的转换后的图片在鉴别器眼中是不可分的。跨域循环鉴别器对于不同的源域数据

,使得通过

生成的图片与原本的源域上的未经过转换的图片不可区分。

子域聚合鉴别器的损失函数如下:

跨域聚合鉴别器的损失函数如下:

3、分割特征语义对齐模块

为了保证在经过了对抗式聚合模块之后,来自不同源域的转换后的图像聚合到一起。研究者们提出分割特征语义对齐模块,使得生成的图像在风格和高维空间的分布上都与目标域在特征层面更加的一致。这部分的损失函数如下,

通过上述多个模块,可以实现不同自适应域更好的聚合,以提升在目标域上的语义分割性能。

实验结果

通过在多个数据集上的大量实验表明,我们所提出的方法相对于GTA和SYNTHIA的最佳单源训练方法、最佳单源域自适应方法、多源域合并训练和主流多源域自适应方法的分割任务扩展,在以Cityscapes为目标域的多源迁移任务上分别取得了15.6%、1.6%、4.1%和12.0%的提升,在BDDS上分别取得了11.7%、0.6%、2.6%和11.3%的提升。其中MADAN在GTA+SYNTHIA到Cityscapes的域自适应任务中达到了当前以FCN8s分割模型为基础的最好结果mIOU 41.4。

表1 为GTA,SYNTHIA源域到Cityscapes目标域的域自适应算法结果对比

表2 为GTA,SYNTHIA源域到BDDS目标域的域自适应算法结果对比

如果想要了解更多详细的问题定义、实验结果和参考资料,请参看论文:

Multi-source Domain Adaptation for Semantic Segmentation, https://arxiv.org/abs/1910.12181

本文相关代码已经开源,请见

https://github.com/Luodian/MADAN

关于作者

许鹏飞

滴滴出行地图事业部高级技术专家、视觉计算团队负责人,专注计算机视觉在地图和交通领域的算法研究与业务应用,从计算机视觉的视角来解决出行场景的用户需求,推动了基于视觉的地图更新和AR导航等项目的落地,有效地提升了滴滴用户的出行体验。其所带领的团队在目标检测、图像分割、实例分割、三维重建、视觉定位等方面围绕算法优化、业务应用迭代进行了较多的积累和创新,近年来有多篇文章发表在NeurIPS、AAAI等领域顶级会议中,并在多个计算机视觉竞赛和标准数据集上取得了第一名的成绩。其曾任微软资深应用科学家,关注于微软小冰图像/视频-文本语义关联等方向。他拥有哈尔滨工业大学计算机视觉方向博士学位,在相关领域知名会议和期刊累计发表论文30余篇。

李博

哈尔滨工业大学本科四年级在读,ECCV 2018 Mapillary实例分割比赛世界冠军队伍成员之一,NeurIPS 2019论文联合一作。主要研究方向为域自适应、对抗训练。域自适应(Domain Adaptation)是机器学习中的热门问题之一,主要为了解决训练数据集与测试数据集分布不一致的问题,通过推动DA的发展,可以更好地提升模型的适应能力,减少对数据的高度依赖。自2018年7月开始在滴滴实习,在导师许鹏飞博士指导下完成多项成果。

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/286612.html