首页 > 互联网 > 2020KDD:一场不推迟的大数据 “奥运会”,阿里巴巴出了啥赛题?

2020KDD:一场不推迟的大数据 “奥运会”,阿里巴巴出了啥赛题?

《亲爱的数据》出品

“马云成功的背后有千千万万个女人。”

所以,阿里巴巴诞生了全球最大的电商搜索系统。没错,败家娘们买东西搜出来的“最大”。

这个“最大”还包括商品量、用户量、引导的成交额、点击成交量、引擎的访问次数、访问QPS…最大往往生出“最难系列问题”,在阿里巴巴内部,每天都在举办大数据的运动会,科学家大牛、攻城狮、程序猿、小白都在里面参与各种竞技项目。

内部竞技不过瘾,阿里巴巴要把“最难系列”上交给大数据领域的“奥运会——KDD CUP。KDD是Knowledge Discovery and Data Mining的缩写,即知识发现与数据挖掘。工业界的难题交给学术界和社会各界。

作为数据领域最有影响力、最高水平的国际顶级赛事,每年都会吸引世界数据领域的顶尖专家、学者、工程师、学生等前来参赛,在每年的KDD会议中占据着举足轻重的地位。

而且,每届冠军都会被谷歌、阿里、微软、腾讯、百度等技术巨头追逐,被第四范式等AI独角兽企业青睐。

《亲爱的数据》出品

“最难系列问题”有很多。比如,

小测验 一:比如在有限计算资源情况下,如何拿到更好的商品排序结果?
二:怎样保证用户的搜索体验(包括结果返回时间、返回商品量等)?
三:怎么保证电商场景下的多目标(包括点击、成交量和成交额)?

论述题一、尽管,学术界和工业界都有大量learning to rank方面的研究,想让机器学习技术,为用户给出更优的排序结果。然而绝大部分相关工作都集中在如何提升排序的质量,却并不关系排序的效率,而太低效的排序方案在实际的工业在线应用中,往往是不可接受的。那么问题来了,怎么办?

论述题二、买东西有问题想问卖家,客服准备好了一堆套路,“亲,……”还是问买家靠谱,淘宝“问大家”功能诞生了,比如有些人想要购买毛衣,但他对此持有疑问,系统发现确实有机会或有潜力回答这些问题的用户后,在抽象意义上匹配这个问题,从而对问题进行精准分配。

那么问题来了,如何实现大规模在线精准匹配?

别再说了,这些题太难,我们不会做……

莫慌,以上这些阿里巴巴在业务中遇到的问题,也都在历届KDD大会和比赛中有所涉及。(以上问题均为历年赛题所涉及,有兴趣的同学自己找答案)

老规矩,KDD CUP主办方有两个任务,出题和出数据,赛题要回归产业应用。当然,还要给获奖者准备奖品。KDD CUP 2020将于4月正式开始报名,阿里巴巴为参赛团队准备了两大赛题。

往年KDD CUP参赛选手与主席合影

KDD CUP赛题一:多模态商品推荐

随着大数据的发展,目前人们每天都在接收着大量的文字、图像和视频等多种模态的信息,如直播、短视频、图文等等。多模态信息的学习和处理具有重大的现实意义,是搜索推荐、金融反欺诈等领域的重要技术。尤其对于电商行业而言,利用好多模态数据能够极大地促进电商行业的发展。

“电商场景的多模态商品推荐”赛题,要求选手针对给定的文本召回最相关的商品图片和商品视频。阿里巴巴提供了丰富的商品标题文本、商品图片和商品视频的数据集,规模达到300万以上,可供参赛选手训练模型。


KDD2020

其中该数据集中每条数据包含配对的商品标题和商品图片/视频。测试过程中,主办方提供了比赛所用的文本描述以及可供召回的商品图片和视频,选手需要根据这些描述召回与之最相关的图片和视频。

人类的认知往往是基于多模态的数据的,人类理解世界是结合了对视觉和语言的理解的过程。要想走向从感知智能走向认知智能,智能绕不开理解视觉信息、语言和世界知识这一关。跨模态理解数据是认知智能突破的核心技术。

于是,多模态的表征学习会是非常值得研究的方向。随着预训练技术在视觉和自然语言处理等领域都取得了长足的进展,我们有理由相信多模态预训练也能够取得成功,帮助更多相关的下游任务实现更大的效果上的突破,也推动AI研究往认知智能的方向发展。

阿里巴巴科学家宋乐在KDD2018大会

阿里巴巴达摩院认为,认知智能有望带来颠覆性创新的产业价值。所以,达摩院将“人工智能从感知智能向认知智能演进”列为2020十大科技趋势之首。

阿里巴巴的技术小哥哥偷偷告诉我:“阿里巴巴以多模态检索的任务形式开放,属业界首次哦。”

KDD CUP赛题二、Fairness of Exposure 消除人工智能偏见——曝光偏差

人工智能(AI)可以模仿和放大人类的偏见,它的这个“拜高踩低”的特点,限制了它的发展,所以,关注公平与消除偏见是人工智能可持续发展的必要条件。

2014年,当亚马逊(Amazon)组建团队开发其新招聘引擎时,它曾被寄予很高的期望。这个实验性的解决方案使用人工智能来对候选人简历进行评分,以识别出最优秀的人才。然而,在测试解决方案后不久,研究小组发现该系统并没有以性别中立的方式对候选人进行打分。

与任何深度学习算法一样,该算法依赖于对历史数据的训练。不幸的是,嵌入其中的现实世界数据具有显示性别偏见的模式,而人工智能算法最终将其纳入了功能。如果应聘者是“女子篮球队”的一员,那么对该简历的评分就会较低。

《亲爱的数据》出品

现今以深度学习为代表的主流人工智能系统主要从数据中学习知识,许多技术专家和伦理学家因此,日渐担心人工智能会吸收和反映数据中存在的偏见,以致损害部分群体的权益、进而无法构建可持续发展的人工智能生态,比如对女性、黑人的偏见(比如错误地认为女性不适合某种职业、黑人信用不好)时,深度模型在拟合这些数据时会毫无保留地把这些偏见也吸收进模型里。

在电商领域也存在类似的情况,例如,小商家有好的商品,但却很难得到平台的推荐。因此,消除人工智能的偏见尤其重要。


《亲爱的数据》出品

图灵奖得主Geoffrey Hinton尖锐地指出「任何通过拟合数据学到的东西都会学到数据中的所有偏见」,考虑到收集毫无偏见的数据是几近不可能的,Hinton因此倡议人工智能从业者在开发算法时「对数据中的偏见进行建模,以有效地消除这些偏差」。

例如,把女性、黑人在教育、经济等成长环境中的多方面因素考虑进去,(1)建立一个模型来刻画这些因素与“职业匹配度”“个人信用”的联系,(2)结合因果推理的方法,来判断“性别”、“种族”与“职业匹配度”“个人信用”是否真的存在因果关系。

如今人工智能HR,已经被“下岗”了,重要的是未来我们该怎做?

出题和出数据是一件艰苦的工作,没有那么简单,2017年,阿里巴巴“数据科学家团队”在选题上就花费了1个月的时间。

《亲爱的数据》出品

这些重要的业界难题,已经被阿里巴巴送上了古希腊的奥林匹亚圣城,期待与各界人士共享“知识发现与数据挖掘”的盛事,2020年的大数据 “奥运会”,不推迟。(完)

《亲爱的数据》出品


《亲爱的数据》出品



《亲爱的数据》出品


本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/hlw/351406.html