首页 > 科技 > 数据科学家应了解的五个悖论

数据科学家应了解的五个悖论

统计悖论在机器学习模型中无处不在。 这是一些最臭名昭著的例子。

要通过人工智能(AI)重建人类认知,就必须应对许多数据无法轻易解释的现象。 长期以来,人们一直将悖论视为违反逻辑和数据规则的异常情况。 通过悖论进行推理对机器学习模型提出了难以置信的挑战,因此,数据科学家在训练新模型时应该意识到这些情况。

悖论是人类认知的奇迹之一,难以使用数学和统计学。 从概念上讲,悖论是根据问题的原始前提得出明显的自相矛盾结论的陈述。 即使是最著名的和有据可查的悖论,也经常使领域的专家蒙蔽,因为它们从根本上与常识相矛盾。 人工智能(AI)希望重现人类的认知,因此机器学习模型在训练数据中遇到自相矛盾的模式并乍一看似乎得出矛盾的结论是非常普遍的。 今天,我想探讨一些机器学习模型中常见的著名悖论。

悖论通常是在数学和哲学的交叉点上提出的。 一个臭名昭著的哲学悖论被称为These修斯之船,它质疑一个已经将其所有组成部分都替换掉的物体是否根本上仍然是同一物体。 首先,假设英雄These修斯(Thusus)在一场激烈的战斗中航行的那艘著名船已被保留在港口中作为博物馆作品。 随着时间的流逝,一些木制零件开始腐烂,并被新的木制零件取代。 一个世纪左右后,所有零件都被更换了。 "恢复"的船是否仍与原始船相同? 或者,假设每个拆下的零件都存储在仓库中,并且在本世纪之后,技术不断发展,可以治愈它们的腐烂,并使它们重新组合在一起制成一艘船。 这艘"改建"的船是原船吗? 如果是这样,港口中恢复的船舶还是原始船舶吗?

数学和统计领域,如果充满着著名的悖论。举几个著名的例子,传说中的数学家和哲学家贝特朗·罗素提出了一个悖论,突显了集合论中一些最强大的思想中的矛盾,而这是有史以来最伟大的数学家之一:格雷格·坎托。本质上,罗素悖论质疑"一个不包含自身的所有列表的列表"。悖论是在自然集合论中通过考虑并非其自身成员的所有集合的集合而产生的。当且仅当它不是其自身的成员时,这样的集合才似乎是其自身的成员。因此自相矛盾。有些茶杯(例如所有茶杯)不是他们自己的成员。其他集合,例如所有非茶杯的集合,都是它们自己的成员。将所有非自身成员的集合称为" R"。如果R是其自身的成员,那么根据定义,它一定不能是其自身的成员。同样,如果R不是其自身的成员,那么根据定义,它必须是其自身的成员。什么????

机器学习模型中的著名悖论

作为基于数据的任何形式的知识构建,机器学习模型都不能免除认知悖论。 恰恰相反,当机器学习试图推断隐藏在训练数据集中的模式并针对特定环境验证其知识时,它们始终容易受到悖论性结论的攻击。 这是机器学习解决方案中最臭名昭著的一些悖论。

辛普森悖论

以英国数学家爱德华·辛普森(Edward Simpson)的名字命名的辛普森悖论描述了一种现象,其中一种趋势非常明显,几组数据随着这些组内数据的组合而消失。 1973年发生了一个真实的悖论案例。伯克利大学的研究生院对入学率进行了调查。 妇女因录取中的性别差距而起诉该大学。 调查的结果是:当分别检查每所学校(法律,医学,工科等)时,女生的录取率高于男生! 但是,平均数表明,男性的入学率比女性高得多。 那怎么可能?

对前一个用例的解释是,简单的平均值并不能说明整个数据集中特定组的相关性。 在这个具体示例中,妇女大量申请入学率低的学校:法律和医学一样。 这些学校录取的学生不到10%。 因此,接受女性的比例非常低。 另一方面,男人往往更多地被录取率高的学校使用:就像工程学一样,录取率约为50%。 因此,接受男人的比例很高。

在机器学习的上下文中,许多无监督学习算法会推断出不同的训练数据集的模式,这些数据集在整体组合时会产生矛盾。

布莱斯悖论

这个悖论是由德国数学家Dietrich Braes于1968年提出的。 布雷斯以拥堵的交通网络为例,解释说,与直觉相反,在道路网络中增加道路可能会阻碍其流量(例如,每个驾驶员的出行时间); 同样,封闭道路可能会改善出行时间。 Braess推理基于以下事实:在Nash均衡博弈中,驾驶员没有动力改变路线。 就博弈论而言,如果其他人坚持相同的策略,则个人从采用新策略中不会获得任何收益。 在这里,对于驾驶员而言,策略是采取的路线。 就Braess的悖论而言,尽管整体表现有所下降,驾驶员仍将继续转换直到达到Nash平衡。 因此,违反直觉,关闭道路可能会缓解交通拥堵。

Braess的悖论与自主的多主体强化学习场景非常相关,在这种情况下,模型需要根据未知环境中的特定决策来奖励主体。

莫拉维克悖论

汉斯·莫拉维克(Hans Moravec)被认为是过去几十年来最伟大的AI思想家之一。 在1980年代,Moravec对AI模型获取知识的方式提出了违反直觉的主张。 莫拉韦克悖论指出,与普遍的看法相反,高级推理比低级无意识认知所需的计算更少。 这是一个经验性观察,与以下观点相反:更高的计算能力会导致更智能的系统。

构造Moravec悖论的一种更简单的方法是,AI模型可以执行极其复杂的统计和数据推断任务,而这对于人类来说是不可能的。 但是,许多对人类来说都是微不足道的任务,例如抓住一个物体,将需要昂贵的AI模型。 正如Moravec所说,"使计算机在智力测验或演奏检查程序中表现出成年人水平的性能相对容易,而在感知和移动性方面,很难或不可能赋予他们一岁的技能"。

从机器学习的角度来看,Moravec的悖论在转移学习方面非常适用,该学习旨在在不同的机器学习模型中概括知识。 此外,Moravec的悖论告诉我们,机器智能的一些最佳应用将是人类和算法的结合。

准确性悖论

与机器学习直接相关的"准确性悖论"指出,与直觉相反,准确性并非总是对预测模型的有效性进行分类的好指标。 对于一个令人困惑的陈述,这是怎么回事? Accuracy Para起源于不平衡的训练数据集。 例如,在一个类别为A的事件占主导地位的数据集中,在99%的案例中均被发现,然后预测每个案例都是类别A的准确性将达到99%,这完全是误导性的。

理解"准确性悖论"的一种简单方法是在机器学习模型中找到精度和召回率之间的平衡。 在机器学习算法中,精度通常被定义为衡量您对肯定类别的预测中有多少有效。 它由(真肯定/真肯定+假肯定)表示。 作为补充,召回指标用于衡量您的预测实际捕获正面分类的频率。 它由(真肯定/真肯定+假否定)表示。

在许多机器学习模型中,精度和查全率之间的平衡导致了更好的精度指标。 例如,在欺诈检测算法的情况下,召回是更重要的指标。 即使这意味着当局可能需要进行一些误报,显然,抓住一切可能的欺诈也很重要。 另一方面,如果创建用于情感分析的算法,而您所需要的只是对推文中所指示的情绪的高级理解,那么追求精确性就是路要走。

学习能力-戈德尔悖论

最后,最有争议的是这是今年早些时候发表在研究论文上的一个最新悖论。 悖论将机器学习模型的学习能力与最有争议的数学理论之一:哥德尔不完备性定理联系在一起。

库尔特·哥德尔(KurtGödel)是有史以来最杰出的数学家之一,并且像其几位前辈一样推动了哲学,物理学和数学的发展。 1931年,哥德尔发表了他的两个不完备性定理,这些定理本质上说,使用标准数学语言无法证明某些陈述是对还是错。 换句话说,数学不足以理解宇宙的某些方面。 这些定理已被称为哥德尔连续统假设。

在最近的工作中,以色列理工学院的AI研究人员将Gödel的连续体假设与机器学习模型的可学习性联系在一起。 在挑战所有常识的矛盾陈述中,研究人员定义了可学习性的概念。 从本质上讲,研究人员继续表明,如果连续假设是正确的,那么一个小的样本就足以进行推断。 但是,如果它是错误的,那么任何有限的样本都将是不够的。 通过这种方式,他们表明可学习性问题等同于连续性假设。 因此,可学习性问题也处于困境,只能通过选择公理宇宙来解决。

简而言之,研究中的数学证明表明,人工智能问题受到了哥德尔的连续假设的约束,这意味着许多问题可能无法被人工智能有效地解决。 尽管这种悖论在当今现实世界中的AI问题中几乎没有应用,但在不久的将来对领域的发展至关重要。

在现实世界中,机器学习问题中普遍存在悖论。 您可以辩称,由于算法没有常识,它们可能不受统计悖论的影响。 但是,鉴于大多数机器学习问题都需要人工分析和干预,并且都是基于人工编排的数据集,因此我们将在相当长的一段悖论中生存。

(本文翻译自Jesus Rodriguez的文章《Five Paradoxes that Data Scientists Should Know About》,参考:https://towardsdatascience.com/five-paradoxes-that-data-scientists-should-know-about-d00b0846bb2d)

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/362184.html