首页 > 科技 > 机器学习入门第1章:监督学习和朴素贝叶斯分类-第1部分(理论)

机器学习入门第1章:监督学习和朴素贝叶斯分类-第1部分(理论)


欢迎来到监督学习的垫脚石。 我们首先讨论一个小的场景,它将成为将来讨论的基础。 接下来,我们将讨论一些关于后验概率的数学,也称为贝叶斯定理。 这是朴素贝叶斯分类器的核心部分。 最后,我们将探索python的sklearn库,并在Python的朴素贝叶斯分类器上编写一小段代码,以解决我们在开始时讨论的问题。

本章分为两个部分。 第一部分描述了朴素贝叶斯分类器的工作原理。 第二部分包括使用sklearn库的Python编程练习,该库提供了朴素贝叶斯分类器。 稍后,我们将讨论我们训练的程序的准确性。

朴素贝叶斯分类器

朴素贝叶斯分类器计算每个因素的概率(对于电子邮件示例,给定输入功能将是Alice和Bob)。 然后选择概率最高的结果。

该分类器假定功能(在这种情况下,我们有单词作为输入)是独立的。 因此,Naive这个词表示该假设。 即使这样,它还是用于

· 实时预测

· 文字分类/垃圾邮件过滤

· 推荐系统

因此在数学上我们可以写成

如果我们有某个事件E和测试参与者x1,x2,x3等。

我们首先计算P(x1 | E),P(x2 | E)…[作为事件E发生时x1的概率读取],然后选择具有最大概率值的测试参与者x。

我希望这能很好地解释什么是朴素贝叶斯分类器。 在下一部分中,我们将在Python中使用sklearn并实现Naive Bayes分类器以将电子邮件标记为垃圾邮件或火腿。 如果您需要任何帮助或有任何建议,请在下面的部分中进行评论。

想象一下两个人Alice和Bob的单词用法模式。 为了使示例简单,我们假设Alice经常使用三个单词[爱,伟大,美妙]的组合,而Bob经常使用单词[狗,球,美妙]。

假设您收到了匿名电子邮件,发件人可以是Alice或Bob。 可以说电子邮件的内容是"我沙滩。 此外,海滩的日落美妙景色尽收眼底"

您能猜出谁是发件人吗?

好吧,如果您猜到它是Alice,那您是正确的。 也许您的推理将是内容包含爱丽丝(Alice)使用的爱,伟大和美好的词。

现在,我们在已有的数据中添加一个组合和概率。假设Alice和Bob使用以下带有概率的单词,如下所示。 现在,您能猜出谁是该内容的发件人:"美妙的爱"。

Probability of word usage of Alice and Bob

现在您怎么看?

如果您猜是Bob,那是对的。 如果您了解其中的数学知识,对您有好处。 如果没有,请不要担心,我们将在下一部分中进行操作。 这就是我们应用贝叶斯定理的地方。

贝叶斯定理

它告诉我们给定B发生时A发生的概率,记为P(A | B),当我们知道给定B发生时B发生的概率,记为P(B | A),以及A和B各自发生的可能性 。

· P(A | B)是"给定B的A的概率",即给定B发生的A的概率

· P(A)是A的概率

· P(B | A)是"给定A时B的概率",即给定A发生时B的概率

· P(B)是B的概率

如果P(火)表示发生火灾的概率,而P(烟)表示发生烟雾的概率,则:

P(火|烟)表示当我们看到烟雾时发生火的概率。 P(Smoke | Fire)表示发生火灾时我们看到烟雾的概率。

因此,当我们知道"向后"时,公式的类型会告诉我们"向前"(反之亦然)

示例:如果因工厂发生的危险火灾很少(1%),但烟雾相当普遍(10%),并且90%的危险火灾会冒烟,则:

P(火|烟)= P(火)P(烟|火)= 1%x 90%= 9%P(烟)10%

在这种情况下,有9%的时间预计烟雾将意味着危险的火灾。

现在,您可以将其应用于Alice和Bob的示例吗?


(本文翻译自Savan Patel的文章《Chapter 1 : Supervised Learning and Naive Bayes Classification — Part 1 (Theory)》,参考:https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5)

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/303416.html