学了41天python基础知识，我决定开启爬虫之旅-热点指南

针对我要学爬虫的目的，很多朋友都给出了一个简单干脆的学习路径：

别怂，直接干！

什么基础知识、函数、对象，扯这些都没用，在干中学，才是最快的成长办法。

可是，找什么项目呢？

一上来弄个爬豆瓣、爬淘宝肯定不现实，别说我不会，就是看代码都未必能看懂。

最终，我从网上找了一段最短的代码。

这代码是干啥的？有啥用？

说实话，除了百度的网址我知道，其他我也说不好。

一步步试吧。

然而，在PyCharm里并不能运行，提示我没有安装 requests 这个模块。

找到度娘，虎躯一震，散发出我的王霸之气，度娘一阵娇羞之后，终于老实了。

成功找到模块安装方法，非常简单：

在命令窗口，直接输入 pip install requests ，即可安装。

这里多说一句，我是windows系统，有使用linux的，请自己找度娘。

安装成功，兴冲冲的进入PyCharm，竟然还是不行？

哎，继续找可爱的小度娘吧。

哦，原来光安装还不行，还要设置好才可以，真麻烦。

进入 file —> setting—> Project : *** —> Project Interpreter，点击右边的“+”号，在再搜索栏输入requests（千万别输错），成功导入！

退出导入界面，Project Interpreter 的界面是酱紫的。

这时候，再运行这四行代码，成功！

好了，下一步开始好好研究下这几行代码啥意思吧。

第一行，不用说，导入 requests 模块。

第二行，我理解这个 get 方法就是模拟用户访问百度呗。

使用 Ctrl + Q 查看一下 requests吧。

get 使用是一样的，看来括号里面放网址是固定用法。

后面那个 status_cod 得出的200是什么鬼？

扭头看度娘冲我招手：“大爷，来玩啊。”

哎，按摩下腰，过去看看吧。

原来 status_cod 的意思就是获取返回状态，200（称为响应码）意为成功响应。

下一行 content 的意思是获取页面内容。

再说回自己的程序：res.encoding='utf-8'

encoding是获取网页编码，utf-8前几天学廖雪峰教程时候见过，是针对Unicode的一种可变长度字符编码。

但是上面这行代码貌似没啥用呢，因为我把他删了，完全不影响最后的运行结果啊。

最后一行：print(res.text)

通过text来获取网页的内容。

所以最后的输出结果就该是百度首页源代码，这个我大概能猜到。

但是，为什么不是全部呢？

只显示了一部分啊，难道是跟浏览器有关系嘛。。。

今天学习至此结束，这种跟度娘上上下下、九浅一深的学习，还真蛮有意思的。

作者简介：冯十一，40岁仍然坚持学习的哏儿都老男人。多平台签约作者，日更写作践行者，每周阅读一本书。欢迎关注@天津冯十一

Python 网络爬虫 PyCharm 浏览器 Windows 百度 Linux 推拿

本文来自投稿，不代表本人立场，如若转载，请注明出处：http://www.souzhinan.com/kj/360192.html

学了41天python基础知识，我决定开启爬虫之旅