首页 > 科技 > 学了41天python基础知识,我决定开启爬虫之旅

学了41天python基础知识,我决定开启爬虫之旅

针对我要学爬虫的目的,很多朋友都给出了一个简单干脆的学习路径:

别怂,直接干!

什么基础知识、函数、对象,扯这些都没用,在干中学,才是最快的成长办法。

可是,找什么项目呢?

一上来弄个爬豆瓣、爬淘宝肯定不现实,别说我不会,就是看代码都未必能看懂。

最终,我从网上找了一段最短的代码。

这代码是干啥的?有啥用?

说实话,除了百度的网址我知道,其他我也说不好。

一步步试吧。

然而,在PyCharm里并不能运行,提示我没有安装 requests 这个模块。

找到度娘,虎躯一震,散发出我的王霸之气,度娘一阵娇羞之后,终于老实了。

成功找到模块安装方法,非常简单:

在命令窗口,直接输入 pip install requests ,即可安装。

这里多说一句,我是windows系统,有使用linux的,请自己找度娘。

安装成功,兴冲冲的进入PyCharm,竟然还是不行?

哎,继续找可爱的小度娘吧。

哦,原来光安装还不行,还要设置好才可以,真麻烦。

进入 file —> setting—> Project : *** —> Project Interpreter,点击右边的“+”号,在再搜索栏输入requests(千万别输错),成功导入!

退出导入界面,Project Interpreter 的界面是酱紫的。

这时候,再运行这四行代码,成功!

好了,下一步开始好好研究下这几行代码啥意思吧。

第一行,不用说,导入 requests 模块。

第二行,我理解这个 get 方法就是模拟用户访问百度呗。

使用 Ctrl + Q 查看一下 requests吧。

get 使用是一样的,看来括号里面放网址是固定用法。

后面那个 status_cod 得出的200是什么鬼?

扭头看度娘冲我招手:“大爷,来玩啊。”

哎,按摩下腰,过去看看吧。

原来 status_cod 的意思就是获取返回状态,200(称为响应码)意为成功响应。

下一行 content 的意思是获取页面内容。

再说回自己的程序:res.encoding='utf-8'

encoding是获取网页编码,utf-8前几天学廖雪峰教程时候见过,是针对Unicode的一种可变长度字符编码。

但是上面这行代码貌似没啥用呢,因为我把他删了,完全不影响最后的运行结果啊。

最后一行:print(res.text)

通过text来获取网页的内容。

所以最后的输出结果就该是百度首页源代码,这个我大概能猜到。

但是,为什么不是全部呢?

只显示了一部分啊,难道是跟浏览器有关系嘛。。。

今天学习至此结束,这种跟度娘上上下下、九浅一深的学习,还真蛮有意思的。


作者简介:冯十一,40岁仍然坚持学习的哏儿都老男人。多平台签约作者,日更写作践行者,每周阅读一本书。欢迎关注@天津冯十一

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/360192.html