前一段时间写了不少Python的爬虫程序, 为此还看了极客学院上的一些教程, 现在来简单总结一下. 主要介绍用requests
+ lxml
的方式, scrapy
的话之前写过一篇介绍性的文章, 这里就不重复了. 而且感觉一般简单的爬虫项目, 一个Python文件就基本可以搞定, 没必要用scrapy建立一个工程文件夹搞那么正式...
安装需要的库(python2):
pip install requests, lxml
然后在Python程序最开始导入:
import requests
from lxml import etree
requests基础用法
抓取html内容
用requests获取目标网址的html代码非常简单, 只需要用requests.get
方法, 传入网址URL即可.
举个例子, 想要抓取维基语录的HTML内容, 代码很简单:
url = 'https://zh.wikiquote.org/zh-cn/阿爾伯特·愛因斯坦'
r ...