Scrapy是用来爬取数据的很流行的包, 这里小记一下. 以前几天做的一个爬虫为例子, 这个爬虫把韩寒一个app的前九百多期的文章抓了下来.
I. installation
scrapy的安装参考: http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/ubuntu.html
(直接pip安装的好像缺少什么包)
II. prerequisite
XPath
需要学习scrapy首先需要会XPath, 这是一种方便与在html/xml文档里查找所需元素的语句. 这个还是很好学的, 其实只需要花一刻钟时间看看w3school的教程, 就可以掌握够用的知识进行下一步了.
这里总结一下我觉得会用到的语句(不全, 不过经常用到):
//book
选取所有名字叫做book的元素bookstore/book
选取bookstore的子元素中所有叫book的元素//title[@lang='eng']
选取lang属性为"eng"的所有title元素//titile/text()
选取title元素的文字内容descendant-or-self::text()
: 选取自己或者所有后代节点的文字内容
另外还有个在线测试XPath语句的网站 ...