最近在学习爬虫,早就听说Python
写爬虫极爽(貌似pythoner说python都爽,不过也确实,python的类库非常丰富,不用重复造轮子),还有一个强大的框架Scrapy
,于是决定尝试一下。
要想使用Scrapy
第一件事,当然是安装Scrapy
,尝试了Windows
和Ubuntu
的安装,本文先讲一下 Ubuntu
的安装,比Windows
的安装简单太多了。抽时间也会详细介绍一下怎么在Windows
下进行安装。
官方介绍,在安装Scrapy
前需要安装一系列的依赖.
* Python 2.7
: Scrapy
是Python
框架,当然要先安装Python
,不过由于Scrapy
暂时只支持 Python2.7
,因此首先确保你安装的是Python 2.7
* lxml
:大多数Linux
发行版自带了lxml
* OpenSSL
:除了windows
之外的系统都已经提供
* Python Package
: pip and setuptools. 由于现在pip
依赖setuptools
,所以安装pip
会自动安装setuptools
有上面的依赖可知,在非windows的环境下安装 Scrapy的相关依赖是比较简单的,只用安装pip
即可。Scrapy
使用pip
完成安装。
检查Scrapy
依赖是否安装
你可能会不放心自己的电脑是否已经安装了,上面说的已经存在的依赖,那么你可以使用下面的方法检查一下,本文使用的是Ubuntu 14.04
。
检查Python
的版本
$ python --version
$ python --version
如果看到下面的输出,说明Python
的环境已经安装,我这里显示的是Python 2.7.6
,版本也是2.7
的满足要求。如果没有出现下面的信息,那么请读者自行百度安装Python
,本文不介绍Python
的安装(网上一搜一堆)。
检查lxml
和OpenSSL
是否安装
假设已经安装了Python
,在控制台输入python
,进入Python
的交互环境。
然后分别输入import lxml
和import OpenSSL
如果没有报错,说明两个依赖都已经安装。
安装python-dev
和libevent
python-dev
是linux
上开发python
比较重要的工具,以下的情况你需要安装
* 你需要自己安装一个源外的python类库, 而这个类库内含需要编译的调用python api的c/c++文件
* 你自己写的一个程序编译需要链接libpythonXX.(a|so)
libevent
是一个时间出发的高性能的网络库,很多框架的底层都使用了libevent
上面两个库是需要安装的,不然后面后报错。使用下面的指令安装
$sudo apt-get install python-dev
$sudo apt-get install libevent-dev
安装pip
因为Scrapy
可以使用pip
方便的安装,因此我们需要先安装pip
,可以使用下面的指令安装pip
$ sudo apt-get install python-pip
使用pip
安装Scrapy
使用下面的指令安装Scrapy
。
$ sudo pip install scrapy
记住一定要获得root
权限,否则会出现下面的错误。
至此scrapy
安装完成,使用下面的命令检查Scrapy
是否安装成功。
$ scrapy version
显示如下结果说明安装成功,此处的安装版本是1.02
CentOS 6.4 安装搭建 Scrapy 0.22 环境 http://www.linuxidc.com/Linux/2015-08/120897.htm
如何在Ubuntu 14.04 LTS安装网络爬虫工具:Scrapy http://www.linuxidc.com/Linux/2015-03/115306.htm
更多Ubuntu相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2
本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-08/122442.htm