Published: 2016-12-03 15:59:00
By ytwan
In Program .
tags: Python
Scrapy的安装说明
关于爬虫,Scrapy,在官网上资料很多,在这里
主要记录一下流程,忽略的步骤等等
以及爬出来的坑,也提醒一下自己
还有就是一些自己接触的新概念的学习--是什么,怎么做,为什么,改进或者升级
搭建语言环境
0. 操作系统,操作系统的位数
Windows 32 bit
1. Python 的版本以及位数
安装 Python 完成后,记得设置环境变量
C : \Python2 . 7 \;
C : \Python2 . 7 \Scripts \;
查看 python - V Python 的版本以及位数,打开命令提示符输入 python ,看到以下内容,可见我安装的是 32 位的
Python 2.7 . 11 ( v2 . 7.11 : 6 d1b6a68f775 , Dec 5 2015 , 20 : 32 : 19 ) [ MSC v . 1500 32 bit ( Intel )] on win32
2. 从 http : // sourceforge . net / projects / pywin32 / 安装 pywin32
https : // sourceforge . net / projects / pywin32 / files / pywin32 / Build % 20220 /
出现 ImportError : No module named win32api 或者出现 ImportError : No module named win32con ,说明你的库没有安装好。
Pywin32 像 VC 一样的形式来使用 PYTHON 开发 win32 应用
库里面最重要的模块: win32api 就是通过 python 对 win32 的本地 api 进行了封装
下载对应版本的 pywin32 ,直接双击安装即可,安装完毕之后验证。验证方式 在 python 环境下 import win32com 没提示错即证明安装成功
3. 安装 pip ,对于版本小于 2.7 . 9 的需要安装,版本比较新的则不需要,查看
pip - version
4. Win32OpenSSL 这个很可能是在我之前安装其他的程序已经安装了,所以在这里是不需要了。具体在自己的电脑上再具体分析吧
http : // slproweb . com / products / Win32OpenSSL . html
爬虫安装过程
在Windows下安装,由于编译问题,很可能lxml安装不成功,对于这个问题,
简单的解决办法是,安装编译包
编译包的下载地址:windows版的各种Python库安装包下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
注意版本库之间的相互依赖关系,以及自己操作系统的位数
将cmd当前目录切换到下载的文件所在的位置 然后在命令行安装,例如我把lxml-3.6.4-cp36-cp36m-win32.whl下载到C:\downloads
cd downloads
pip install lxml-3.6.4-cp36-cp36m-win32.whl
在Linux下安装lmxl 可以参见:
http://lxml.de/installation.html
安装openssl,网址:https://pypi.python.org/pypi/pyOpenSSL
Scrapy的库依赖
Scrapy 1.2.1的python介绍 https://pypi.python.org/pypi/Scrapy/1.2.1
Requires Distributions
w3lib (>=1.15.0)
six (>=1.5.2)
service-identity
queuelib
pyOpenSSL
parsel (>=0.9.3)
lxml
cssselect (>=0.9)
Twisted (>=10.0.0)
PyDispatcher (>=2.0.5)
ubuntu安装数据库MySQL模块
以mysql为例,一般先要安装mysqlclient模块
1.ubuntu下python版本为2.x中的mysqlclient安装方式
apt-get install python-dev libmysqlclient-dev
pip install MySQL-python
2.ubuntu下python版本为3.x中的mysqlclient安装方式
apt-get install python3-dev libmysqlclient-dev
pip install MySQL-python
关于安装的编译问题
关于Python的解释器
CPython即用C语言实现Python及其解释器(JIT编译器),Linux,OS X等自带的也是这个版本,第三方包Numpy等也是使用CPython。大多数第三方包仅兼容CPython。
Jython是用Java语言来实现,
Pypy是用Python来实现(准确说是个Python子集)
IronPython是用.NET实现的
Visual C++ |CPython
--------------------
14.0 |3.5
10.0 |3.3, 3.4
9.0 |2.6, 2.7, 3.0, 3.1, 3.2
对于Python的底层实现学习不学习,主要看时间投资是否值得以及自己的兴趣爱好的强烈程度。
Python标准库与第三方库
参考概念:
OpenSSL整个软件包大概可以分成三个主要的功能部分:SSL协议库、应用程序以及密码算法库
<1>MySQL-Python 1.2.5 does not support Python 3.0+ yet
<2>Even if you havea 64bit computer, if you installed a 32bit version of Python you must install
the 32bit version of pywin32.
参考网址:
Scrapy安装指南:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html
安装出错中的一些参考网站:http://stackoverflow.com/questions/22388519/problems-with-pip-install-numpy-runtimeerror-broken-toolchain-cannot-link-a
PyPI - the Python Package Index https://pypi.python.org/pypi2016/11/20