Python爬虫框架和数据库连接

Scrapy的安装说明

关于爬虫,Scrapy,在官网上资料很多,在这里
主要记录一下流程,忽略的步骤等等
以及爬出来的坑,也提醒一下自己
还有就是一些自己接触的新概念的学习--是什么,怎么做,为什么,改进或者升级

搭建语言环境

0.操作系统,操作系统的位数
    Windows 32bit

1.Python的版本以及位数
    安装Python完成后,记得设置环境变量
    C:\Python2.7\;
    C:\Python2.7\Scripts\;
    查看 python -V  Python的版本以及位数,打开命令提示符输入python ,看到以下内容,可见我安装的是32位的
    Python 2.7.11 (v2.7.11:6d1b6a68f775, Dec  5 2015, 20:32:19) [MSC v.1500 32 bit (Intel)] on win32

2. http://sourceforge.net/projects/pywin32/ 安装 pywin32  
 https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/
出现ImportError: No module named win32api 或者出现 ImportError: No module named win32con,说明你的库没有安装好。
Pywin32VC一样的形式来使用PYTHON开发win32应用
    库里面最重要的模块:win32api就是通过pythonwin32的本地api进行了封装
下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证。验证方式 python环境下 import win32com   没提示错即证明安装成功

3.安装pip,对于版本小于2.7.9的需要安装,版本比较新的则不需要,查看
    pip -version

4.Win32OpenSSL这个很可能是在我之前安装其他的程序已经安装了,所以在这里是不需要了。具体在自己的电脑上再具体分析吧
http://slproweb.com/products/Win32OpenSSL.html

爬虫安装过程

在Windows下安装,由于编译问题,很可能lxml安装不成功,对于这个问题,
简单的解决办法是,安装编译包
编译包的下载地址:windows版的各种Python库安装包下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
注意版本库之间的相互依赖关系,以及自己操作系统的位数
将cmd当前目录切换到下载的文件所在的位置 然后在命令行安装,例如我把lxml-3.6.4-cp36-cp36m-win32.whl下载到C:\downloads
    cd  downloads
    pip install lxml-3.6.4-cp36-cp36m-win32.whl
在Linux下安装lmxl 可以参见:
    http://lxml.de/installation.html

安装openssl,网址:https://pypi.python.org/pypi/pyOpenSSL

Scrapy的库依赖

Scrapy 1.2.1的python介绍  https://pypi.python.org/pypi/Scrapy/1.2.1
 Requires Distributions
    w3lib (>=1.15.0)
    six (>=1.5.2)
    service-identity
    queuelib
    pyOpenSSL
    parsel (>=0.9.3)
    lxml
    cssselect (>=0.9)
    Twisted (>=10.0.0)
    PyDispatcher (>=2.0.5)

ubuntu安装数据库MySQL模块

以mysql为例,一般先要安装mysqlclient模块
1.ubuntu下python版本为2.x中的mysqlclient安装方式
apt-get install python-dev libmysqlclient-dev
pip install MySQL-python
2.ubuntu下python版本为3.x中的mysqlclient安装方式
apt-get install python3-dev libmysqlclient-dev
pip install MySQL-python

关于安装的编译问题

关于Python的解释器
        CPython即用C语言实现Python及其解释器(JIT编译器),Linux,OS X等自带的也是这个版本,第三方包Numpy等也是使用CPython。大多数第三方包仅兼容CPython。
        Jython是用Java语言来实现,
        Pypy是用Python来实现(准确说是个Python子集)
        IronPython是用.NET实现的
    Visual C++ |CPython
    --------------------
    14.0       |3.5
    10.0       |3.3, 3.4
    9.0        |2.6, 2.7, 3.0, 3.1, 3.2
    对于Python的底层实现学习不学习,主要看时间投资是否值得以及自己的兴趣爱好的强烈程度。
Python标准库与第三方库

参考概念:

OpenSSL整个软件包大概可以分成三个主要的功能部分:SSL协议库、应用程序以及密码算法库
<1>MySQL-Python 1.2.5 does not support Python 3.0+ yet
<2>Even if you havea 64bit computer, if you installed a 32bit version of Python you must install
the 32bit version of pywin32.

参考网址:

Scrapy安装指南:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html
 安装出错中的一些参考网站:http://stackoverflow.com/questions/22388519/problems-with-pip-install-numpy-runtimeerror-broken-toolchain-cannot-link-a
PyPI - the Python Package Index https://pypi.python.org/pypi2016/11/20

blogroll

social