手动
使用现有工具
1.1使用浏览器以及对应插件
httpfox--监控浏览器执行htt请求和响应
1.2使用整站下载工具
Teleport Ultra
使用Python库
2.使用urllib2以及urllib ----如外的可能使用<cookielib>
urllib2库里面的urlopen方法,传入一个URL,data默认为空None,返回一个response对象,返回信息便保存在这里面
urllib2.urlopen(url, data, timeout)
例子
:
response = urllib2.urlopen("http://www.baidu.com")
print response.read()
构造Request类-参数可以传入一个request请求,它其实就是一个Request类的实例
import urllib2
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()
3.使用Requests
#-*- coding:utf-8 -*-
import requests
url = 'http://www.baidu.com'
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get(url, params=payload)
使用Python爬虫框架
4.1--使用Selenium
4.2---使用爬虫框架--Scrapy
商业软件
参考
Python 爬虫的工具列表 http://python.jobbole.com/82633/
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类 http://blog.csdn.net/pleasecallmewhy/article/details/8923725
Selenium 爬取淘宝实战练习 https://ask.hellobi.com/blog/JiangYiXin/7837