爬虫入门文章知识点的整理
基于如何入门 Python 爬虫?-GYLTP的回答

Based on: Python 2.7

原理与流程: 发送请求——获得页面——解析页面——下载内容——储存内容

需要掌握的Python基础语法

  • list,dict:序列化爬取内容
  • 切片:对爬取内容进行分割,生成
  • 条件判断(if等):爬取内容选择
  • 循环和迭代(for,while):用于循环,重复爬虫动作
  • 文件读写操作(open,close等):读取参数,保存爬取内容
  • 编码常识(codecs等):标准码为ASCII码,需要录入中文时需声明并使用utf-8(万国码)

所需要的基本知识

  • 网页相关:HTML(静态) JS(动态)
  • 网络相关:POST GET(收发包概念)

分析语言(用于解析网页)

  1. 正则表达式(基础)
  2. XPATH(高效分析语言)
  3. Beautifulsoup(模块解析网页神器)

辅助工具

  1. F12开发者工具(浏览器中查看源代码,快速定位元素|分析Xpath)
  2. 抓包工具(查看网站收发包信息,推荐使用httpfox)
  3. XPATH CHECKER(Xpath测试工具,建议作为参考)
  4. 正则表达式测试工具(辅助分析,有在线版本)

一些会用到的Python模块

爬网站用

urllib
urllib2
request

框架

scrapy (使用框架可以避免重复造轮子)

用于动态页面

selenium(与scrapy配合)
phantomJS(不显示网页的selenium)

反爬验证

PIL
opencv
pybrain
打码平台(最简单方法)

数据库

mysql
mongodb
sqllite

数据分析

numpy (数据分析,类似matlab的模块)
pandas(基于numpy的数据分析模块,常用、基础)

进阶技术

多线程、分布式


另外一个很好的回答:如何入门 Python 爬虫?-迦伦的回答

标签: 爬虫

添加新评论