博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬虫(1)基础知识和简单爬虫
阅读量:4655 次
发布时间:2019-06-09

本文共 3365 字,大约阅读时间需要 11 分钟。

Python上手很容易,免费开源,跨平台不受限制,面向对象,框架和库很丰富。

Python :Monty Python's Flying Circus (Python的名字来源,和蟒蛇其实无关)。

通过homebrew和pyenv可以维护多个Python版本。

相关知识

HTTP = HyperText Transfer Protocol

URI = Uniform Resource Identifier 强调资源

URL = Uniform Resource Locator 强调资源的位置

可以说url是一种具体的uri,uri是一个抽象的概念,即url标志一个uri,并指明了位置。

所谓web api,就是通过Http请求实现。

Head:向服务器索要与get请求相一致的相应,响应不会被返回。

GET:向特定资源发出请求。

PUT:向指定资源位置上传最新内容。

POST:向指定资源提交数据进行处理请求。

DELETE:删除指定URI所标识的资源。

PATCH:修改某一资源。 

基本上使用就是GET和POST。

# -*- coding: UTF-8 -*- import sysreload(sys)sys.setdefaultencoding('utf-8')import requestsimport json# # geturl = 'http://kaoshi.edu.sina.com.cn/college/scorelist?tab=batch&wl=1&local=2&batch=&syear=2013'request = requests.get(url = url) #请求request.encoding = 'utf-8' #防止乱码print request.text #读取 #postdata = {'type1': 1, 'type2': 2, 'status': 0, 'wdzjPlatId': 59}request = requests.post('http://shuju.wdzj.com/depth-data.html',data = data)for key in json.loads(request.text).keys():  # json.loads把json格式的数据转成字典    print key       #下面有简单提到json,当然json本身不是复杂东西,详细的可以自己搜索

requests包很好用,以前写爬虫都是urllib2,这玩意很啰嗦,所以我还是推荐用requests,

HTTP常见状态码:

200:OK

404:找不到资源

1开头的是消息,2开头的是成功,3开头的是重定向,4开头的是请求错误。

import requestsurl = 'http://www.baidu.com'r = requests.get(url)print r.status_code200

  

HTML

HTML,标记语言,不是编程语言。XML和HTML格式差不多的。

<标签 属性 = "属性的值"> </标签>

DOM文档模型

CSS(Cascading Style Sheets) 选择器: 样式定义如何显示html
  • 元素选择器 直接选择文档元素 比如head,p

  • 类选择器 元素的class属性,比如<h1 class="important"> 类名就是important .important选择所有有这个类属性的元素 可以结合元素选择器,比如p.important

  • ID选择器 元素的id属性,比如<h1 id="intro"> id就是important #intro用于选择id=intro的元素 可以结合元素选择器,比如p.important

  • 属性选择器 选择有某个属性的元素,而不论值是什么。 *[title] 选择所有包含title属性的元素 a[href]选择所有带有href属性的锚元素 还可以选择多个属性,比如:a[href][title],注意这里是要同时满足。 限定值:a[href="www.so.com"]

  • 此外还有后代,子元素选择器等

ID与类选择器的差异:ID一个文档只能出现一次 ID选择器不能使用单词列表 与类选择器一样,都区分大小写。

对于HTML,XML文件,可以使用XPath,但是XPath比较繁杂,不过可以通过浏览器的审查,然后选中你所要的目标,右击选中copy xpath来实现,也挺方便的。

Python中lxml库是实现XPath功能的,BeautifulSoup解析HTML文件,BeautifulSoup是基于DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多。

而lxml只会局部遍历,另外lxml是用c写的,而BeautifulSoup是用python写的,因此性能方面自然会差很多。

当然这是以前,现在BeautifulSoup支持用lxml作为parser了,所以BeautifulSoup性能上也还算可以了。

此外python的爬虫框架Scrapy是建立在lxml库之上,当然当我们使用Scrapy的时候 BeautifulSoup也是可以的。

JSON

JSON,小,快,容易解析。所以当我们访问api时,获得的通常都是json格式的数据。

正则表达式

当BeautifulSoup都处理不了的数据,正则表达式是万能的,就是不断的匹配,匹配想要的内容。

最后存储

数据库:MySQl,SQLite,MongoDB,Redis,等等。

爬虫的简单介绍

工作流程:

将种子url放入队列,从队列中获取url,抓取内容,解析内容,将需进一步抓取的url放入工作队列,存储解析后的内容。

抓取策略:深度优先,广度优先,PageRank。

去重:Hash表,bloom过滤器。

Robots规范,网站通过Robots协议告诉搜索引擎哪些页面可以爬取,哪些不可以爬取。网站和爬虫的沟通方式,用来指导搜索引擎更好的爬取网站内容。

写一个基于深度的随机爬取wiki的简单例子:

from urllib2 import urlopenfrom bs4 import BeautifulSoupimport repages = set()def getLinks(pageUrl):    global pages    html = urlopen("http://en.wikipedia.org"+pageUrl)    bsObj = BeautifulSoup(html,'lxml')    try:        print(bsObj.h1.get_text())        print(bsObj.find(id="mw-content-text").findAll("p")[0])        print(bsObj.find(id="ca-edit").find("span").find("a").attrs['href'])    except AttributeError:        print("页面缺少一些属性!不过不用担心!")    for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):        if 'href' in link.attrs:            if link.attrs['href'] not in pages:                # 我们遇到了新页面                newPage = link.attrs['href']                print("----------------\n"+newPage)                pages.add(newPage)                getLinks(newPage)getLinks("")

转载于:https://www.cnblogs.com/zephyr-1/p/6296367.html

你可能感兴趣的文章
[Leetcode] unique paths ii 独特路径
查看>>
HDU 1217 Arbitrage (Floyd + SPFA判环)
查看>>
IntelliJ idea学习资源
查看>>
Django Rest Framework -解析器
查看>>
ExtJs 分组表格控件----监听
查看>>
Hibernate二级缓存配置
查看>>
LoadRunner常用术语
查看>>
关于jedis2.4以上版本的连接池配置,及工具类
查看>>
记忆讲师石伟华微信公众号2017所有文章汇总(待更新)
查看>>
mechanize (1)
查看>>
FactoryBean
查看>>
Coolite动态加载CheckboxGroup,无法在后台中获取
查看>>
如何在我们项目中利用开源的图表(js chart)
查看>>
nfs服务器工作原理
查看>>
C3P0连接池工具类使用
查看>>
SVN常用命令备注
查看>>
孩子教育
查看>>
解决Cacti监控图像断断续续问题
查看>>
结构体的传参理解成员的存储方式
查看>>
python 进程与线程(理论部分)
查看>>