白云岛资源网 Design By www.pvray.com
根据一个爬取豆瓣电影排名的小应用,来简单使用etree和request库。
etree使用xpath语法。
import requests import ssl from lxml import etree ssl._create_default_https_context = ssl._create_unverified_context session = requests.Session() for id in range(0, 251, 25): URL = 'https://movie.douban.com/top250/"item"] 不管它们在文档中的位置 items = root.xpath('//ol/li/div[@class="item"]') for item in items: # 注意可能只有中文名,没有英文名;可能没有quote简评 rank, name, alias, rating_num, quote, url = "", "", "", "", "", "" try: url = item.xpath('./div[@class="pic"]/a/@href')[0] rank = item.xpath('./div[@class="pic"]/em/text()')[0] title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()') name = title[0].encode('gb2312', 'ignore').decode('gb2312') alias = title[1].encode('gb2312', 'ignore').decode('gb2312') if len(title) == 2 else "" rating_num = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0] quote_tag = item.xpath('.//div[@class="bd"]//span[@class="inq"]') if len(quote_tag) is not 0: quote = quote_tag[0].text.encode('gb2312', 'ignore').decode('gb2312').replace('\xa0', '') # 输出 排名,评分,简介 print(rank, rating_num, quote) # 输出 中文名,英文名 print(name.encode('gb2312', 'ignore').decode('gb2312'), alias.encode('gb2312', 'ignore').decode('gb2312').replace('/', ',')) except: print('faild!') pass
程序运行结果:
补充知识:requests抓取以及Xpath解析
代码:
# requests抓取 import requests # 新浪新闻的一篇新闻的url url = 'http://news.sina.com.cn/s/2018-05-09/doc-ihaichqz1009657.shtml' res = requests.get(url) # 查看编码方式 enconding = requests.utils.get_encodings_from_content(res.text) #print(enconding) # 打印网页内容 html_doc = res.content.decode("utf-8") print(html_doc[:500]) # 保存网页内容 with open('test.html', 'w') as f: f.write(html_doc)
运行结果:
<!DOCTYPE html> <!-- [ published at 2018-05-09 18:23:13 ] --> <!-- LLTJ_MT:name ="澎湃新闻" --> <html> <head> <meta charset="utf-8"/> <meta http-equiv="Content-type" content="text/html; charset=utf-8" /> <meta name="sudameta" content="urlpath:s/; allCIDs:51924,257,51895,200856,56264,258,38790"> <title>小学老师罚学生赤脚跑操场 官方:将按规定处理|赤脚|学生|华龙网_新浪新闻</title> <meta name="keywords" content="赤脚,学生,华龙网" /> <meta name="tags" content="赤脚,学生,华龙网" /> <meta name="description" content="原标题:潼南一小学体育老师罚学生赤脚跑操场续:区教委向华龙网发来情况
代码:
# xpath解析 from lxml import etree # 建立html的树 tree = etree.HTML(html_doc) # 设置目标路径(标题) path_title = '/html/body//h1[@class="main-title"]//text()' # 提取节点 node_title = tree.xpath(path_title) print("===" * 20) print(node_title[0]) # 设置内容路径 path_content = '//div[@class="article-content-left"]//div[@id="article"]//text()' # 提取节点 node_content = tree.xpath(path_content) print("===" * 20) print("。".join(node_content))
运行结果:
============================================================ 小学老师罚学生赤脚跑操场 官方:将按规定处理 ============================================================ 。 原标题:潼南一小学体育老师罚学生赤脚跑操场续:区教委向华龙网发来情况说明。 。 重庆客户端-华龙网5月9日消息,这两天,重庆潼南区朝阳小学二年级6班不少家长心疼不已,因为多个娃儿脚底被磨出了泡。一问才知道,是因为有些学生体育课上没穿运动鞋,被体育老师要求赤脚在操场上跑步。收到重庆网络问政平台这一投诉后,华龙网记者立即进行了调查。今(9)日,华龙网发布了。《重庆潼南一小学体育老师罚学生赤脚跑操场脚底磨出泡当地教委介入》。报道后,潼南教委高度重视并给华龙网传来官方的情况说明。。 。 。 [说明全文]。 。 关于家长在华龙网投诉教师上体育课体罚学生的情况说明。 。 潼南区朝阳小学体育教师邹老师于2018年5月7日上午上体育课时,发现该班有少部分名学生未按体育课的要求穿运动鞋。该教师认为,穿着凉鞋跑步对学生本人及他人存在安全隐患,塑胶跑道不会对学生光脚运动造成影响,于是就叫未穿运动鞋的学生,脱掉凉鞋进行随班热身跑步。当时邹老师未发现学生有异常情况,也未接到学生有异常情况的反映。后经家长反映到学校,有极少数光着脚跑步的学生有异常情况,学校庚即与部分家长进行了沟通,并及时调查了解了此事,并对该教师这种不恰当教学方法进行了批评教育,我们将按相关规定对该教师作出相应的处理。。 。 重庆市潼南区教育委员会。 。 2018年5月9日。 。 来源:华龙网。 。责任编辑:张义凌 。
以上这篇python3 xpath和requests应用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
白云岛资源网 Design By www.pvray.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
白云岛资源网 Design By www.pvray.com
暂无评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。