使用py-spy解决scrapy卡死的问题方法

站长资源 2024/12/24 佚名

42 1538 42

白云岛资源网 Design By www.pvray.com

背景

在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程都卡死在那，并且会导致数据产出延迟。

问题定位

使用py-spy这个非常好用的python性能分析工具来进行排查，py-spy可以查看一个python进程函数调用用时，类似unix下的top命令。所以我们用这个工具看看是什么函数一直在执行。

首先安装这个工具

pip install py-spy

用py-spy看看scrapy哪个函数执行时间长

# 先找到这个卡死的scrapy进程的pid
ps -ef |grep scrapy 
# 启动 py-spy 观察这进程
py-spy top --pid 53424

首先我们按3，按OwnTime进行排序，这个表示函数自身执行的时间，可以看到read这个函数执行的时间最长，那看来是IO导致的，程序中的IO行为就是读写磁盘和网络IO，磁盘读写一般不会有问题，所以初步定位是网络IO导致的。

接下来进行进一步确认，再按4，按TotalTIme 所有子函数执行时间总和进行排序，可以看到是在process_item和download，upload_image这些主流程函数的执行时间比较长，这一步是先把图片下载到本地，然后上传到静床，看来是下载这步从网络中read数据时出现了问题，进一步追踪代码。

看下download的函数的代码：

if filename == '':
      filename = os.path.basename(url)
    path = path + '/' + filename
    
    try:
      res = request.urlretrieve(url,filename=path)
      print(url,res)
      return path
    except Exception as e:
      print('download img failed')
      print(e)
      return False

可以看到用了urllib这个库里面request.urlretrieve函数，这个函数是用来下载文件的，去看看python官网文档的函数说明，发现里面没有超时时间这个参数，所以是由于没有超时时间，导致一直在read，进而使得进程卡死。

urllib.request.urlretrieve(url, filename=None,reporthook=None,data=None)

解决方案

使用另一种方式来下载图片，使用支持超时时间的urlopen函数，封装成一个自定义的url_retrieve，这样就不再会出现没有超时导致的卡死问题了。

def url_retrieve(self,url, path):
    r = request.urlopen(url, timeout=5)
    res = False
    with open(path,"wb") as f:
      res = f.write(r.read())
      f.flush()
      f.close()
    return res

scrapy,卡死

白云岛资源网 Design By www.pvray.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

白云岛资源网 Design By www.pvray.com

评论“使用py-spy解决scrapy卡死的问题方法”

暂无评论...

www.pvray.com 白云岛资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2024/12/24

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/24

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/24

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2024/12/24

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2024/12/24

一句话新闻

一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2024/12/24

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。

使用py-spy解决scrapy卡死的问题方法

详解基于Scrapy的IP代理池搭建

Python 创建守护进程的示例

评论“使用py-spy解决scrapy卡死的问题方法”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

友情链接