Phantomjs抓取渲染JS后的网页(Python代码)

作者:hebedich 时间:2022-03-22 05:05:51 

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小编),漫步了一圈,发现只有pyspider提供了现成的方案。

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。 轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。

准备工作

你当然要有Phantomjs,废话!(Linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)
用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]
安装tornado依赖(使用了tornado的httpclient模块)

调用是超级简单的


from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
 user_agent='phantomjs', # 模拟浏览器的User-Agent
 phantomjs_proxy='http://localhost:12306', # phantomjs的地址
 poolsize=10, # 最大的httpclient数量
 async=False # 同步还是异步
 )
# 开始连接Phantomjs的代码,可以渲染JS!
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本(注意用function包起来!)
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

标签:Phantomjs,抓取网页
0
投稿

猜你喜欢

  • python实现生成Word、docx文件的方法分析

    2021-03-01 07:49:53
  • matplotlib bar()实现百分比堆积柱状图

    2022-06-22 02:05:22
  • python求素数示例分享

    2021-06-16 12:01:48
  • Seaborn数据分析NBA球员信息数据集

    2021-06-27 03:36:04
  • asp采集常用的几个FUCTION

    2007-09-05 19:45:00
  • 利用SQL Server复制技术实现数据同步更新

    2009-10-23 14:11:00
  • tensorflow实现训练变量checkpoint的保存与读取

    2023-12-15 18:10:33
  • 使用jQuery简化Ajax开发

    2010-04-11 21:09:00
  • python实现csv格式文件转为asc格式文件的方法

    2021-10-12 19:10:37
  • 支付宝lab logo设计创意发想

    2009-11-12 12:44:00
  • 基于Python的Houdini插件开发过程详情

    2023-11-28 17:28:02
  • 详解Django中Request对象的相关用法

    2021-12-08 16:30:06
  • Python pip 安装与使用(安装、更新、删除)

    2022-07-30 01:58:19
  • 我对PyTorch dataloader里的shuffle=True的理解

    2022-04-15 19:22:48
  • Python爬取知乎图片代码实现解析

    2023-02-22 08:14:14
  • 如何在ACCESS中插入超级链接?

    2007-10-22 12:13:00
  • Python内置方法和属性应用:反射和单例(推荐)

    2022-08-04 03:23:48
  • 轻松在线制作各种Logo标志

    2008-05-26 12:54:00
  • 在Sublime Editor中配置Python环境的详细教程

    2023-08-14 08:33:26
  • python批量下载网站马拉松照片的完整步骤

    2023-08-31 19:00:27
  • asp之家 网络编程 m.aspxhome.com