Python爬取数据保存为Json格式的代码示例

作者:zhanghl150426 时间:2022-10-13 17:11:36 

python爬取数据保存为Json格式

代码如下:


#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
 # 伪装
 header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
 # url="https://movie.douban.com/top250"
 url="file:///E:/scrapy/2018-04-27/movie/movie.html"
 ret=urllib.request.Request(url=url,headers=header)
 # 打开网页
 res=urllib.request.urlopen(ret)
 # 转化格式
 response=BeautifulSoup(res,'html.parser')
 # 找到想要数据的父元素
 datas=response.find_all('div',{'class':'item'})
 # print(datas)
 #创建存放数据的文件夹
 folder_name="output"
 if not os.path.exists(folder_name):
     os.mkdir(folder_name)
 # 定义文件
 current_time=time.strftime('%Y-%m-%d',time.localtime())
 file_name="move"+current_time+".json"
 # 文件路径
 file_path=folder_name+"/"+file_name
 for item in datas:
   # print(item)
   dict1={}
   dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
   dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
   dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
   # print(picUrl)
   # 保存数据为json格式
   try:
     with codecs.open(file_path,'a',encoding="utf-8") as fp:
       fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
   except IOError as err:
     print('error'+str(err))
   finally:
     fp.close()
 pass
getDatas()
# 爬取数据

来源:https://blog.csdn.net/zhanghl150426/article/details/82022339

标签:python,爬取数据,json格式
0
投稿

猜你喜欢

  • Python使用Pickle库实现读写序列操作示例

    2022-05-15 03:53:03
  • Django实现图片文字同时提交的方法

    2021-10-19 20:11:28
  • Python中Requests-get方法的使用

    2021-05-31 08:35:31
  • CSS样式表:详细介绍IE7新支持的选择器

    2007-10-09 18:24:00
  • 简述Python中的进程、线程、协程

    2021-04-07 11:19:02
  • Windows2012配置SQLServer2014AlwaysOn的图解

    2024-01-16 15:39:01
  • response.getWriter().write()向前台打印信息乱码问题解决

    2023-07-05 05:29:37
  • python re模块匹配贪婪和非贪婪模式详解

    2023-04-19 01:44:16
  • 如何设置PyCharm中的Python代码模版(推荐)

    2022-12-14 03:56:29
  • python实现串口通信的示例代码

    2023-08-04 03:44:24
  • ASP 高级模板引擎实现类

    2011-03-25 10:54:00
  • JS实现给对象动态添加属性的方法

    2024-04-22 13:07:07
  • Python实现扫描指定目录下的子目录及文件的方法

    2022-09-04 23:44:40
  • hive中将string数据转为bigint的操作

    2024-01-20 15:37:18
  • 理解python中生成器用法

    2022-08-27 10:49:59
  • 只需要这一行代码就能让python计算速度提高十倍

    2023-01-30 15:16:02
  • 为非IE浏览器添加mouseenter,mouseleave事件的实现代码

    2024-02-23 19:26:11
  • Django如何开发简单的查询接口详解

    2022-07-06 11:27:57
  • PHP使用PHPexcel导入导出数据的方法

    2024-05-13 09:21:10
  • 编写python程序的90条建议

    2022-04-30 00:36:22
  • asp之家 网络编程 m.aspxhome.com