Python实现复制文档数据

作者：魔王不会哭时间：2022-07-15 02:39:32　

前言

我们百度搜索一些东西得时候，经常找到文档里面

然后就会发现需要充值才能复制！怎么可以不花钱也保存呢？

今天就分享给大家一个python获取文档数据得方法

环境使用

python 3.8

pycharm

模块使用

requests >>> 数据请求模块 pip install requests

docx >>> 文档保存 pip install python-docx

re 内置模块不需要安装

ctrl + R : 首先你得看得数据, 才能想办法获取

安装python第三方模块

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

基本思路流程

一. 分析数据来源

找文档数据内容, 是在那个url里面生成的

通过开发者工具进行抓包分析

1.打开开发者工具: F12 / 鼠标右键点击检查选择network

2.刷新网页: 让本网页数据内容重新加载一遍

如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别

3.分析文库数据内容, 图片所在地址

获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载

文字识别, 把图片文字识别出来, 保存word文档里面

二. 代码实现步骤

1.发送请求, 模拟浏览器对于url地址发送请求

图片数据包

2.获取数据, 获取服务器返回响应数据

开发者工具: response

3.解析数据, 提取图片链接地址

4.保存数据, 把图片内容保存到本地文件夹

5.做文字识别, 识别文字内容

6.把文字数据信息, 保存word文档里面

代码展示

# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入base64
import base64
# 导入os模块
import os
# 导入文档模块
from docx import Document
# 导入正则
import re
# 导入json
import json

文字识别:

注册一个百度云API账号
创建应用并且去免费领取资源
在技术文档里面 Access Token获取
调用API接口去做文字识别

def get_content(file):
# client_id 为官网获取的AK， client_secret 为官网获取的SK
host = 'https://aip.****.com/oauth/2.0/token?grant_type=client_credentials&client_id=Gu7BGsfoKFZjLGvOKP7WezYv&client_secret=rGa2v2FcVnxBDFlerSW5H0D2eO7nRxdp'
response = requests.get(host)
access_token = response.json()['access_token']
'''
通用文字识别（高精度版）
'''
request_url = "https://aip.****.com/rest/2.0/ocr/v1/accurate_basic"
# 二进制方式打开图片文件
f = open(file, 'rb')
img = base64.b64encode(f.read())
params = {"image":img}
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
json_data = requests.post(request_url, data=params, headers=headers).json()
# 列表推导式
words = '\n'.join([i['words'] for i in json_data['words_result']])
return words

# # 读取文件夹里面所有图片内容
# content_list = []
# files = os.listdir('img\\')
# for file in files:
# filename = 'img\\' + file
# words = get_content(file=filename)
# print(words)
# content_list.append(words)
#
# # 保存word文档里面
# doc = Document()
# # 添加第一段文档内容
# content = '\n'.join(content_list)
# doc.add_paragraph(content)
# doc.save('data.docx')

link = 'https://wenku.****.com/aggs/74d1a923482fb4daa58d4b8e?index=0&_wkts_=1670327737660&bdQuery=％E7％AD％94％E9％A2％98'
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
html_data = requests.get(url=link, headers=headers).text
json_data = json.loads(re.findall('var pageData = (.*?);', html_data)[0])
pprint(json_data)
for j in json_data['aggInfo']['docList']:
name = j['title'] # 名字
score = j['score'] # 评分
viewCount = j['viewCount'] # 阅读量
downloadCount = j['downloadCount'] # 下载量
docId = j['docId'] # 数据包ID

1.发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写

问号前面: url链接

问号后面: 请求参数/查询参数

# 确定请求链接
url = 'https://wenku.****.com/gsearch/rec/pcviewdocrec'
# 请求参数
data = {
'docId': docId,
'query': name,
'recPositions': ''
}
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
#发送请求
response = requests.get(url=url, params=data, headers=headers)
# <Response [200]> 响应对象, 200 表示请求成功
print(response)

2.获取数据, 获取服务器返回响应数据

开发者工具: response

response.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式花括号 {}
response.text 获取响应文本数据, 返回字符串任何时候都可以, 但是基本获取网页源代码的时候
response.content 获取响应二进制数据, 返回字节保存图片/音频/视频/特定格式文件
print(response.json()) 打印字典数据, 呈现一行
pprint(response.json()) 打印字典数据, 呈现多行, 展开效果

3.解析数据, 提取图片链接地址

字典取值: 键值对根据冒号左边内容[键], 提取冒号右边的内容[值]

# 定义文件名整型
num = 1
# for循环遍历, 把列表里面元素一个一个提取出来
for index in response.json()['data']['relateDoc']:
# index 字典呀
pic = index['pic']
print(pic)

# # 4. 保存数据发送请求 + 获取数据二进制数据内容
# img_content = requests.get(url=pic, headers=headers).content
# # 'img\\'<文件夹名字> + str(num)<文件名> + '.jpg'<文件后缀> mode='wb' 保存方式, 二进制保存
# # str(num) 强制转换成字符串
# # '图片\\' 相对路径, 相对于你代码的路径你代码在那个地方, 那个代码所在地方图片文件夹
# with open('图片\\' + str(num) + '.jpg', mode='wb') as f:
# # 写入数据保存数据把图片二进制数据保存
# f.write(img_content)
# # 每次循环 + 1
# print(num)
# num += 1

来源：https://blog.csdn.net/python56123/article/details/128308881

标签：Python,文档,数据

投稿

Python实现复制文档数据

前言

环境使用

模块使用

基本思路流程

一. 分析数据来源

二. 代码实现步骤

代码展示

猜你喜欢

在Python中等距取出一个数组其中n个数的实现方式

对Python 窗体(tkinter)树状数据(Treeview)详解

python中提高pip install速度

在linux系统下安装python librtmp包的实现方法

python实现五子棋游戏（pygame版）

asp统计在线人数是实时的吗？

WEB前端开发经验总结之实战篇

Python去除图片水印实现方法详解

关于Python下载大文件时哪种方式速度更快

Google投放广告的js的分析

jQuery打造动态渐变按钮

OpenCV实现直线检测

浅谈ROC曲线的最佳阈值如何选取

JavaScript监听和禁用浏览器回车事件实例

Python os库常用操作代码汇总

python通过pil模块将raw图片转换成png图片的方法

python在命令行下使用google翻译(带语音)

Python反射机制案例超详细讲解

解读Scrapy回调函数callback传递参数的方式

PyTorch实现MNIST数据集手写数字识别详情