python爬取”顶点小说网“《纯阳剑尊》的示例代码

作者:Gg、 时间:2021-02-14 11:03:35 

爬取”顶点小说网“《纯阳剑尊》

代码


import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
 like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
 response = requests.get(url, headers=headers)
 response.encoding = response.apparent_encoding
 html = response.text
 return html

# 提取标题
def get_title(url):
 soup = BeautifulSoup(url, 'lxml')
 title_tag = soup.find('dd')
 title = '\n' + title_tag.h1.get_text() + '\n'
 return title

# 提取文本
def get_texts(url):
 soup2 = BeautifulSoup(url, 'lxml')
 text_tags = soup2.find_all('dd', id="contents")
 return text_tags

# 保存标题
def save_title(filename, title):
 with open(filename, 'a+', encoding='utf-8') as file:
   file.write(title)

# 保存文本
def save_text(filename, text):
 with open(filename, 'a+', encoding='utf-8') as file:
   file.write(text)

# 主程序函数
def main():
 num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
 num = int(num)
 number = 8184027 + num
 url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
 filename = '纯阳剑尊.txt'
 r = open_url(url)
 title = get_title(r)
 tags = get_texts(r)
 save_title(filename, title)
 for text_tag in tags:
   text = text_tag.get_text() + '\n'
   save_text(filename, text)
 print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
 main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

来源:https://www.cnblogs.com/jsxxd/p/13740833.html

标签:python,爬取,顶点小说网,爬虫,纯阳剑尊
0
投稿

猜你喜欢

  • Python图像处理之图片文字识别功能(OCR)

    2023-10-29 17:38:00
  • Python在for循环中更改list值的方法【推荐】

    2023-03-05 07:14:28
  • 如何用css制作有趣的按钮

    2008-03-17 13:54:00
  • 实例代码讲解Python 线程池

    2023-07-19 03:53:04
  • python基础编程小实例之计算圆的面积

    2023-06-07 06:33:14
  • ASP连接SQL2005数据库连接代码

    2011-03-25 10:44:00
  • 解析PHP观察者模式Observer

    2023-07-08 13:38:58
  • Python干货实战之逆向登录世界上最大的游戏平台Stream

    2023-05-13 11:25:19
  • 利用Python如何实现一个小说网站雏形

    2023-09-22 05:52:07
  • python 实时调取摄像头的示例代码

    2021-10-17 06:07:52
  • 基于numpy实现逻辑回归

    2023-06-21 10:04:25
  • SQL Server数据库简体繁体数据混用的问题

    2008-12-05 16:07:00
  • python修改微信和支付宝步数的示例代码

    2021-08-31 08:45:06
  • python中的不可变数据类型与可变数据类型详解

    2022-12-27 21:56:24
  • Python的包管理器pip更换软件源的方法详解

    2023-02-03 05:25:22
  • python3将视频流保存为本地视频文件

    2023-07-26 12:14:45
  • django序列化时使用外键的真实值操作

    2022-07-19 10:09:30
  • 三招解决SQL Server数据库权限冲突

    2009-03-16 16:58:00
  • python3.5 email实现发送邮件功能

    2023-06-14 15:58:59
  • JS实现六边形3D拖拽翻转效果的方法

    2023-08-28 15:51:31
  • asp之家 网络编程 m.aspxhome.com