python实现ip代理池功能示例
作者:Yeoman92 发布时间:2023-07-30 16:36:06
标签:python,ip代理池
本文实例讲述了python实现ip代理池功能。分享给大家供大家参考,具体如下:
爬取的代理源为西刺代理。
用xpath解析页面
用telnet来验证ip是否可用
把有效的ip写入到本地txt中。当然也可以写入到redis、mongodb中,也可以设置检测程序当代理池中的ip数不够(如:小于20个)时,启动该脚本来重新获取ip,本脚本的代码也要做相应的改变。
# !/usr/bin/env python
# -*- coding: utf-8 -*-
# @Version : 1.0
# @Time : 2018/10/23 上午10:40
# @Author : Yeoman
# @Description :
import urllib.request
import lxml.etree
import telnetlib
import os
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}
def get_proxy(page_num):
# 获取页面
req = urllib.request.Request('http://www.xicidaili.com/nn/{}'.format(page_num), headers=headers) # 构造request请求
response = urllib.request.urlopen(req) # 发送请求
html = response.read()
html = html.decode('utf-8')
# print(html)
# 解析页面
proxy_list = []
selector = lxml.etree.HTML(html)
rows = selector.xpath('//*[@id="ip_list"]//tr')
rows_total = len(rows)
row_xpath_head = '//*[@id="ip_list"]//tr['
row_ip_xpath_tail = ']/td[2]/text()'
row_port_xpath_tail = ']/td[3]/text()'
for i in range(1, rows_total):
ip_xpath = row_xpath_head + str(i+1) + row_ip_xpath_tail
port_xpath = row_xpath_head + str(i+1) + row_port_xpath_tail
ip = selector.xpath(ip_xpath)[0]
port = selector.xpath(port_xpath)[0]
ip_port = ip + ':' + port
proxy_list.append(ip_port)
return proxy_list
# 检测代理ip是否可用
def test_proxy_ip_port(proxy_ip_port):
print('当前代理ip:{}'.format(proxy_ip_port))
ip_port = proxy_ip_port.split(':')
ip = ip_port[0]
port = ip_port[1]
# 用telnet来验证ip是否可用
try:
telnetlib.Telnet(ip, port, timeout=10)
except:
return False
else:
return True
# 把有效的ip写入本地
def write_ip(proxy_ip):
with open('./ip.txt', 'a') as f:
f.write(proxy_ip + '\n')
# 删除文件
def del_file():
file_path = './ip.txt'
if os.path.exists(file_path):
os.remove(file_path)
def run():
del_file()
proxy_ip_port_list = []
for i in range(1, 6): # 前5页
proxy_ip_port_list += get_proxy(i)
for i in range(100): # 一页有100条
proxy_ip_port = proxy_ip_port_list[i]
is_valid = test_proxy_ip_port(proxy_ip_port)
print(is_valid)
if is_valid:
# 写入ip到本地
write_ip(proxy_ip_port)
if __name__ == '__main__':
run()
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/Yeoman92/article/details/83310646
0
投稿
猜你喜欢
- 前言:Requests简介Requests 是使用Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为
- 检查 MySQL 数据库的启动时间Linux 系统中的 systemd 和 mysqld_safe 会在 mysqld 进程 crash 后
- 最近又新上了一部分站点,随着站点的增多,管理复杂性也上来了,俗话说:人多了不好带,我发现站点多了也不好管,因为这些站点里有重要的也有不重要的
- 第一种方法: 代码如下:Minimsdn.com为您提供的代码: -- Turn ON [Display IO Info when exec
- 这几天要折腾mysql服务器,所以在网上搜罗了一些维护策略,然后自己总结实验,下面是我的总结经验和别人的一些建议。日志类型:MySQL有几个
- ASP生成柱型体,折线图,饼图源代码。一:纯ASP代码生成图表函数2——折线图;二:纯ASP代码生成图表函数1——柱状图 ;三:纯
- 通常报表都存储在一个地方,但是在单独的文件中。随着文件数量的增加在结构和搜索上也困难多多,针对这个问题,我遇到了一个非常有趣的报表对象属性&
- 程序设计中会经常碰到一种情况,就是事先无法得知用户会需要哪些数据,必须根据用户选择后再从服务器重新提取数据后反馈给用户。比如一简单的情况,用
- 操作系统:Win7IDE:PyCharm4.5.3Django:1.10.1报错代码:request.session['key
- for循环只是一个多一点的代码,同时循环添加到它。而所涉及的一个循环的共同任务是: 设置一些计数器变量的初始值。 请检查条件语句是正确的。
- 收集和分发数据是网络管理的职责之一,而且必须确保这些数据的准确性和安全性。不管它们是什么操作系统,数据库服务器需要特殊的管理以保证操作上的安
- 前言我们在使用vue-cli启动项目的时候npm run dev便可以启动我们的项目了,通常我们的请求地址是以localhost:8080来
- 在python中经常会用到pandas来处理数据,最常用的数据类型是dataframe,但是有时候在dataframe有时间字段需要画时间序
- 前言根据《2021年Stackoverflow开发者调查》,SQL是最常用的五种编程语言之一。所以,我们应该多投入时间来学习SQL。由Sto
- 本文实例讲述了Python切片操作。分享给大家供大家参考,具体如下:在很多编程语言中,针对字符串提供了截取函数,其实目的就是对字符串切片。P
- 本文实例讲述了Flask框架通过Flask_login实现用户登录功能。分享给大家供大家参考,具体如下:通过Flask_Login实现用户验
- 如何显示存储在BLOB字段中的图像?showimges.asp' 在浏览器上单独显示图像 <%@
- 学习了简单的知识点,就会想要向有难度的问题挑战,这里必须要夸一夸小伙伴们。不过我们今天不需要做什么程序的测试,只用简单的两个代码对比,小伙伴
- 目录项目地址功能概述效果图模块安装提交环境为python3.7 pyqt5==5.13.2 win10 一切正常!说一说大概的思路吧项目地址
- 语法:Void header(string $string[,bool $replace=true [, int $http_respons