python多线程爬取西刺代理的示例代码

作者：王瑞时间：2021-05-27 04:32:57　

西刺代理是一个国内IP代理，由于代理倒闭了，所以我就把原来的代码放出来供大家学习吧。

镜像地址：https://www.blib.cn/url/xcdl.html

首先找到所有的tr标签，与class="odd"的标签，然后提取出来。

然后再依次找到tr标签里面的所有td标签，然后只提取出里面的[1,2,5,9]这四个标签的位置，其他的不提取。

最后可以写出提取单一页面的代码，提取后将其保存到文件中。

import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup

head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

if __name__ == "__main__":
ip_list=[]
fp = open("SpiderAddr.json","a+",encoding="utf-8")
url = "https://www.blib.cn/url/xcdl.html"
request = requests.get(url=url,headers=head)
soup = BeautifulSoup(request.content,"lxml")
data = soup.find_all(name="tr",attrs={"class": re.compile("|[^odd]")})
for item in data:
soup_proxy = BeautifulSoup(str(item),"lxml")
proxy_list = soup_proxy.find_all(name="td")
for i in [1,2,5,9]:
ip_list.append(proxy_list[i].string)
print("[+] 爬行列表: {} 已转存".format(ip_list))
fp.write(str(ip_list) + '\n')
ip_list.clear()

爬取后会将文件保存为 SpiderAddr.json 格式。

最后再使用另一段代码，将其转换为一个SSR代理工具直接能识别的格式，{'http': 'http://119.101.112.31:9999'}

import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup

if __name__ == "__main__":
result = []
fp = open("SpiderAddr.json","r")
data = fp.readlines()

for item in data:
dic = {}
read_line = eval(item.replace("\n",""))
Protocol = read_line[2].lower()
if Protocol == "http":
dic[Protocol] = "http://" + read_line[0] + ":" + read_line[1]
else:
dic[Protocol] = "https://" + read_line[0] + ":" + read_line[1]
result.append(dic)
print(result)

完整多线程版代码如下所示。

import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup

head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

class AgentSpider(threading.Thread):
def __init__(self,queue):
threading.Thread.__init__(self)
self._queue = queue

def run(self):
ip_list=[]
fp = open("SpiderAddr.json","a+",encoding="utf-8")
while not self._queue.empty():
url = self._queue.get()
try:
request = requests.get(url=url,headers=head)
soup = BeautifulSoup(request.content,"lxml")
data = soup.find_all(name="tr",attrs={"class": re.compile("|[^odd]")})
for item in data:
soup_proxy = BeautifulSoup(str(item),"lxml")
proxy_list = soup_proxy.find_all(name="td")
for i in [1,2,5,9]:
ip_list.append(proxy_list[i].string)
print("[+] 爬行列表: {} 已转存".format(ip_list))
fp.write(str(ip_list) + '\n')
ip_list.clear()
except Exception:
pass

def StartThread(count):
queue = Queue()
threads = []
for item in range(1,int(count)+1):
url = "https://www.xicidaili.com/nn/{}".format(item)
queue.put(url)
print("[+] 生成爬行链接 {}".format(url))

for item in range(count):
threads.append(AgentSpider(queue))
for t in threads:
t.start()
for t in threads:
t.join()

# 转换函数
def ConversionAgentIP(FileName):
result = []
fp = open(FileName,"r")
data = fp.readlines()

for item in data:
dic = {}
read_line = eval(item.replace("\n",""))
Protocol = read_line[2].lower()
if Protocol == "http":
dic[Protocol] = "http://" + read_line[0] + ":" + read_line[1]
else:
dic[Protocol] = "https://" + read_line[0] + ":" + read_line[1]
result.append(dic)
return result

if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("-p","--page",dest="page",help="指定爬行多少页")
parser.add_argument("-f","--file",dest="file",help="将爬取到的结果转化为代理格式 SpiderAddr.json")
args = parser.parse_args()
if args.page:
StartThread(int(args.page))
elif args.file:
dic = ConversionAgentIP(args.file)
for item in dic:
print(item)
else:
parser.print_help()

来源：https://www.cnblogs.com/LyShark/p/13850457.html

标签：python,多线程,爬虫,代理

投稿

python多线程爬取西刺代理的示例代码

猜你喜欢

Python一句代码实现找出所有水仙花数的方法

Django模型层实现多表关系创建和多表操作

使用线框图来简化你的产品设计流程

python如何将两张图片生成为全景图片

Python中常见的异常总结

Python实现自动登录百度空间的方法

Oracle 实现类似SQL Server中自增字段的一个办法

web版Photoshop来了

Python的内置数据类型中的数字

几个SQL SERVER应用问题解答

详解TensorFlow训练网络两种方式

python 包实现JSON 轻量数据操作

pandas DataFrame的修改方法(值、列、索引)

Python 调用PIL库失败的解决方法

Python减少循环层次和缩进的技巧分析

python机器学习理论与实战（五）支持向量机

什么是Ajax及Ajax的优势

PHP函数shuffle()取数组若干个随机元素的方法分析

Python 高级专用类方法的实例详解

Python使用xlrd和xlwt批量读写excel文件的示例代码