用python爬取租房网站信息的代码
作者:Struggler09 时间:2022-04-30 07:03:38
自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:
链家的房租网站
两个导入的包
1.requests 用来过去网页内容
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
# https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
link_div = soup.find_all('div',class_ = 'pic-panel')
links = [div.a.get('href') for div in link_div]
return links
#收集一个房子的信息
def get_house_info(house_url):
soup = get_page(house_url)
price = soup.find('span',class_='total').text
unit = soup.find('span',class_= 'unit').text[1:-1]
area = soup.find('p', class_ = 'lf').text
house_info= soup.find_all('p',class_ = 'lf')
area = house_info[0].text[3:] #字符串切片工具
layout = house_info[1].text[5:]
info={
'价格':price,
'单位':unit,
'面积':area,
'户型':layout
}
return info
#链接数据库
server="192.168.xx.xx" #换成自己的服务器信息
user="liujiepeng"
password="xxxxx" #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
#sql_values = values.format(house['价格'],house['单位'],house['面积'],
#house['户型'])
sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
print(sql)
cursor = conn.cursor() #游标,开拓新的窗口
#cursor1 = conn.cursor()
cursor.execute(sql) #执行sql语句
conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
#time.sleep(2)
print('获取一个数据成功')
house = get_house_info(link)
insert(conn,house)
print("第%s个数据,存入数据库成功!"%(count))
count = count+1
#print(house["价格"],end='\r')
来源:https://blog.csdn.net/qq_39486027/article/details/80526094
标签:python,爬取,租房,信息
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
无忧贴子管理器(ListView组件)
2009-01-02 17:56:00
教你如何在Pycharm中导入requests模块
2023-05-03 13:10:14
![](https://img.aspxhome.com/file/2023/0/123480_0s.png)
教你使用Python画圣诞树做浪漫的程序员
2023-03-19 21:39:02
![](https://img.aspxhome.com/file/2023/6/109476_0s.png)
使用DW中遇到的常见问题详解
2008-03-18 16:27:00
Python变量和字符串详解
2023-08-23 02:59:49
![](https://img.aspxhome.com/file/2023/9/93479_0s.jpg)
快速解决SQL server 2005孤立用户问题
2009-01-04 14:02:00
Qt实现炫酷启动图动态进度条效果
2021-09-05 21:56:53
![](https://img.aspxhome.com/file/2023/9/95749_0s.gif)
CSS高级文字排版的实例
2009-03-24 20:56:00
基于python不同开根号的速度对比分析
2022-10-16 20:32:57
![](https://img.aspxhome.com/file/2023/1/109891_0s.jpg)
8大措施帮你构筑Access安全防线
2010-03-11 14:38:00
微信小程序转发事件实现解析
2023-08-15 04:02:00
python比较两个列表大小的方法
2023-01-14 22:24:40
python检测服务器是否正常
2022-06-18 05:10:19
python之pyqt5通过按钮改变Label的背景颜色方法
2021-04-03 22:59:52
![](https://img.aspxhome.com/file/2023/7/95717_0s.jpg)
得到字符串真实长度和取固定长度的字符串函数
2008-10-06 13:12:00
python生成图片验证码的方法
2022-07-27 13:39:11
![](https://img.aspxhome.com/file/2023/9/87829_0s.jpg)
随机6+1选号码摇奖程序
2008-07-18 13:15:00
![](https://img.aspxhome.com/file/UploadPic/20087/18/yaojiang_97s.gif)
Python3使用xml.dom.minidom和xml.etree模块儿解析xml文件封装函数的方法
2023-12-19 22:42:41
OpenCV 图像旋转、平移、缩放操作代码
2022-11-04 00:34:40
![](https://img.aspxhome.com/file/2023/4/95524_0s.jpg)
基于python使用Pillow做动态图在图中生成二维码以及图像处理
2022-12-29 16:33:03
![](https://img.aspxhome.com/file/2023/5/97235_0s.png)