Pandas实现在线文件和剪贴板数据读取详解
作者:尤而小屋 时间:2021-06-02 16:49:55
前言
大家好,我是Peter~
本文记录的是Pandas两种少用的读取文件方式:
读取在线文件的数据
读取剪贴板的数据
声明:本文案例和在线数据仅用于学术分享
read_html
该函数表示的是直接读取在线的html文件,一般是表格的形式;将HTML的表格转换为DataFrame的一种快速方便的方法。
这个方法对于快速合并来自不同网页上的表格非常有用,就省去了爬取数据再来读取的时间。
具体函数的参数为:
pandas.read_html(io,??#?文件 io 对象;路径或者io.Strings对象
?????????????????match='.+',??#?str?或编译的正则表达式,可选
?????????????????flavor=None,?#?要使用的解析引擎,?None是默认值
?????????????????header=None,??#?文件表头
?????????????????index_col=None,??#?索引
?????????????????skiprows=None,??#?跳过行
?????????????????attrs=None,???#?属性
?????????????????parse_dates=False,???#?日期解析
?????????????????thousands=',',???#?千分位
?????????????????encoding=None,???#?编码
?????????????????decimal='.',???#?识别为小数点的字符
?????????????????converters=None,???#?属性转换
?????????????????na_values=None,??#??空值信息
?????????????????keep_default_na=True,???#?是否保持空值
?????????????????displayed_only=True??#?是否应该解析带有“display:none”?的元素
????????????????)
在线文件1
读取 * 上一份历届奥运会乒乓球冠军的相关数据。该地址下的部分表格形式的数据:
In [3]:
url?=?"https://zh.m.wikipedia.org/zh/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A%E4%B9%92%E4%B9%93%E7%90%83%E5%A5%96%E7%89%8C%E5%BE%97%E4%B8%BB%E5%88%97%E8%A1%A8"
df?=?pd.read_html(url)
df
Out[3]:
我们观察到此时读取到的df是一个列表,总长度是15
list
In [4]:
len(df)
Out[4]:
9
查看列表中的部分元素:此时就是一个个的DataFrame形式的数据
在线文件2
一个国外网站下的数据
In [7]:
df1?=?pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list")
type(df1)
Out[7]:
list
In [8]:
len(df1)
Out[8]:
1
In [9]:
df1[0]
Out[9]:
读取在线CSV文件
以读取GitHub上一个CSV文件为例:
方式1:直接读取
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
pd.read_csv(url)
方式2:通过io.Strings对象
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
response=requests.get(url).content??#?先发请求
df2?=?pd.read_csv(io.StringIO(response.decode('utf-8')))
?
df2??#?效果同上
Pandas读取剪贴板
pandas.read_clipboard(sep='\\s+',?**kwargs)
官网地址
一个简单的例子说明函数使用:假设本地目录下有这样Excel表格的数据
1、先剪贴数据:【Ctrl + C】
2、运行代码下面的代码,按下MacOS中的【向上的箭头】 + 【回车键】,完成读取
Windows下面应该是【Shift + Enter】
如果数据比较少,省去了通过Excel或者CSV文件的读取方式的时间:
来源:https://mp.weixin.qq.com/s/qyWnRtTyyDNt9LxIYwM0BQ
标签:Pandas,数据,读取
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
Javascript 中对中文长度对行判断
2009-07-05 18:39:00
详解python中index()、find()方法
2021-02-25 02:38:59
![](https://img.aspxhome.com/file/2023/6/100956_0s.png)
asp如何向前端显示用户请求的信息?
2010-06-09 18:52:00
Django分组聚合查询实例分享
2023-08-07 21:44:16
python 对类的成员函数开启线程的方法
2021-09-11 17:12:42
Python Django Cookie 简单用法解析
2022-09-15 15:20:03
![](https://img.aspxhome.com/file/2023/9/65569_0s.png)
Python3开发环境搭建详细教程
2023-11-12 10:46:28
![](https://img.aspxhome.com/file/2023/1/109361_0s.jpg)
Python计算多幅图像栅格值的平均值
2021-03-28 01:41:05
ASP技巧 挂QQ的网页源代码ASP/PHP
2009-01-05 12:36:00
简述Python中的面向对象编程的概念
2021-11-08 07:53:11
JS实现的倒计时效果实例(2则实例)
2023-08-23 17:12:05
![](https://img.aspxhome.com/file/2023/9/56029_0s.png)
python实现发送邮件
2021-08-06 04:33:28
![](https://img.aspxhome.com/file/2023/7/104837_0s.jpg)
python 爬取华为应用市场评论
2023-08-31 23:18:32
![](https://img.aspxhome.com/file/2023/2/88972_0s.png)
css网页下拉菜单制作方法(2):初步实现
2007-02-03 11:39:00
Python环境下搭建属于自己的pip源的教程
2021-12-19 05:57:54
pyspark给dataframe增加新的一列的实现示例
2022-06-13 20:00:19
使用一条INSERT语句完成多表插入
2010-03-18 11:08:00
对TensorFlow的assign赋值用法详解
2023-03-18 22:52:56
python中random随机函数详解
2022-06-14 22:34:43
![](https://img.aspxhome.com/file/2023/0/68970_0s.png)
Python格式化输出字符串方法小结【%与format】
2023-01-06 00:01:50