Pyspark读取parquet数据过程解析
作者:落日峡谷 时间:2022-01-21 13:33:38
parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:
可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;只读取需要的列,支持向量运算,能够获取更好的扫描性能。
那么我们怎么在pyspark中读取和使用parquet数据呢?我以local模式,linux下的pycharm执行作说明。
首先,导入库文件和配置环境:
import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定
conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)
然后,使用spark进行读取,得到DataFrame格式的数据:host:port 属于主机和端口号
parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)
而,DataFrame格式数据有一些方法可以使用,例如:
1.df.first() :显示第一条数据,Row格式
print(df.first())
2.df.columns:列名
3.df.count():数据量,数据条数
4.df.toPandas():从spark的DataFrame格式数据转到Pandas数据结构
5.df.show():直接显示表数据;其中df.show(n) 表示只显示前n行信息
6.type(df):显数据示格式
来源:https://www.cnblogs.com/qi-yuan-008/p/12493082.html
标签:py,spark,parquet,数据
0
投稿
猜你喜欢
Python如何生成随机高斯模糊图片详解
2021-08-25 13:07:18
python获取天气接口给指定微信好友发天气预报
2023-08-11 18:13:06
检测SQL Server是否有特洛伊木马
2009-02-24 15:19:00
oracle chm帮助文件下载
2010-07-16 12:49:00
Python 序列的方法总结
2021-12-12 11:14:23
python opencv将图片转为灰度图的方法示例
2021-03-24 22:22:54
PHP伪协议基本原理介绍
2023-05-30 00:24:11
oracle SQL命令大全
2009-07-02 11:55:00
XML数据查询技术已经成为现今的研究热点
2008-09-05 17:13:00
Django框架创建mysql连接与使用示例
2024-01-18 10:38:26
SqlServer 执行计划及Sql查询优化初探
2024-01-14 23:03:01
Linux 下 Python 实现按任意键退出的实现方法
2022-08-07 14:22:01
vue.js实现日历插件使用方法详解
2024-05-13 09:38:43
ie6 img onload
2009-04-08 17:23:00
python tkiner实现 一个小小的图片翻页功能的示例代码
2023-07-19 18:40:32
Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作
2022-05-06 14:26:39
Python依赖包整体迁移方法详解
2022-11-03 05:32:55
检测远程文件是否存在
2009-06-22 13:00:00
MySQL索引的一些常见面试题大全(2022年)
2024-01-13 00:17:30
python实现挑选出来100以内的质数
2023-03-03 16:32:04