Pyspark读取parquet数据过程解析
作者:落日峡谷 时间:2022-01-21 13:33:38
parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:
可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;只读取需要的列,支持向量运算,能够获取更好的扫描性能。
那么我们怎么在pyspark中读取和使用parquet数据呢?我以local模式,linux下的pycharm执行作说明。
首先,导入库文件和配置环境:
import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定
conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)
然后,使用spark进行读取,得到DataFrame格式的数据:host:port 属于主机和端口号
parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)
而,DataFrame格式数据有一些方法可以使用,例如:
1.df.first() :显示第一条数据,Row格式
print(df.first())
2.df.columns:列名
3.df.count():数据量,数据条数
4.df.toPandas():从spark的DataFrame格式数据转到Pandas数据结构
5.df.show():直接显示表数据;其中df.show(n) 表示只显示前n行信息
6.type(df):显数据示格式
来源:https://www.cnblogs.com/qi-yuan-008/p/12493082.html
标签:py,spark,parquet,数据
0
投稿
猜你喜欢
mac 安装python网络请求包requests方法
2023-08-05 09:01:41
网站导航设计模式指南
2011-03-04 16:12:00
我的“Orcas初览”讲座
2007-09-23 12:53:00
利用Python如何画一颗心、小人发射爱心
2021-01-11 09:11:50
安装PHP遇到“无法载入mysql扩展”解决方法
2007-06-15 15:04:00
python基础教程之简单入门说明(变量和控制语言使用方法)
2023-01-06 00:25:20
js截取字符串的两种方法及区别详解
2013-08-31 04:16:37
Python小白垃圾回收机制入门
2022-05-20 04:38:42
Python个人博客程序开发实例信息显示
2022-07-06 15:31:05
Python中模块(Module)和包(Package)的区别详解
2021-06-17 09:05:22
Python eval的常见错误封装及利用原理详解
2021-06-11 22:38:42
条件CSS的介绍
2009-03-13 13:57:00
Date()与new Date()的区别
2008-09-29 11:09:00
python输出指定月份日历的方法
2022-11-27 11:39:18
Python 中如何使用 virtualenv 管理虚拟环境
2022-02-20 00:57:44
python中的一些类型转换函数小结
2021-11-01 10:42:11
asp如何显示存储在数据库BLOB字段中的图像?
2010-06-08 09:31:00
FrontPage2002简明教程四:网页超级链接
2008-09-17 11:23:00
利用ASP实现事务处理的方法
2010-05-11 16:53:00
Pytorch 实现sobel算子的卷积操作详解
2022-02-22 10:11:37