Pyspark读取parquet数据过程解析

作者：落日峡谷时间：2022-01-21 13:33:38　

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

1.df.first() ：显示第一条数据，Row格式

print(df.first())

2.df.columns：列名

3.df.count()：数据量，数据条数

4.df.toPandas()：从spark的DataFrame格式数据转到Pandas数据结构

5.df.show()：直接显示表数据；其中df.show(n) 表示只显示前n行信息

6.type(df)：显数据示格式

来源：https://www.cnblogs.com/qi-yuan-008/p/12493082.html

标签：py,spark,parquet,数据

投稿

Pyspark读取parquet数据过程解析

猜你喜欢

mac 安装python网络请求包requests方法

网站导航设计模式指南

我的“Orcas初览”讲座

利用Python如何画一颗心、小人发射爱心

安装PHP遇到“无法载入mysql扩展”解决方法

python基础教程之简单入门说明(变量和控制语言使用方法)

js截取字符串的两种方法及区别详解

Python小白垃圾回收机制入门

Python个人博客程序开发实例信息显示

Python中模块(Module)和包(Package）的区别详解

Python eval的常见错误封装及利用原理详解

条件CSS的介绍

Date()与new Date()的区别

python输出指定月份日历的方法

Python 中如何使用 virtualenv 管理虚拟环境

python中的一些类型转换函数小结

asp如何显示存储在数据库BLOB字段中的图像？

FrontPage2002简明教程四：网页超级链接

利用ASP实现事务处理的方法

Pytorch 实现sobel算子的卷积操作详解