python读取hdfs上的parquet文件方式

作者：二加三等于五时间：2021-04-07 11:54:31　

在使用python做大数据和机器学习处理过程中，首先需要读取hdfs数据，对于常用格式数据一般比较容易读取，parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以)：

1、安装anaconda环境。

2、安装hdfs3。

conda install hdfs3

3、安装fastparquet。

conda install fastparquet

4、安装python-snappy。

conda install python-snappy

5、读取文件

##namenode mode:
from hdfs3 import HDFileSystem
from fastparquet import ParquetFile

hdfs = HDFileSystem(host=IP, port=8020)
sc = hdfs.open

pf = ParquetFile(filename, open_with=sc)
df = pf.to_pandas()

##返回pandas的DataFrame类型

##HA mode:
from hdfs3 import HDFileSystem
from fastparquet import ParquetFile

host = "nameservice1"
conf = {
"dfs.nameservices":"nameservice1",
......
}
hdfs = HDFileSystem(host = host, pars = conf)
......

python访问HDFS HA的三种方法

python访问hdfs常用的包有三个，如下：

1、hdfs3

其实从安装便捷性和使用上来说，并不推荐hdfs3，因为他的系统依赖和网络要求较高，但是某些情况下使用hdfs3会比较方便，官网资料点这里。如上面介绍，IP直接访问namenode：

from hdfs3 import HDFileSystem
hdfs = HDFileSystem(host=namenode, port=8020)
hdfs.ls('/tmp')

HA访问：

host = "nameservice1"
conf = {"dfs.nameservices": "nameservice1",
"dfs.ha.namenodes.nameservice1": "namenode113,namenode188",
"dfs.namenode.rpc-address.nameservice1.namenode113": "hostname_of_server1:8020",
"dfs.namenode.rpc-address.nameservice1.namenode188": "hostname_of_server2:8020",
"dfs.namenode.http-address.nameservice1.namenode188": "hostname_of_server1:50070",
"dfs.namenode.http-address.nameservice1.namenode188": "hostname_of_server2:50070",
"hadoop.security.authentication": "kerberos"
}
fs = HDFileSystem(host=host, pars=conf)

##或者下面这种配置
host = "ns1"
conf = {
"dfs.nameservices":"ns1",
"dfs.ha.namenodes.ns1":"namenode122,namenode115",
"dfs.namenode.rpc-address.ns1.namenode122":"nnlab01:8020",
"dfs.namenode.servicerpc-address.ns1.namenode122":"nnlab01:8022",
"dfs.namenode.http-address.ns1.namenode122":"nnlab01:50070",
"dfs.namenode.https-address.ns1.namenode122":"nnlab01:50470",
"dfs.namenode.rpc-address.ns1.namenode115":"nnlab02:8020",
"dfs.namenode.servicerpc-address.ns1.namenode115":"nnlab02:8022",
"dfs.namenode.http-address.ns1.namenode115":"nnlab02:50070",
"dfs.namenode.https-address.ns1.namenode115":"nnlab02:50470",
}
hdfs = HDFileSystem(host = host, pars = conf)

2、hdfs

这种方法在使用的时候配置比较简单，官网资料也比较丰富，但是需要注意的是该API可以模拟用户访问，权限较大。IP直接访问：

import hdfs
client = hdfs.client.InsecureClient(url="http://namenode:50070", user="hdfs")

HA访问：

import hdfs
client = hdfs.client.InsecureClient(url="http://namenode1:50070;http://namenode2:50070", user="hdfs")

3、pyhdfs

安装命令：pip install PyHDFS

官网地址，直接访问：

import pyhdfs
client = pyhdfs.HdfsClient(hosts="namenode:50070",user_name="hdfs")

HA访问

import pyhdfs
client = pyhdfs.HdfsClient(hosts=["namenode1:50070","namenode2:50070"],user_name="hdfs")

补充知识：python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

在pyspark中，使用数据框的文件写出函数write.parquet经常会生成太多的小文件，例如申请了100个block，而每个block中的结果

只有几百K，这在机器学习算法的结果输出中经常出现，这是一种很大的资源浪费，那么如何同时避免太多的小文件（block小文件合并）？

其实有一种简单方法，该方法需要你对输出结果的数据量有个大概估计，然后使用Dataframe中的coalesce函数来指定输出的block数量

即可，具体使用代码如下：

df.coalesce(2).write.parquet(path,mode)

这里df是指你要写出的数据框，coalesce(2)指定了写到2个block中，一个block默认128M，path是你的写出路径，mode是写出模式，常用的是

"overwrite"和"append"。

来源：https://blog.csdn.net/haveanybody/article/details/79928203

标签：python,hdfs,parquet

投稿

python读取hdfs上的parquet文件方式

猜你喜欢

php购物车实现方法

SQL server高级应用收藏版

基于Python+Turtle实现绘制简易的大风车

Python pexpect模块及shell脚本except原理解析

python样条插值的实现代码

通过MySQL内置全文检索实现中文的相关检索

python生成以及打开json、csv和txt文件的实例

Python selenium 三种等待方式解读

Python 深入了解opencv图像分割算法

python爬虫爬取股票的北上资金持仓数据

N年前的JAVASCRIPT笔记

Python Flask请求扩展与中间件相关知识总结

VMware中linux环境下oracle安装图文教程（二）ORACLE 10.2.05版本的升级补丁安装

python上下文管理器协议的实现

详解Python中的from..import绝对导入语句

python同步两个文件夹下的内容

DreamWeaver经典技巧四则

Microsoft SQL Server 2008 正式发布

解析：正确的理解SQL Server和XML支持

python flask几分钟实现web服务的例子

python读取hdfs上的parquet文件方式

猜你喜欢

php购物车实现方法

SQL server高级应用 收藏版

基于Python+Turtle实现绘制简易的大风车

Python pexpect模块及shell脚本except原理解析

python样条插值的实现代码

通过MySQL内置全文检索实现中文的相关检索

python生成以及打开json、csv和txt文件的实例

Python selenium 三种等待方式解读

Python 深入了解opencv图像分割算法

python爬虫爬取股票的北上资金持仓数据

N年前的JAVASCRIPT笔记

Python Flask请求扩展与中间件相关知识总结

VMware中linux环境下oracle安装图文教程（二）ORACLE 10.2.05版本的升级补丁安装

python上下文管理器协议的实现

详解Python中的from..import绝对导入语句

python同步两个文件夹下的内容

DreamWeaver经典技巧四则

Microsoft SQL Server 2008 正式发布

解析：正确的理解SQL Server和XML支持

python flask几分钟实现web服务的例子

SQL server高级应用收藏版