如何在Win10系统使用Python3连接Hive
作者:陆勤_数据人网 时间:2023-08-10 07:00:39
由于数据存放在大数据平台的Hive数据仓库中,我需要在Win10系统上利用Python3连接Hive,然后读取数据,进行探索、分析和挖掘工作。
我通过网上查找资料和实际测试,把Win10系统Python3成功连接Hive配置总结如下。
第一步:安装依赖库
pip install bitarray
pip install bit_array
pip install thrift
pip install thriftpy
pip install pure_sasl
pip install --no-deps thrift-sasl==0.2.1
提示:若是无法安装,也可以点击如下网址,
https://www.lfd.uci.edu/~gohlke/pythonlibs/
选择合适库的whl下载,然后进行本地化安装。
第二步:安装impyla库
我采用本地化安装方式,先下载impyla库的whl,如下图:
再安装
pip install E:/Python_Library/impyla-0.16.2-py2.py3-none-any.whl
提示:上面的绝对路径根据你自己的情况而定
第三步:测试impyla库是否可以使用
from impala.dbapi import connect #用来连接Hive的函数
from impala.util import as_pandas #用来把数据结构转换为pandas
若是运行通过,表示利用impala连接Hive配置成功。
简单示例:
从Hive的一张表读取100条记录,放到pandas的DataFrame里面。
参考代码:
from impala.dbapi import connect #用来连接Hive的函数
from impala.util import as_pandas #用来把数据结构转换为pandas
conn = connect(host='my.host.com', port=21050)
cursor = conn.cursor()
cursor.execute('SELECT * FROM mytable LIMIT 100')
df = as_pandas(cursor)
cursor.close()
参考资料
https://github.com/cloudera/impyla
来源:https://cloud.tencent.com/developer/article/1590983
标签:Python,Hive,win10
0
投稿
猜你喜欢
python openpyxl打开文件关闭问题
2023-02-19 17:27:42
动态规划之矩阵连乘问题Python实现方法
2022-04-08 02:07:38
浅谈python print(xx, flush = True) 全网最清晰的解释
2022-01-28 21:45:48
Python对比校验神器deepdiff库使用详解
2023-05-14 11:05:35
访问javascript私有变量
2010-01-19 13:56:00
pytorch加载预训练模型与自己模型不匹配的解决方案
2023-06-17 14:22:24
Python3之手动创建迭代器的实例代码
2021-10-15 21:00:30
js 数据存储和DOM编程
2024-02-24 07:52:31
Python提取PDF内容的方法(文本、图像、线条等)
2023-07-03 13:16:59
在Python的Bottle框架中使用微信API的示例
2022-06-02 00:12:47
python中子类与父类的关系基础知识点
2022-11-26 23:45:12
非常简单的Python识别图片验证码实现过程
2022-01-23 02:03:54
Python产生batch数据的操作
2022-11-22 16:00:59
通过实例简单了解python yield使用方法
2023-03-07 23:41:02
利用python实现.dcm格式图像转为.jpg格式
2021-08-28 04:16:35
python装饰器property和setter用法
2023-02-14 09:01:05
selenium+python自动化测试之环境搭建
2022-05-15 13:51:32
实例讲解Python爬取网页数据
2023-01-10 03:55:05
Js sort排序使用方法
2023-10-19 10:20:55
pip安装Python库时遇到的问题及解决方法
2023-06-20 14:00:01