sqoop如何指定pg库的模式(方法详解)

作者:华为云开发者社区 时间:2022-09-30 02:52:47 

sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出,因此提供了很高的并行性能以及良好的容错性。

sqoop如何指定pg库的模式(方法详解)

sqoop适合以下的人群使用:

  • 系统和应用开发者

  • 系统管理员

  • 数据库管理员

  • 数据分析师

  • 数据工程师

说明

使用sqoop导出导入数据非常的方便,但是对于postgresql(简称PG库)时就碰到了一个问题,pg库是三层结构的database——schema——table。如果想导入到某一个模式下,那就需要指定模式才可以。但是sqoop如何指定pg库的模式?

解决办法

碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址
文档已经说了,如果向指定schema需要添加-- --schema <name> 但是要注意的是必须在命令行的!!!!最后!!!添加才会生效。

sqoop如何指定pg库的模式(方法详解)

但是,这是命令行的解决办法,如果我们使用的是java呢?在没解决之前,我的java代码是这样写的:

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
       try {
           LogUtils.logInfoPrint("开始任务",logger);
           List<String> list = new ArrayList<>();
           list.add("--connect");
           list.add(dbMap.get(Constant.DRIVERURL));
           list.add("--username");
           list.add(dbMap.get(Constant.USER));
           list.add("--password");
           list.add(dbMap.get(Constant.PASSWORD));
           list.add("--table");
           list.add(tableName);
           list.add("--columns");
           list.add(StringUtils.join(columns, ','));
           list.add("--fields-terminated-by");
           list.add("\t");
           list.add("--export-dir");
           list.add(hdfsDir);
           list.add("-m");
           list.add("1");
           ExportTool exporter = new ExportTool();
           Sqoop sqoop = new Sqoop(exporter);
           String[] data = list.toArray(new String[0]);
           if (0 == data.length) {
               LogUtils.logErrorPrint("sqoop参数为空,请检查ExportCmd方法!",logger);
               return false;
           }
           if (0 == Sqoop.runSqoop(sqoop, data)){
               return true;
           }
       }catch (Exception e){
           LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
       }
       return false;
   }

结果当然是不成功。那我哦添加-- --schema 参数试一下

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
       try {
           LogUtils.logInfoPrint("开始任务",logger);
           List<String> list = new ArrayList<>();
           list.add("--connect");
           list.add(dbMap.get(Constant.DRIVERURL));
           list.add("--username");
           list.add(dbMap.get(Constant.USER));
           list.add("--password");
           list.add(dbMap.get(Constant.PASSWORD));
           list.add("--table");
           list.add(tableName);
           list.add("--columns");
           list.add(StringUtils.join(columns, ','));
           list.add("--fields-terminated-by");
           list.add("\t");
           list.add("--export-dir");
           list.add(hdfsDir);
           list.add("-m");
           list.add("1");
           list.add("-- --schema");
           list.add("HERO");
           ExportTool exporter = new ExportTool();
           Sqoop sqoop = new Sqoop(exporter);
           String[] data = list.toArray(new String[0]);
           if (0 == data.length) {
               LogUtils.logErrorPrint("sqoop参数为空,请检查ExportCmd方法!",logger);
               return false;
           }
           if (0 == Sqoop.runSqoop(sqoop, data)){
               return true;
           }
       }catch (Exception e){
           LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
       }
       return false;
   }

结果也是不成功,显示报错不识别-- --schema 。。。为了能够使schema参数生效,废了我不少劲。。。也查了不少资料,但是查到的资料都没有关于java的schema的设置。所以。。。最终正确的解决办法是:

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
       try {
           LogUtils.logInfoPrint("开始sqoop将oracle的数据导出到HDFS目录",logger);
           List<String> list = new ArrayList<>();
           list.add("--connect");
           list.add(dbMap.get(Constant.DRIVERURL));
           list.add("--username");
           list.add(dbMap.get(Constant.USER));
           list.add("--password");
           list.add(dbMap.get(Constant.PASSWORD));
           list.add("--table");
           list.add(tableName);
           list.add("--columns");
           list.add(StringUtils.join(columns, ','));
           list.add("--fields-terminated-by");
           list.add("\t");
           list.add("--export-dir");
           list.add(hdfsDir);
           list.add("-m");
           list.add("1");
           // 注意这里是--是分开的,源码这里是通过--做判断的
           list.add("--");
           list.add("--schema");
           list.add("HERO");
           ExportTool exporter = new ExportTool();
           Sqoop sqoop = new Sqoop(exporter);
           String[] data = list.toArray(new String[0]);
           if (0 == data.length) {
               LogUtils.logErrorPrint("sqoop参数为空,请检查ExportCmd方法!",logger);
               return false;
           }
           if (0 == Sqoop.runSqoop(sqoop, data)){
               return true;
           }
       }catch (Exception e){
           LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
       }
       return false;
   }

当然你也可能会使用字符串数组,数组方式就要这样写了

// 这里只是举个示例
String[] string = new String[]{"--","--schema","HERO"}

so 问题解决,心情愉快。如果问题不解决,可能会憋一天。。。。

本文分享自华为云社区《【Hadoop】关于Sqoop导出数据到postgresql时schema的设置问题》,作者:Copy工程师 。

来源:https://www.cnblogs.com/huaweiyun/p/15832598.html

标签:sqoop,pg库,模式
0
投稿

猜你喜欢

  • PDO::getAttribute讲解

    2023-06-06 02:58:22
  • mysql查找删除表中重复数据方法总结

    2024-01-19 01:53:49
  • JavaScript中检测变量是否存在遇到的一些问题

    2023-07-02 05:24:05
  • Python新版极验验证码识别验证码教程详解

    2022-03-07 01:02:55
  • SQL参数化查询的另一个理由 命中执行计划

    2012-08-21 10:31:16
  • Python反爬实战掌握酷狗音乐排行榜加密规则

    2021-05-29 08:05:57
  • Python from import导包ModuleNotFoundError No module named找不到模块问题解决

    2023-07-27 20:06:53
  • 详解python requests中的post请求的参数问题

    2023-09-20 07:50:40
  • python上传时包含boundary时的解决方法

    2021-03-28 08:28:54
  • 使用OpenCV实现仿射变换—平移功能

    2022-11-01 01:45:06
  • python3实现的zip格式压缩文件夹操作示例

    2023-07-31 18:17:48
  • Python中使用SAX解析xml实例

    2022-08-22 01:32:56
  • MySQL transaction事务安全示例讲解

    2024-01-25 17:47:38
  • Python3.6 Schedule模块定时任务(实例讲解)

    2022-08-14 15:55:00
  • 浅析Go语言编程当中映射和方法的基本使用

    2024-04-28 09:13:16
  • python中各种路径设置的方法详解

    2022-12-09 23:58:09
  • CentOS 7下部署php7.1和开启MySQL扩展的方法教程

    2023-11-19 11:58:09
  • PHP读取文本文件并逐行输出该行使用最多的字符与对应次数的方法

    2024-05-11 10:09:43
  • onmouseover事件和onmouseout事件全面理解

    2024-04-17 09:42:37
  • python __add__()的具体使用

    2022-11-29 07:49:22
  • asp之家 网络编程 m.aspxhome.com