Hive

本节介绍如何在实时计算中配置Hive数据源。

操作步骤

1.登陆数栈DTinsight,进入 实时计算 模块。
2.进入数据源,单击 新增数据源

image.png

3.在 新增数据源 弹窗中,选择数据类型为 Hive。
4.填写Hive数据源的各配置项。

image.png

5.点击 测试连通性
6.测试连通性通过后,点击 确定,即可完成Hive数据源的配置。

配置

说明

数据源名称

只能由中文、字母、数字和下划线组成,长度无限制。

数据源描述

对数据源进行简单描述,长度无限制。

JDBC URL

JDBC URL链接信息,格式要求如下:
示例:jdbc:hive2://host:port/dbName

用户名/密码

数据库对应的用户名和密码。

defaultFS

相当于 fs.default.name,格式如下:
hdfs://host:post

高可用配置

补充高可用配置参数,可以使数栈访问高可用模式下的HDFS数据源,高可用配置的示例如下:

"hadoopConfig":{
    "dfs.nameservices": "testDfs",
    "dfs.ha.namenodes.testDfs": "namenode1,namenode2",
    "dfs.namenode.rpc-address.testDfs.namenode1": "",
    "dfs.namenode.rpc-address.testDfs.namenode2": "",
    "dfs.client.failover.proxy.provider.testDfs": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
}
关于HDFS高可用的更多信息可参考 Hadoop官方文档

开启Kerberos认证

image.png
上传文件前,请在控制台开启SFTP服务。

Hive已知问题

  1. 作为实时采集结果表进行数据写入时, Timestamp 类型存在秒级后精度丢失的问题。例如,2021-05-12 18:50:14.1234 写入后会变为 2021-05-12 18:50:14