前言
关于中文乱码问题,我们可以从以下几个方面进行考虑:
判断Hive的所依赖的Mysql元数据库的编码格式是否是UTF-8
需要判断hive元数据库Mysql中是否设置了编码格式以及表属性的编码。
判断Hive表的存储格式是否是UTF-8:
如果Hive表的存储格式不是UTF-8,也会导致中文乱码。
判断输入的数据,其编码格式是否是中文字符集UTF-8:
Hive默认使用UTF-8编码,如果输入的中文字符集与UTF-8不一致,就会出现乱码。
比如通过JDBC的方式连接,其是否设置了编码格式为UTF-8
表操作
删除表
1 | drop table t_user03; |
创建表设置编码和注释
1 | CREATE TABLE t_user03 ( |
查看表中字段注释
1 | desc t_user03; |
查看表和字段注释
1 | use zdb; |
元数据库编码(Mysql)
配置编码
查看配置编码
1 | show VARIABLES like 'char%' |
如图
如果不是可以修改配置文件
进入 etc目录下打开 my.cnf
文件 ,对 my.cnf
添加以下语句:
1 | [client] |
属性编码
在 Mysql 修改Hive元数据表注释和字段注释的编码为 utf-8
在Hive的元数据库(MySQL)中运行:
修改表字段注解和表注解
1 | alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; |
修改分区字段注解
1 | alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(1000) character set utf8; |
修改索引注解1
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(1000) character set utf8;
Hive连接MySQL编码
在 Hive 的配置文件 hive-site.xml 中,我们可以通过指定字符集编码来解决中文乱码问题。
以下是一个示例:
1 | <property> |
我们通过设置 useUnicode=true
和 characterEncoding=UTF-8
来指定使用 UTF-8 字符集编码。
Hive 输出打印编码
我们通过设置 hive.cli.encoding
参数的值为 UTF-8
来指定字符集编码。这个参数可用于指定各种 CLI 输出数据的字符集编码,例如控制台输出、日志和报告等。
在 hive-site.xml 配置文件中,也可以通过以下两个参数来指定字符集编码:
1 | <property> |