跳转到主要内容

大数据

SmartSense hst agent SSL认证失败

分类
故障描述

INFO 2023-07-17 17:42:17,138 hst-agent.py:400 - Registering HST Agent
INFO 2023-07-17 17:42:17,145 hst-agent.py:401 - HST Version : 1.5.1.2.7.5.0-72
INFO 2023-07-17 17:42:17,146 hst-agent.py:402 - Python Version: 2.7.5
INFO 2023-07-17 17:42:17,146 hst-agent.py:403 - Open SSL Version: OpenSSL 1.0.2k-fips  26 Jan 2017
ERROR 2023-07-17 17:42:17,282 security.py:74 - Two-way SSL authentication failed. [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:618)
ERROR 2023-07-17 17:42:17,554 security.py:74 - Two-way SSL authentication failed. [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:618)
ERROR 2023-07-17 17:42:20,692 security.py:74 - Two-way SSL authentication failed. [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:618)
ERROR 2023-07-17 17:42:30,525 security.py:74 - Two-way SSL authentication failed. [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:618)
ERROR 2023-07-17 17:42:59,282 security.py:74 - Two-way SSL authentication failed. [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:618)
 

故障分析

  无

处理过程

对hst服务进行重置
hst reset //服务器端


hst reset-agent //客户端
hst setup-agent -q //客户端

建议/总结

  无

Hive修改引擎为Spark无法修改参数

分类
故障描述

  hdp 3默认采用tez引擎,根据业务需求,需临时更换为spark引擎。

采用

set hive.execution.engine=spark;

set spark.executor.instances=40;

报错如下

Error while processing statement:Canot modly spark.executor.instances at runtime, t is not in list of params that are alowed to be modifed at runtime

故障分析

  无

处理过程

    hive 3开始,默认进行安全授权,防止运行时修改参数。把hive配置中hive.security.authorization.enabled关闭后再行测试即可。

建议/总结

  无

建立本地bigtop repo

分类
故障描述

  bigtop repo位于国外,大数据节点不具备外网访问权限,如何建立本地repo供安装。

故障分析

  无

处理过程

1.安装centos7或其它版本。

2.安装以下组件:yum install -y wget tar zip unzip yum-utils createrepo httpd

3.下载bigtop repo

cd /ye/etc/yum.repos.d/
wget https://dlcdn.apache.org/bigtop/bigtop-3.2.0/repos/rockylinux-8/bigto
op.repo

4.reposync同步到本地

reposync --gpgcheck -1 --repoid=bigtop --download_path=/var/www/html

5.创建repo

cd /var/www/html/bigtop
createrepo .

6.生成repo文件

cat << EOF > /var/www/html/bigtop/bigtop.repo
[bigtop]
name=bigtop
baseurl=http://master-1/bigtop
enabled=1
gpgcheck=0
EOF

7.在其它节点下载

wget -P /etc/yum.repos.d/ http://master-1/bigtop/bigtop.repo
建议/总结

  无

ambari 2.7.6+hdp 3.1.5安装kafka 3.0.0版本

分类
故障描述

  无

故障分析

  无

处理过程

hdp 3.1.5默认集成kafka2,客户需要安装kafka3

安装如下:

cd /opt
wget http://vpn.coremtech.com:20080/kafka3/kafka_2.12-3.0.0.tgz
wget http://vpn.coremtech.com:20080/kafka3/server.properties
wget http://vpn.coremtech.com:20080/kafka3/start.txt
tar zxvf kafka_2.12-3.0.0.tgz
cp server.properties kafka_2.12-3.0.0/config/
vi kafka_2.12-3.0.0/config/server.properties
# change id
mkdir /data-a/kafka3-logs
/opt/kafka_2.12-3.0.0/bin/kafka-server-start.sh  -daemon /opt/kafka_2.12-3.0.0/config/server.properties

 

建议/总结

  一个zk环境,支持两个不同kafka版本,仅需要zk连接器后加新的命名即可。例如master:2181/kafka3

安装flume

分类
故障描述

  安装flume组件

故障分析

  无

处理过程

cd /opt
wget http://vpn.coremtech.com:20080/apache-flume-1.11.0-bin.tar.gz
tar zxvf apache-flume-1.11.0-bin.tar.gz
mv ./apache-flume-1.11.0-bin ./flume
echo "export FLUME_HOME=/opt/flume" >> /etc/profile
echo "export PATH=\$PATH:\$FLUME_HOME/bin" >> /etc/profile
source /etc/profile
cd /opt/flume/conf
cp flume-env.sh.template flume-env.sh
"change java_home
flume-ng agent --conf /opt/flume/conf/
 

建议/总结

  无

Hbase Version提示org.apache.hadoop.hbase.util.GetJavaProperty

分类
故障描述

  客户安装flume执行flume-ng verion提示org.apache.hadoop.hbase.util.GetJavaProperty。hbase version也提示该错误。

故障分析

  hbase bug,详见:https://reviews.apache.org/r/69299/diff/2/?expand=1

处理过程

进入hbase/bin目录

cp hbase.distro hbase.distro-bak //先备份原有文件

vi hbase.distro

切到182行,在add_to_cp_if_exists “${HBASE_HOME}/hbase-server/target” 这里下面加上两行

        # Needed for GetJavaProperty check below
    add_to_cp_if_exists "${HBASE_HOME}/hbase-server/target/classes"

把下面大概186,187行的

    #add the hbase jars for each module
    for f in $HBASE_HOME/hbase-jars/hbase*.jar; do
        if [[ $f = *sources.jar ]]
      then
        : # Skip sources.jar
      elif [ -f $f ]
      then
        CLASSPATH=${CLASSPATH}:$f;
      fi
    done
这部分注释掉

切到大概310行左右,在

  if [ -n "${HADOOP_IN_PATH}" ] && [ -f "${HADOOP_IN_PATH}" ]; then

下面加上一段:

  # If built hbase, temporarily add hbase-server*.jar to classpath for GetJavaProperty
  # Exclude hbase-server*-tests.jar
  temporary_cp=
  for f in "${HBASE_HOME}"/lib/hbase-server*.jar; do
    if [[ ! "${f}" =~ ^.*\-tests\.jar$ ]]; then
      temporary_cp=":$f"
    fi
  done

然后把

  HADOOP_JAVA_LIBRARY_PATH=$(HADOOP_CLASSPATH="$CLASSPATH" "${HADOOP_IN_PATH}" \ 
改成

  HADOOP_JAVA_LIBRARY_PATH=$(HADOOP_CLASSPATH="$CLASSPATH${temporary_cp}" "${HADOOP_IN_PATH}" \
即可。

详见附件文件

建议/总结

  无

Hbase2 基于hdfs恢复数据及迁移

分类
故障描述

  某客户因为数据表数量过多,导致HBase Master无法初始化完成。根据日志判断为Meta错误。

故障分析

  客户频繁操作HBase Master导致混乱,加载失败。

处理过程

       1.判断客户hdfs数据正常,基于Hbase2特性,可以基于hdfs进行数据恢复
       2.停用hbase服务;
       3.备份或迁移hbase hdfs文件。例如如下

hdfs dfs -mv /hbase/data /hbase/data_1 //重命名

hdfs dfs -cp -p /hbase/data /hbase/data_1 //复制一份,客户涉及数据200T,采用重命名方式

        4.删除zk中数据

hbase zkcli

rmr /hbase-unsecure

        5.将备份或迁移的数据恢复。

hdfs dfs -mv /hbase/data_1 /hbase/data  //重命名回去,可以根据实际情况,仅复制部分数据。

        6.启动Hbase;登陆hbase Master查看状态是否正常。

        7.修复meta表

hbase hbck -j /root/hbase-operator-tools-1.2.0/hbase-hbck2/hbase-hbck2-1.2.0.jar addFsRegionsMissingInMeta 'FAULT' //引用hbck2,对FAULT命名空间的表进行修复。多个命名空间,建议多次执行。

        8.重启HBase Master;注意仅需对当前Master主机相对应服务重启,自动会选择其它主机为HBase Master;启动成功后,会提示大量的进入RIT状态。

        9.登陆HBase Master,查看RIT,获取RIT中Rgid;复制并保存到文件,例如0903rit。执行下面命令重新创建区域

hbase hbck -j /root/hbase-operator-tools-1.2.0/hbase-hbck2/hbase-hbck2-1.2.0.jar assigns -i /root/0903rit   //这里是引用的文件,可以选择单个rit。

       10.进入hbase shell,count查看表是否正常。

特别注意:如果没有namespace;可以在hbase shell启动好后确认表正常情况下,直接create_namespace即可。

建议/总结

  Hbase中Meta损坏是最常见的问题,采用此方法可以安全快速的恢复数据。此方法还可以用于数据迁移。