百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

信创改造--人大金仓(Kingbase)数据库集群部署问题纪要

nanshan 2024-10-15 11:32 29 浏览 0 评论

一、准备工作

  1. 在系统环境配置中,应均在 root 用户下操作。

sshd_config 文件配置

键入命令:vim /etc/ssh/sshd_config。
修改 PermitRootLogin 的参数为 yes。
然后Root下执行 service sshd restart。
  1. 关闭防火墙

ubuntu版本:

//查看状态
sudo systemctl status ufw
//停止防火墙
sudo systemctl stop ufw
//禁用防火墙
sudo systemctl disable uefw

银河麒麟等centos系列版本:

//查看状态
sudo systemctl status ufw
//停止防火墙
sudo systemctl stop ufw
//禁用防火墙
sudo systemctl disable uefw
  1. 在所有节点上部署securecmdd工具

SYS_SECURECMDD 是集群中自带的工具,集群监控、管理集群时通过SYS_SECURECMDD 安全执行命令。SYS_SECURECMDD主要包含以下文件

1、sys_securecmdd,服务端二进制,集群中每个节点都有 sys_securecmdd进程运行,默认监听

8890端口,接受sys_securecmd的连接并执行指定的命令

2、sys_securecmd,客户端二进制,集群通过sys_securecmd发送指令给服务端并执行

3、sys_HAscmdd.sh,管理sys_securecmdd的脚本,主要负责秘钥协商的初始化

sys_securecmdd进程高可用管理等

4、sys_HAscmdd.conf,配置文件,sys_HAscmdd.sh 读取此文件

5、securecmdd_config,配置文件,sys_securecmdd 读取此文件,初始化阶段由

sys_HAscmdd.sh 自动配

6、securecmd_config,配置文件,sys_securecmd读取此文件,初始化阶段由sys_HAscmdd.sh

  • 查看数据库软件安装包(自带securecmdd工具)
[kingbase@node1 zip]$ pwd
/opt/Kingbase/ES/V8R6_054/ClientTools/guitools/DeployTools/zip

[kingbase@node1 zip]$ ls -lh
total 341M
-rw-rw-r--. 1 kingbase kingbase 338M Apr  7 16:18 db.zip
-rw-rw-r--. 1 kingbase kingbase 9.7K Apr  7 16:18 install.conf
-rw-rw-r--. 1 kingbase kingbase 2.1M Apr  7 16:18 securecmdd.zip
-rwxrwxr-x. 1 kingbase kingbase 4.0K Apr  7 16:18 trust_cluster.sh
-rwxrwxr-x. 1 kingbase kingbase 138K Apr  7 16:18 V8R6_cluster_install.sh
  • 将securecmdd.zip拷贝到/home/kingbase/r6_install
[kingbase@node1 zip]$ cp securecmdd.zip /home/kingbase/r6_install/
[kingbase@node1 r6_install]$ unzip securecmdd.zip 

[root@node2 bin]# ls -lh
total 2.0M
-rwxr-xr-x 1 kingbase kingbase  34K Apr  7 16:18 sys_HAscmdd.sh
-rwxr-xr-x 1 kingbase kingbase 856K Apr  7 16:18 sys_securecmd
-rwxr-xr-x 1 kingbase kingbase 938K Apr  7 16:18 sys_securecmdd
-rwxr-xr-x 1 kingbase kingbase 149K Apr  7 16:18 sys_secureftp

[root@node2 share]# ls -lh
total 24K
-rw------- 1 kingbase kingbase  381 May 23 10:26 accept_hosts
-rw------- 1 kingbase kingbase 1.7K May 23 10:26 key_file
-rw------- 1 kingbase kingbase  315 May 23 10:26 securecmd_config
-rw------- 1 kingbase kingbase  586 May 23 10:26 securecmdd_config
-rw-r--r-- 1 kingbase kingbase  275 May 23 10:26 securecmdd.service
-rw-r--r-- 1 kingbase kingbase  246 May 23 10:26 sys_HAscmdd.conf
  • 执行sys_HAscmdd.sh init
[root@node2 bin]# sh sys_HAscmdd.sh  init
successfully initialized the sys_securecmdd, please use "sys_HAscmdd.sh start" to start the sys_securecmdd
  • 启动securecmdd服务
[root@node2 bin]# sh sys_HAscmdd.sh start
[root@node2 bin]# systemctl status securecmdd
● securecmdd.service - KingbaseES - sys_securecmdd daemon
   Loaded: loaded (/etc/systemd/system/securecmdd.service; enabled; vendor prese>
   Active: active (running) since Thu 2024-10-03 17:59:06 CST; 2h 46min ago
 Main PID: 78262 (sys_securecmdd)
    Tasks: 1
   Memory: 624.0K
   CGroup: /system.slice/securecmdd.service
           └─78262 sys_securecmdd: /home/kingbase/r6_install/securecmdd/bin/sys_>

Oct 03 17:59:06 kb1.local systemd[1]: Started KingbaseES - sys_securecmdd daemon.
lines 1-10/10 (END)
  1. 测试集群各节点是否可以免密连接
[root@node2 bin]# ./sys_securecmd -vvv root@192.168.139.150 ifconfig
OpenSSH_9.0p1, OpenSSL 1.1.1q  5 Jul 2022
debug1: Reading configuration data /etc/.kes/securecmd_config
debug2: resolve_canonicalize: hostname 192.168.139.150 is address
debug1: Authenticator provider $SSH_SK_PROVIDER did not resolve; disabling
debug3: ssh_connect_direct: entering
debug1: Connecting to 192.168.139.150 [192.168.139.150] port 8890.
debug3: set_sock_tos: set socket 5 IP_TOS 0x48
debug2: fd 5 setting TCP_USER_TIMEOUT 0
debug1: Connection established.
debug1: identity file /root/.es/key_file type -1
debug1: identity file /root/.es/key_file-cert type -1
debug1: Local version string SSH-2.0-OpenSSH_9.0
debug1: Remote protocol version 2.0, remote software version OpenSSH_9.0
........
ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.139.150  netmask 255.255.255.0  broadcast 192.168.139.255
        inet6 fe80::5a17:b057:5bc1:ceff  prefixlen 64  scopeid 0x20<link>
        ether 00:0c:29:c0:93:ee  txqueuelen 1000  (Ethernet)
        RX packets 12824  bytes 1524717 (1.4 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 13066  bytes 1352889 (1.2 MiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1000  (Local Loopback)
        RX packets 31874  bytes 3824539 (3.6 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 31874  bytes 3824539 (3.6 MiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
........

二、图形界面部署

1 创建项目

1)在开启的“数据库部署工具”中,关闭欢迎窗口。然后点击左上角的“窗口”菜单


2)鼠标右键单击“集群项目名称”,工具弹出右键菜单,选择“创建项目”,如下图:


3)右键单击刚刚创建的项目节点,弹出菜单,选择“创建集群”。右键菜单如下图:


4)集群创建成功后,节点通用配置参数不能再修改。界面如下:



5)填写完成后点击“下一步”进入到db&repmgr配置,如下图:


6)点击“高级设置”选项卡,如下图所示:


7)展开当前创建的集群,右键选择菜单的“新增节点”,如下图所示:



8)检测合格后进入到系统环境检测步骤界面,此时需点击下方的检测按钮。如下图所示:


点击“检查”按钮,环境参数的信息检测都会输出到这个界面中。输出信息中可能会出现红色和黄色提示,被标为红色ERROR的提示,意为不允许安装集群,用户需解决后,才可继续进行下一步。黄色Warning意为不解决可能会导致集群出现问题隐患。例如:


说明:需要停止数据库,修改数据库目录。如果参数有问题,可以点击“一键修改系统参数”按钮进行修改。

修改后,如果参数都已经正确,如图所示



9)点击上图中“下一步”按钮,系统进入预览信息界面,当前界面将会把配置信息进行汇总并显示,如下图所示:


10)点击确定,打开部署窗口


11)点击部署,开始部署。


12)按上述步骤,部署其他节点,部署成功后,集群状态如下:

注意:由于kingbase的授权文件,只有专业版和企业版是支持集群部署的,开发版和标准版授权文件都不支持,因此请下载正确的授权文件。

三、一键式集群部署

KingbaseES 提供数据库部署工具进行数据库集群的部署。对于不支持 GUI 的服务器,KingbaseES 提供基于命令行操作的集群部署方式。

1.部署配置文件 install.conf 配置

install.conf 参数配置示例:

on_bmj=0
all_ip=(192.168.139.150 192.168.139.153)
production_ip=()
# 配置 all_ip 后,不能配置这个参数
local_disaster_recovery_ip=() # 配置 all_ip 后,不能配置这个参数
remote_disaster_recovery_ip=() # 配置 all_ip 后,不能配置这个参数
witness_ip=""
# 在此 IP 的设备上部署观察器节点,如果不需要部署请设置为空
install_dir="/home/kingbase/v8r6"
zip_package="/home/kingbase/r6_install/db.zip"
license_file=(license.dat)
db_user="system"
db_password="123456"
db_port="54321"
db_mode="mysql"
db_auth="scram-sha-256"
db_case_sensitive="no"
db_encoding=""
db_collate=""
db_ctype=""
other_db_init_options=""
sync_security_guc="no"
data_directory="/home/kingbase/v8r6/data"
trusted_servers="192.168.28.1"
running_under_failure_trusted_servers="on"
virtual_ip="192.168.28.226"
net_device=(ens33)
net_device_ip=(192.168.139.150 192.168.139.153) # 网卡上已有的 ip 地址
ipaddr_path="/sbin"
arping_path=""
ping_path="/bin"
super_user="root"
execute_user="kingbase"
deploy_by_sshd=1
use_scmd=1
reconnect_attempts="10"
reconnect_interval="6"
recovery="standby"
ssh_port="22"
scmd_port="8890"
auto_cluster_recovery_level="1"
use_check_disk="off"
synchronous=""
# 配置为空,则读写分离集群默认为 quorum,两地三中心集群默认为 all
sync_in_same_location=0
failover_need_server_alive='off'

2.开始部署

1)在 /home/kingbase/r6_install 目录下用 root 用户执行命令 sh trust_cluster.sh,在执行过程中,如果遇到需要输入信息的地方,请按提示要求输入;

2)使用集群部署用户执行 cluster_install.sh 脚本;

3)按步骤1和步骤2,依次部署其他的节点;

4)集群部署成功后,请去到集群部署位置(install_dir)下,执行命令”install_dir/ bin/ repmgr cluster show”,确认是否真正成功部署集群。

四、集群启停

集群的启停通常有两种方式:一键启停和单个节点独立启停。

1 一键启停方式

  • 集群一键停止
$bin_path/sys_monitor.sh stop
  • 集群一键启动
$bin_path/sys_monitor.sh start

2 手动启停方式

需要按照步骤手动启动集群中所有数据库以及守护进程。

  • 首先启动所有数据库节点,在启动前需要检查所有数据库状态,保证不能有多主。
sys_ctl -D $data_directory -l logfile start
  • 然后启动所有节点的 repmgrd 守护进程。
repmgrd -d -v -f $rep_conf
  • 启动所有节点的 kbha 守护进程。
kbha -A daemon -f $rep_conf
  • 最后,在所有节点使用 root 用户添加 CRON 任务。

1)在文件/etc/cron.d/KINGBASECRON(如果没有请创建)中写入语句:

$user . /etc/profile;$bin_path/kbha -A daemon -f $rep_conf

2)需要按照步骤手动停止所有守护进程以及数据库。

2.1)首先,在所有节点使用 root 用户注释或删除 CRON 任务。

在文件/etc/cron.d/KINGBASECRON 注释(句首使用 #)以下语句:

$user . /etc/profile;$bin_path/kbha -A daemon -f $rep_conf

2.2)其次,关闭或杀掉所有节点的守护进程 kbha 和 repmgrd。

一定先关闭 kbha 进程 kill -9 pidof kbha repmgrd

2.3)最后停止所有数据库节点。

sys_ctl -D $data_directory -l logfile stop

五、检查数据库集群状态

在数据库运维过程中,需要定期的对数据库的环境进行检查,可以帮助用户减少数据库发生问题的概率。检查最好以脚本形式实现,然后定期执行,减少运维难度。一键检查数据库状态脚本可以快速的检查数据库状态以及运行环境,支持单机或者主备集群使用。

调用脚本时,使用 -D 参数指定数据库 data 目录,脚本会自动根据 data 目录来判断是单机还是集群。单机只检查本机的状态,集群会检查所有节点(不包括 witness 节点)的状态。在检查过程中会连接数据库,单机使用chk.conf 配置文件中配置的 kb_user 和 kb_database 进行连接,连接过程中需要手动输入密码。集群使用流复制用户进行连接,不需要输入密码。

调用脚本时,如果没有传入 data 目录,则将跳过连接数据库的检查,仅检查本机的状态。

相关推荐

服务器数据恢复—Raid5数据灾难不用愁,Raid5数据恢复原理了解下

Raid5数据恢复算法原理:分布式奇偶校验的独立磁盘结构(被称之为raid5)的数据恢复有一个“奇偶校验”的概念。可以简单的理解为二进制运算中的“异或运算”,通常使用的标识是xor。运算规则:若二者值...

服务器数据恢复—多次异常断电导致服务器raid不可用的数据恢复

服务器数据恢复环境&故障:由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windowsserver操作系统,没有配置ups。因为服务器异常断电重启后,rai...

服务器数据恢复-V7000存储更换磁盘数据同步失败的数据恢复案例

服务器数据恢复环境:P740+AIX+Sybase+V7000存储,存储阵列柜上共12块SAS机械硬盘(其中一块为热备盘)。服务器故障:存储阵列柜中有磁盘出现故障,工作人员发现后更换磁盘,新更换的磁盘...

「服务器数据恢复」重装系统导致XFS文件系统分区丢失的数据恢复

服务器数据恢复环境:DellPowerVault系列磁盘柜;用RAID卡创建的一组RAID5;分配一个LUN。服务器故障:在Linux系统层面对LUN进行分区,划分sdc1和sdc2两个分区。将sd...

服务器数据恢复-ESXi虚拟机被误删的数据恢复案例

服务器数据恢复环境:一台服务器安装的ESXi虚拟化系统,该虚拟化系统连接了多个LUN,其中一个LUN上运行了数台虚拟机,虚拟机安装WindowsServer操作系统。服务器故障&分析:管理员因误操作...

「服务器数据恢复」Raid5阵列两块硬盘亮黄灯掉线的数据恢复案例

服务器数据恢复环境:HPStorageWorks某型号存储;虚拟化平台为vmwareexsi;10块磁盘组成raid5(有1块热备盘)。服务器故障:raid5阵列中两块硬盘指示灯变黄掉线,无法读取...

服务器数据恢复—基于oracle数据库的SAP数据恢复案例

服务器存储数据恢复环境:某品牌服务器存储中有一组由6块SAS硬盘组建的RAID5阵列,其中有1块硬盘作为热备盘使用。上层划分若干lun,存放Oracle数据库数据。服务器存储故障&分析:该RAID5阵...

「服务器虚拟化数据恢复」Xen Server环境下数据库数据恢复案例

服务器虚拟化数据恢复环境:Dell某型号服务器;数块STAT硬盘通过raid卡组建的RAID10;XenServer服务器虚拟化系统;故障虚拟机操作系统:WindowsServer,部署Web服务...

服务器数据恢复—RAID故障导致oracle无法启动的数据恢复案例

服务器数据恢复环境:某品牌服务器中有一组由4块SAS磁盘做的RAID5磁盘阵列。该服务器操作系统为windowsserver,运行了一个单节点Oracle,数据存储为文件系统,无归档。该oracle...

服务器数据恢复—服务器磁盘阵列常见故障表现&amp;解决方案

RAID(磁盘阵列)是一种将多块物理硬盘整合成一个虚拟存储的技术,raid模块相当于一个存储管理的中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写。相对...

「服务器数据恢复」IBM某型号服务器RAID5磁盘阵列数据恢复案例

服务器数据恢复环境:IBM某型号服务器;5块SAS硬盘组成RAID5磁盘阵列;存储划分为1个LUN和3个分区:第一个分区存放windowsserver系统,第二个分区存放SQLServer数据库,...

服务器数据恢复—Zfs文件系统下误删除文件如何恢复数据?

服务器故障:一台zfs文件系统服务器,管理员误操作删除服务器上的数据。服务器数据恢复过程:1、将故障服务器所有磁盘编号后取出,硬件工程师检测所有硬盘后没有发现有磁盘存在硬件故障。以只读方式将全部磁盘做...

服务器数据恢复—Linux+raid5服务器数据恢复案例

服务器数据恢复环境:某品牌linux操作系统服务器,服务器中有4块SAS接口硬盘组建一组raid5阵列。服务器中存放的数据有数据库、办公文档、代码文件等。服务器故障&检测:服务器在运行过程中突然瘫痪,...

服务器数据恢复—Sql Server数据库数据恢复案例

服务器数据恢复环境:一台安装windowsserver操作系统的服务器。一组由8块硬盘组建的RAID5,划分LUN供这台服务器使用。在windows服务器内装有SqlServer数据库。存储空间LU...

服务器数据恢复—阿里云ECS网站服务器数据恢复案例

云服务器数据恢复环境:阿里云ECS网站服务器,linux操作系统+mysql数据库。云服务器故障:在执行数据库版本更新测试时,在生产库误执行了本来应该在测试库执行的sql脚本,导致生产库部分表被tru...

取消回复欢迎 发表评论: