공유할 서비스 선택

TECH


TECH

OS [Cluster] RHEL(Centos) 7 Pacemaker 운영 매뉴얼

페이지 정보

작성자 Leesangwoo 아이디로 검색 전체게시물 댓글 0건 조회 11,248회 좋아요 0회 작성일 20-03-29 01:58

본문

- RHEL 7 Pacemaker 운영 메뉴얼 

 

  

1. Pacemaker 상태 확인 : 클러스터 데몬 상태 확인 (인프라 환경 , 유지보수 항목)

2. Pacemaker 시작 및 정지 : 클러스터 데몬 start & stop

3. Pacemaker 서비스 이관 : 클러스터 데몬 move

4. Pacemaker 장애 처리 : 클러스터 트러블슈팅

 



- 환경

 CentOS 7.5-1804 x2

 RHEL 7.5 x2

 VMware ESXI

 

클러스터 서비스를 정상적으로 운영되기 위해서는, 아래 항목들까지 체크해주시면 좋습니다.

아래 내용 중 하나라도 문제가 생기면 정상적인 failover가 어렵습니다.


# FQDN / hostname - 클러스터는 노드들을 FQDN or hostname으로 식별.

# Network - 노드간 통신을 TCP/IP 기반

# Firewall - 클러스터 통신에 사용되는 TCP/UDP 포트가 노드끼리 오픈되어 있어야 합니다.

# NTP - 노드간 시각 동기화 필수화.

# Fencing device - 장애시 데이터 손실 방지를 위한 전원 및 장애발생시 장애 공유볼륨 접근 차단.

 

 

 

1 Pacemaker 상태 확인 


   1) hosts 파일 확인 : 클러스터 노드의 /etc/hosts 파일을 확인합니다. 다르다면 동일하게 수정해주셔야 합니다.
7ef03c306c5efe7246180db30074b576_1585486023_2686.jpg7ef03c306c5efe7246180db30074b576_1585486023_3797.jpg

   2) firewalld 확인 : 클러스터 노드의 firewalld ( 방화벽 ) stop인지 확인합니다.
7ef03c306c5efe7246180db30074b576_1585486104_6052.jpg7ef03c306c5efe7246180db30074b576_1585486104_6475.jpg

   3) interface 확인 ( network ) : 클러스터 노드의 interface 상태를 확인합니다.
   - service interface가 state DOWN이면 서비스 문제가 발생,
   - heartbeat interface가 state DOWN이면 Cluster에 문제가 발생.

7ef03c306c5efe7246180db30074b576_1585486300_9428.JPG7ef03c306c5efe7246180db30074b576_1585486300_99.jpg

   - gateway와 heartbeat 대역 ping 체크.
7ef03c306c5efe7246180db30074b576_1585486946_1771.JPG7ef03c306c5efe7246180db30074b576_1585486946_2286.JPG

 4) 시각 동기화 상태 확인 : 클러스터 노드 상태와 log의 timestamp를 위하여 ntp 동기화를 체크합니다.
7ef03c306c5efe7246180db30074b576_1585486467_2681.jpg7ef03c306c5efe7246180db30074b576_1585486467_3098.jpg

 5) pcs 데몬 확인 : 1,2 노드에 pacemaker 관리 데몬인 pcsd 상태확인. 만약 시작이 안되어 있다면 시작해줍니다.
7ef03c306c5efe7246180db30074b576_1585486638_6482.jpg7ef03c306c5efe7246180db30074b576_1585486638_6952.jpg

  6) Cluster 상태 확인 : Cluster 상태 확인은 pcs status 명령어로 가능합니다.
7ef03c306c5efe7246180db30074b576_1585487060_401.jpg

 ①은 현재 Cluster에서 서비스 가능한 노드를 나타냅니다. 
   - 만약 [ Online ]에 없는 노드 (  ex - offline, standby ) 에 있으면 online에 있는 노드가 장애가 발생해도 넘어가지 않습니다.
 ②은 현재 Cluster에서 어느 노드에 리소스를 시작중인지 표시해 줍니다.
 ③은 각 데몬의 상태를 알려줍니다.
   - corosync 데몬은 active ( 실행 중 ) / disabled ( OS 부팅시 자동 실행 안됨 ) 을 알려줍니다. 
     ( 만약 한쪽 노트만 enable 했다면, 각 노드 별로 다르게 표시 될 수 있으니 양 노드 확인 필요합니다. )

   7) 공유볼륨 멀티패스 확인 : 1,2 노드에 공유볼륨 연결상태 확인 
155f80e0bdab6b4e9f283330f26662c0_1588566620_1653.JPG
155f80e0bdab6b4e9f283330f26662c0_1588566620_228.JPG

   8) LVM 확인 : lvs 출력내용 중 클러스터 리소스로 사용되는 논리볼륨의 Attr 필드에 a(activate) tag가 있어야 접근 가능, o( open ) 은 사용중이라는 tag입니다.
372231230805359472a6b501d62f30bf_1588814599_1463.JPG

   9) resource 확인 : Cluster 서비스가 실행중인 노드 ( 이미지는 1노드 ) 에서 vip와 volume이 보이는지 확인합니다.
7ef03c306c5efe7246180db30074b576_1585488048_072.jpg
7ef03c306c5efe7246180db30074b576_1585488048_1221.jpg

   10) fencign device 확인 : stonith ( fence ) 리소스의 상태를 확인합니다. ( 문제가 있을 시 Started 가 아님 )

2da7d8a76bd962f13eae55ac286e7322_1592379265_1255.jpg






2. Pacemaker 시작 및 정지

   1) Pacemaker 2가지 기동 방법

7ef03c306c5efe7246180db30074b576_1585488706_6264.jpg
 - 모든 노드의 Cluster를 기동하는 방법

7ef03c306c5efe7246180db30074b576_1585488706_5838.jpg
 - 각각의 단일 노드 Cluster를 기동하는 방법

   2) Pacemaker 2가지 정지 방법

7ef03c306c5efe7246180db30074b576_1585489547_8047.JPG
 - 모든 노드의 Cluster를 정지하는 방법

7ef03c306c5efe7246180db30074b576_1585489547_8925.JPG
 - 각각의 단일 노드 Cluster를 정지하는 방법

3. Pacemaker 서비스 이관
7ef03c306c5efe7246180db30074b576_1585489628_4227.jpg

- 서비스에서 제외 : pcs cluster standby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 제외됩니다.
  만약 서비스 중인 노드를 Online에서 제외하면 다른 노드로 서비스가 넘어갑니다.

7ef03c306c5efe7246180db30074b576_1585489628_4704.JPG

- 서비스에 포함 : pcs cluster unstandby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 다시 포함됩니다.





4. Pacemaker 장애 처리

   1) Pacemaker 상태 error 메시지 확인

d5eaf66cbe034043a7d61069508a3c3e_1586158405_417.jpg

- pcs status 아래에 보면 Failed Actions은 pacemaker의 이슈 log입니다. 
  만약 pcs resource cleanup 해도 이슈 log가 안사라진다면 해당 부분은 점검이 필요합니다.


   2) Pacemaker config 확인 : 경로는 /var/lib/pacemaker/cib/cib.xm에 있습니다.

7ef03c306c5efe7246180db30074b576_1585491650_3763.JPG

- 그리고 cib-raw 파일들은 설정이 바뀌면 생기는 파일들 입니다.


   3) Pacemaker log 확인

7ef03c306c5efe7246180db30074b576_1585492221_501.JPG

- Cluster 의 상세로그는 /var/log/cluster/corosync.log 로 확인하비면 됩니다.


7ef03c306c5efe7246180db30074b576_1585492221_5537.JPG

- Cluster의 기본로그는 /var/log/messages로 확인 하시면 됩니다.


댓글목록

등록된 댓글이 없습니다.

TECH 목록
번호 제목 작성자 작성일 조회수
152 Middleware 미들웨어 아이디로 검색 전체게시물 05-23 818
(오픈소스 활용-20) apache, nginx (prefork & worker) 방식에 따른 MaxClient 적용방법

카테고리 : Middleware

818 0
작성자 : 미들웨어 23/05/23
151 OS leechanho 아이디로 검색 전체게시물 05-23 1053
[쉘스크립트] RHEL8 리눅스 보안설정 자동화 스크립트

카테고리 : OS

1,053 0
작성자 : leechanho 23/05/23
150 Middleware 미들웨어 아이디로 검색 전체게시물 05-10 2081
(오픈소스 활용-19) MobarXTerm 을 활용한 GUI(X11) 실행방법

카테고리 : Middleware

2,081 0
작성자 : 미들웨어 23/05/10
149 OS leechanho 아이디로 검색 전체게시물 04-24 887
[Linux] RHEL-HA_운영 메뉴얼

카테고리 : OS

887 0
작성자 : leechanho 23/04/24
148 Middleware 미들웨어 아이디로 검색 전체게시물 04-24 807
(오픈소스 활용-18) VSCODE 설치 및 GIT 활용 연동 가이드

카테고리 : Middleware

807 0
작성자 : 미들웨어 23/04/24
147 Middleware 미들웨어 아이디로 검색 전체게시물 04-05 1104
(오픈소스 활용-17) 로컬 및 URL 호출 테스트 옵션 (curl, ab 옵션으로 부하주기)

카테고리 : Middleware

1,104 0
작성자 : 미들웨어 23/04/05
146 Middleware 미들웨어 아이디로 검색 전체게시물 03-20 605
(오픈소스 활용-16) Jstack을 활용하여 CPU급등한 프로세스 파일로 떨구기

카테고리 : Middleware

605 0
작성자 : 미들웨어 23/03/20
145 OS leechanho 아이디로 검색 전체게시물 03-15 2131
[쉘스크립트] 리눅스 시스템 정보수집 스크립트

카테고리 : OS

2,131 1
작성자 : leechanho 23/03/15
144 Middleware 미들웨어 아이디로 검색 전체게시물 03-08 1054
(Monitoring) Jennifer & Slack 연동 구성방법 (이벤트 발생 확인)

카테고리 : Middleware

1,054 0
작성자 : 미들웨어 23/03/08
143 Middleware 미들웨어 아이디로 검색 전체게시물 02-20 984
Coherence란 무엇인가?

카테고리 : Middleware

984 0
작성자 : 미들웨어 23/02/20
Total 202건
게시물 검색

주식회사 클럭스| 대표 : 이찬호| 사업자등록번호 : 107-87-27655
주소 : 서울특별시 영등포구 국회대로 800, 여의도파라곤
E-mail : sales@chlux.co.kr
Copyright © 클럭스 www.chlux.co.kr All rights reserved.
상단으로Top