공유할 서비스 선택

TECH


TECH

OS [Cluster] RHEL(Centos) 7 Pacemaker 운영 매뉴얼

페이지 정보

작성자 Leesangwoo 아이디로 검색 전체게시물 댓글 0건 조회 11,256회 좋아요 0회 작성일 20-03-29 01:58

본문

- RHEL 7 Pacemaker 운영 메뉴얼 

 

  

1. Pacemaker 상태 확인 : 클러스터 데몬 상태 확인 (인프라 환경 , 유지보수 항목)

2. Pacemaker 시작 및 정지 : 클러스터 데몬 start & stop

3. Pacemaker 서비스 이관 : 클러스터 데몬 move

4. Pacemaker 장애 처리 : 클러스터 트러블슈팅

 



- 환경

 CentOS 7.5-1804 x2

 RHEL 7.5 x2

 VMware ESXI

 

클러스터 서비스를 정상적으로 운영되기 위해서는, 아래 항목들까지 체크해주시면 좋습니다.

아래 내용 중 하나라도 문제가 생기면 정상적인 failover가 어렵습니다.


# FQDN / hostname - 클러스터는 노드들을 FQDN or hostname으로 식별.

# Network - 노드간 통신을 TCP/IP 기반

# Firewall - 클러스터 통신에 사용되는 TCP/UDP 포트가 노드끼리 오픈되어 있어야 합니다.

# NTP - 노드간 시각 동기화 필수화.

# Fencing device - 장애시 데이터 손실 방지를 위한 전원 및 장애발생시 장애 공유볼륨 접근 차단.

 

 

 

1 Pacemaker 상태 확인 


   1) hosts 파일 확인 : 클러스터 노드의 /etc/hosts 파일을 확인합니다. 다르다면 동일하게 수정해주셔야 합니다.
7ef03c306c5efe7246180db30074b576_1585486023_2686.jpg7ef03c306c5efe7246180db30074b576_1585486023_3797.jpg

   2) firewalld 확인 : 클러스터 노드의 firewalld ( 방화벽 ) stop인지 확인합니다.
7ef03c306c5efe7246180db30074b576_1585486104_6052.jpg7ef03c306c5efe7246180db30074b576_1585486104_6475.jpg

   3) interface 확인 ( network ) : 클러스터 노드의 interface 상태를 확인합니다.
   - service interface가 state DOWN이면 서비스 문제가 발생,
   - heartbeat interface가 state DOWN이면 Cluster에 문제가 발생.

7ef03c306c5efe7246180db30074b576_1585486300_9428.JPG7ef03c306c5efe7246180db30074b576_1585486300_99.jpg

   - gateway와 heartbeat 대역 ping 체크.
7ef03c306c5efe7246180db30074b576_1585486946_1771.JPG7ef03c306c5efe7246180db30074b576_1585486946_2286.JPG

 4) 시각 동기화 상태 확인 : 클러스터 노드 상태와 log의 timestamp를 위하여 ntp 동기화를 체크합니다.
7ef03c306c5efe7246180db30074b576_1585486467_2681.jpg7ef03c306c5efe7246180db30074b576_1585486467_3098.jpg

 5) pcs 데몬 확인 : 1,2 노드에 pacemaker 관리 데몬인 pcsd 상태확인. 만약 시작이 안되어 있다면 시작해줍니다.
7ef03c306c5efe7246180db30074b576_1585486638_6482.jpg7ef03c306c5efe7246180db30074b576_1585486638_6952.jpg

  6) Cluster 상태 확인 : Cluster 상태 확인은 pcs status 명령어로 가능합니다.
7ef03c306c5efe7246180db30074b576_1585487060_401.jpg

 ①은 현재 Cluster에서 서비스 가능한 노드를 나타냅니다. 
   - 만약 [ Online ]에 없는 노드 (  ex - offline, standby ) 에 있으면 online에 있는 노드가 장애가 발생해도 넘어가지 않습니다.
 ②은 현재 Cluster에서 어느 노드에 리소스를 시작중인지 표시해 줍니다.
 ③은 각 데몬의 상태를 알려줍니다.
   - corosync 데몬은 active ( 실행 중 ) / disabled ( OS 부팅시 자동 실행 안됨 ) 을 알려줍니다. 
     ( 만약 한쪽 노트만 enable 했다면, 각 노드 별로 다르게 표시 될 수 있으니 양 노드 확인 필요합니다. )

   7) 공유볼륨 멀티패스 확인 : 1,2 노드에 공유볼륨 연결상태 확인 
155f80e0bdab6b4e9f283330f26662c0_1588566620_1653.JPG
155f80e0bdab6b4e9f283330f26662c0_1588566620_228.JPG

   8) LVM 확인 : lvs 출력내용 중 클러스터 리소스로 사용되는 논리볼륨의 Attr 필드에 a(activate) tag가 있어야 접근 가능, o( open ) 은 사용중이라는 tag입니다.
372231230805359472a6b501d62f30bf_1588814599_1463.JPG

   9) resource 확인 : Cluster 서비스가 실행중인 노드 ( 이미지는 1노드 ) 에서 vip와 volume이 보이는지 확인합니다.
7ef03c306c5efe7246180db30074b576_1585488048_072.jpg
7ef03c306c5efe7246180db30074b576_1585488048_1221.jpg

   10) fencign device 확인 : stonith ( fence ) 리소스의 상태를 확인합니다. ( 문제가 있을 시 Started 가 아님 )

2da7d8a76bd962f13eae55ac286e7322_1592379265_1255.jpg






2. Pacemaker 시작 및 정지

   1) Pacemaker 2가지 기동 방법

7ef03c306c5efe7246180db30074b576_1585488706_6264.jpg
 - 모든 노드의 Cluster를 기동하는 방법

7ef03c306c5efe7246180db30074b576_1585488706_5838.jpg
 - 각각의 단일 노드 Cluster를 기동하는 방법

   2) Pacemaker 2가지 정지 방법

7ef03c306c5efe7246180db30074b576_1585489547_8047.JPG
 - 모든 노드의 Cluster를 정지하는 방법

7ef03c306c5efe7246180db30074b576_1585489547_8925.JPG
 - 각각의 단일 노드 Cluster를 정지하는 방법

3. Pacemaker 서비스 이관
7ef03c306c5efe7246180db30074b576_1585489628_4227.jpg

- 서비스에서 제외 : pcs cluster standby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 제외됩니다.
  만약 서비스 중인 노드를 Online에서 제외하면 다른 노드로 서비스가 넘어갑니다.

7ef03c306c5efe7246180db30074b576_1585489628_4704.JPG

- 서비스에 포함 : pcs cluster unstandby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 다시 포함됩니다.





4. Pacemaker 장애 처리

   1) Pacemaker 상태 error 메시지 확인

d5eaf66cbe034043a7d61069508a3c3e_1586158405_417.jpg

- pcs status 아래에 보면 Failed Actions은 pacemaker의 이슈 log입니다. 
  만약 pcs resource cleanup 해도 이슈 log가 안사라진다면 해당 부분은 점검이 필요합니다.


   2) Pacemaker config 확인 : 경로는 /var/lib/pacemaker/cib/cib.xm에 있습니다.

7ef03c306c5efe7246180db30074b576_1585491650_3763.JPG

- 그리고 cib-raw 파일들은 설정이 바뀌면 생기는 파일들 입니다.


   3) Pacemaker log 확인

7ef03c306c5efe7246180db30074b576_1585492221_501.JPG

- Cluster 의 상세로그는 /var/log/cluster/corosync.log 로 확인하비면 됩니다.


7ef03c306c5efe7246180db30074b576_1585492221_5537.JPG

- Cluster의 기본로그는 /var/log/messages로 확인 하시면 됩니다.


댓글목록

등록된 댓글이 없습니다.

TECH 목록
번호 제목 작성자 작성일 조회수
83 OS OSworker 아이디로 검색 전체게시물 04-14 37
[교육] RH174 : Managing CentOS Migrations and RHEL Upgrades

카테고리 : OS

37 0
작성자 : OSworker 24/04/14
82 OS OSworker 아이디로 검색 전체게시물 04-03 737
[보안취약점] XZ유틸즈에서 발견된 백도어 `CVE-2024-3094`

카테고리 : OS

737 0
작성자 : OSworker 24/04/03
81 OS OSworker 아이디로 검색 전체게시물 03-30 94
레드햇 자격증 시험을 집에서~ 원하는 곳에서 볼수있는거 알고계셨나요?

카테고리 : OS

94 0
작성자 : OSworker 24/03/30
80 OS OSworker 아이디로 검색 전체게시물 03-24 152
RHEL7 to RHEL8 leapp으로 마이그레이션 하는 방법에 대해~

카테고리 : OS

152 0
작성자 : OSworker 24/03/24
79 OS OSworker 아이디로 검색 전체게시물 03-17 131
Convert2RHEL를 사용하여 CentOS 7.9 에서 RHEL7.9로 전환해보겠습니다.

카테고리 : OS

131 0
작성자 : OSworker 24/03/17
78 OS OSworker 아이디로 검색 전체게시물 02-28 228
RHEL8부터는 네트워크 본딩을 구성하려면 nmcli 유틸리티를 사용해야 합니다. 레드햇 권고입니다.

카테고리 : OS

228 0
작성자 : OSworker 24/02/28
77 OS OSworker 아이디로 검색 전체게시물 02-19 381
[질문] free 메모리에서 Used가 너무 높게 나오는데, ps 명령어에는 사용율이 없습니다.

카테고리 : OS

381 0
작성자 : OSworker 24/02/19
76 OS OSworker 아이디로 검색 전체게시물 02-05 411
1월31일에 발표된 보안취약점 CVE-2024-21626에 대해 알아보겠습니다.

카테고리 : OS

411 0
작성자 : OSworker 24/02/05
75 OS OSworker 아이디로 검색 전체게시물 01-31 421
OS 백업 아직도 3rd part 사용하시나요? 이제는 OS 에 포함된 ReaR 사용해보세요~!

카테고리 : OS

421 0
작성자 : OSworker 24/01/31
74 OS OSworker 아이디로 검색 전체게시물 01-23 280
Red Hat 업무별 직군들에 대해 알아보겠습니다. #AM #GPS #TSE #TAM

카테고리 : OS

280 0
작성자 : OSworker 24/01/23
Total 83건
게시물 검색

주식회사 클럭스| 대표 : 이찬호| 사업자등록번호 : 107-87-27655
주소 : 서울특별시 영등포구 국회대로 800, 여의도파라곤
E-mail : sales@chlux.co.kr
Copyright © 클럭스 www.chlux.co.kr All rights reserved.
상단으로Top