고가용성과 리플리케이션

카프카는 분산 메시징 어플리케이션으로 특정 노드에 문제가 발생한 경우에도 높은 가용성을 제공한다.이를 위해 카프카는 메시지를 여러 브로커에 걸처 replication(복제)을 한다.

카프카는 토픽 자체를 리플리케이션 하는 것이 아니라, 토픽을 이루고 있는 파티션을 리플리케이션한다.
카프카는 파티션 간의 균형을 맞추기 위해 round-robin 방식을 사용한다.
복제되는 만큼 디스크 사용량이 배수로 증가한다.

기본 리플리케이션 팩터

replication factor는 파티션의 메시지를 몇개까지 복제할 것인지 설정하는 수치다. 기본값은 1이다. (default.replication.factor)클러스터 내 리플리케이션 팩터 값 설정은 동일하게 설정되어야한다.

리더와 팔로워

카프카에서는 리더(원본)와 팔로워(복제본) 역할로 나누어진다.

모든 읽기와 쓰기는 리더를 통해서만 수행된다.
팔로워는 리더의 데이터를 그대로 리플리케이션만 하고 읽기와 쓰기에는 관여하지 않는다.
리더와 팔로워에 저장된 데이터는 동일한 내용과 동일한 offset을 갖게 된다.
팔로워는 일반적인 컨슈머처럼 리더의 메시지를 소비하여 자신에게 복제를 한다.
- 팔로워는 리더로부터 메시지를 pull한다. 이 과정은 배치처리로 이루질 수 있다.

리더와 팔로워 정보 확인

토픽 describe 명령어로 확인할수 있다.

./bin/kafka-topics.sh --bootstrap-server 127.0.0.1:9092 --describe --topic test
# Topic: test   PartitionCount: 1   ReplicationFactor: 2    Configs: segment.bytes=1073741824
#   Topic: test Partition: 0    Leader: 0   Replicas: 0,1   Isr: 0,1

장애처리와 In Sync Replica (ISR)

https://kafka.apache.org/documentation/#replication

대부분의 분산처리 시스템에서 자동으로 장애를 처리하려면 노드가 "alive" 상태임을 정의해야하는데, 카프카에서는 두가지 조건이 있다.