최근 인공지능 시스템은 단일 서버 위에서 동작하는 소프트웨어가 아니라, 수백 개 이상의 GPU 노드와 스토리지, 메타데이터 서비스, 스케줄러, 체크포인트 시스템이 결합된 대규모 분산 인프라 위에서 운영되는 방향으로 빠르게 이동하고 있다. 이 과정에서 모델 학습 자체보다도 클러스터 상태를 일관되게 유지하고, 장애가 발생했을 때 메타데이터와 제어 평면을 안정적으로 복구하며, 여러 노드가 동일한 상태 전이를 공유하도록 만드는 문제가 점점 더 중요해지고 있다. 바로 이 지점에서 분산 합의 알고리즘, 특히 Paxos와 Raft 계열 알고리즘의 역할이 다시 부각된다. 실제로 최근 AI/ML 인프라를 다룬 연구에서도 대규모 학습 클러스터가 메타데이터 관리용 합의 서비스, 예를 들어 Paxos나 Raft 같은 합의 계층을 이미 유지하고 있다는 전제를 두고 시스템 전이를 설계하는 논의가 나타난다. 이는 합의 알고리즘이 더 이상 데이터베이스나 키-값 저장소만의 문제가 아니라, AI 인프라 전체의 운영 안정성을 지탱하는 기반 기술로 간주되고 있음을 시사한다.
이러한 배경에서 Paxos와 Raft를 단순히 “옛날 합의 알고리즘”으로 취급하는 시각은 점점 설득력을 잃고 있다. 오히려 최근 연구 흐름을 보면, 고전적 합의 알고리즘은 여전히 핵심 기준점으로 작동하고 있으며, 새로운 연구들은 대부분 Paxos와 Raft가 가진 병목을 어디서 어떻게 넘을 것인가에 집중하고 있다. 2024년의 분산 조정 시스템 평가 분석은 Paxos가 수많은 변형을 낳았고 Raft 역시 그 계보 위에서 이해되어야 한다고 정리하면서, 성능·가용성·확장성의 어느 측면을 우선하느냐에 따라 Mencius, FPaxos, EPaxos, WPaxos, SwiftPaxos, Omni-Paxos 등 다양한 확장이 전개되어 왔다고 설명한다. 즉 오늘날의 합의 연구는 Paxos 대 Raft의 단순 비교가 아니라, “어떤 장애 모델과 네트워크 환경, 어떤 제어 평면과 어떤 워크로드를 가정하느냐”에 따라 합의 알고리즘의 설계 철학이 갈라지는 방향으로 진화하고 있다.
본 글에서는 이러한 최근 연구 흐름을 바탕으로, 먼저 Paxos와 Raft가 왜 여전히 중요한지, 그리고 두 알고리즘의 구조적 차이가 실제 시스템 설계에서 어떤 의미를 가지는지를 정리한다. 이어서 부분 연결성(partial connectivity), 이기종 클러스터, 대규모 AI 인프라, 그리고 성능 평가의 불완전성이라는 최근 연구의 핵심 축을 중심으로, 분산 합의 알고리즘이 어떤 방향으로 재설계되고 있는지 심층적으로 분석하고자 한다. 단순한 개념 소개가 아니라, 최근 연구가 실제로 어디를 문제로 보고 있으며 어떤 구조적 해법을 제안하는지까지 따라가 보면, 앞으로의 분산 합의 연구가 왜 AI 시대의 인프라 문제와 긴밀하게 연결되는지 보다 분명하게 드러난다.
- Paxos와 Raft는 왜 여전히 기준점인가
Paxos가 여전히 기준점으로 남아 있는 이유는, 이 알고리즘이 “신뢰할 수 없는 노드들 사이에서 단일한 값에 합의한다”는 문제를 가장 정교하게 정식화한 고전적 해법이기 때문이다. Paxos의 핵심은 다수결 quorum, 제안 번호, acceptor의 승인 규칙을 통해 안전성(safety)을 보장하는 데 있다. 이후 Multi-Paxos가 로그 복제와 상태 머신 복제(State Machine Replication)에 실질적으로 연결되면서, Paxos는 이론적 알고리즘이 아니라 실제 분산 시스템의 제어 평면에 투입 가능한 구조로 자리 잡았다. 다만 Paxos는 역할 분리와 단계적 메시지 흐름이 복잡하여 구현 난도가 높고, 엔지니어가 시스템 전체 동작을 직관적으로 따라가기 어렵다는 평가를 오래 받아왔다. 이런 난해성이 바로 Raft가 등장한 직접적 배경이었다. 2024년의 조정 시스템 평가 분석은 Raft를 Paxos 계열의 중요한 후속 흐름으로 위치시키면서, 저수준 Paxos를 직접 다루기 어려운 현실이 ZooKeeper, Chubby, Kafka 같은 조정 서비스와 그 상위 시스템을 낳았다고 설명한다.
Raft의 중요성은 “이해 가능성”을 설계 목표로 명시했다는 점에 있다. 같은 합의 문제를 해결하더라도, 리더 선출, 로그 복제, 안전성 규칙을 더 분해된 형태로 서술함으로써 시스템 구현과 검증을 쉽게 만들고자 한 것이다. 이 때문에 Raft는 etcd, Consul, 여러 메타데이터 서비스와 오케스트레이션 시스템에서 사실상의 표준처럼 채택되었다. 그러나 최근 연구는 여기서 한 걸음 더 나아가, Raft의 이해 가능성이 곧 모든 현실 환경에서의 최적성을 의미하지는 않는다고 지적한다. 특히 부분 네트워크 분리, 다지역 배치, 이기종 노드 응답 속도, 리더 병목, 리드 경로 최적화와 같은 문제에서는 단순 leader-based majority 구조만으로 충분하지 않을 수 있다. 다시 말해 Paxos와 Raft는 출발점으로서 강력하지만, 최근 연구는 이 둘을 넘어서야 하는 정확한 이유를 훨씬 구체적인 시스템 병목의 언어로 설명하고 있다.
이 점은 최근 AI 인프라와 연결하면 더 분명해진다. 대규모 학습 시스템에서 합의 계층은 보통 메타데이터 관리, 체크포인트 전이, 장애 이후 epoch 전환 같은 “제어 경로”에 사용된다. 이 경우 사용자 요청을 초저지연으로 처리하는 데이터 평면과는 달리, 제어 평면에서 가장 중요한 것은 일관성 있는 상태 전이와 예측 가능한 복구이다. Paxos와 Raft는 바로 이 지점에서 여전히 강력한 기본 해법이지만, AI 클러스터가 커질수록 장애 양상이 더 복잡해지고 네트워크 품질도 균질하지 않기 때문에, 최근 연구는 고전적 합의 메커니즘을 AI 시대의 제어 평면에 맞게 더 세밀하게 조정하려는 방향으로 전개되고 있다.
- 최근 연구가 보는 첫 번째 병목: 부분 연결성과 리더 기반 합의의 취약성
최근 합의 연구에서 가장 흥미로운 흐름 중 하나는 “완전한 분할(partition)”보다 “부분 연결성(partial connectivity)”을 더 현실적인 장애 모델로 본다는 점이다. 전통적 설명에서는 네트워크가 둘로 깔끔하게 갈라지는 상황을 주로 상정했지만, 실제 서비스 장애는 그렇지 않은 경우가 많다. 어떤 노드는 A와 통신되지만 B와는 안 되고, 다른 노드는 또 다른 부분 집합과만 통신되는 비대칭적 단절이 생긴다. Omni-Paxos는 바로 이 문제를 정면으로 다룬 연구로, 상태 머신 복제를 부분 연결성 환경에서도 완전히 복구 가능하도록 설계한 시스템이다. 이 연구의 핵심은 리더 선출과 로그 복제를 분리(decouple)하는 데 있다. 리더 선출은 “누가 quorum-connected 상태인가”라는 연결성 자체에만 집중하고, 로그 복제는 별도의 메커니즘으로 처리한다. 그 결과 저자들은 극단적 부분 연결 상황에서도 최대 네 번의 election timeout 안에 복구를 보장하고, 재구성(reconfiguration) 구간을 최대 8배 단축하며 리더 측 I/O를 46% 줄였다고 보고한다.
이 결과가 중요한 이유는, 많은 엔지니어가 합의 프로토콜의 문제를 단순히 “리더가 죽으면 새 리더를 뽑으면 된다”는 수준으로 이해하지만, 실제 병목은 리더의 생존 여부가 아니라 네트워크 그래프 전체에서 quorum connectivity가 어떻게 유지되는가에 달려 있기 때문이다. Omni-Paxos는 이 점을 명시적으로 구조에 반영한다. 이는 Raft나 단순 leader-based Multi-Paxos 구현이 특정 부분 연결 상황에서는 liveness를 잃을 수 있다는 문제의식과 맞닿아 있다. 따라서 최근 연구는 더 이상 합의 알고리즘을 단순한 메시지 순서 규칙이 아니라, 동적인 연결성 그래프 위에서 작동하는 회복성 메커니즘으로 보고 있다. AI 인프라 관점에서도 이는 매우 중요하다. 수백 개 노드가 얽힌 학습 클러스터나 분산 추론 시스템에서는 완전한 장애보다 일부 랙, 일부 스위치, 일부 구간의 연결 이상이 더 흔할 수 있기 때문이다. 이 경우 부분 연결성에 강한 합의 메커니즘은 단순한 이론적 개선이 아니라 운영 비용과 복구 시간에 직접 연결된다.
더 넓게 보면, 이러한 흐름은 합의 알고리즘의 핵심 설계 목표가 “정상 상태 성능”에서 “비정상 네트워크 하의 예측 가능한 회복성”으로 이동하고 있음을 보여준다. 2024년 리뷰는 합의 연구의 진화가 단순한 crash fault 대응에서 시작해 부분 동기성, 비잔틴 환경, DAG 기반 메커니즘, 그리고 새로운 네트워크 시나리오까지 확장되었다고 정리한다. 즉 오늘날 합의 연구는 이전보다 훨씬 더 다양한 실패 모델을 고려하며, Paxos와 Raft는 그 기반 위에서 재구성되고 있다.
- 최근 연구가 보는 두 번째 병목: 다수결 quorum의 경직성과 이기종 노드 문제
Paxos와 Raft의 고전적 구현은 보통 “과반수 응답”을 기준으로 진행된다. 이 구조는 간단하고 강력하지만, 노드 간 응답 속도가 크게 다른 이기종 환경에서는 비효율을 초래할 수 있다. 특히 현대 분산 시스템은 동일한 데이터센터 내부뿐 아니라 여러 가용 영역, 여러 지역, 혹은 성능이 다른 하드웨어 위에 배치되는 경우가 많다. 이때 가장 느린 노드 몇 개가 quorum 형성 시간에 지속적으로 영향을 미치면, 전체 합의 지연이 평균 네트워크 상태보다 과도하게 나빠질 수 있다. 2025년 arXiv에 공개된 Cabinet은 이러한 문제를 겨냥해, 모든 노드를 동등하게 취급하는 대신 동적으로 가중치를 부여하는 합의 알고리즘을 제안한다. Cabinet은 failure threshold를 만족하는 범위에서 응답성이 높은 노드에 더 큰 가중치를 부여하고, 시스템 상태에 따라 이 가중치를 조정함으로써 특히 대규모·이기종 환경에서 더 나은 성능을 얻는다고 보고한다. 저자들은 MongoDB와 PostgreSQL 분산 배치 위에서 YCSB와 TPC-C 워크로드로 Raft와 비교했을 때, 규모가 커지고 네트워크가 복잡해질수록 Cabinet이 처리량과 지연 측면에서 우위를 보인다고 주장한다.
이 연구가 시사하는 바는 명확하다. 최근 합의 연구는 “quorum은 과반수면 된다”는 고전적 정의를 그대로 유지하기보다, 어떤 노드가 실제로 시스템 성능을 지탱하는 핵심 경로에 있는지까지 반영하려는 방향으로 이동하고 있다. 물론 이런 접근은 안전성 증명과 운영 복잡도를 더 어렵게 만들 수 있다. 하지만 AI 인프라처럼 노드 성능 편차가 크고, 같은 클러스터 안에서도 작업 부하에 따라 응답성이 크게 흔들리는 환경에서는 정적 다수결 구조가 비효율적일 가능성이 높다. 따라서 Cabinet 같은 연구는 단지 새로운 합의 프로토콜 하나를 추가하는 것이 아니라, 합의를 “동적인 시스템 상태에 적응하는 최적화 문제”로 다시 해석하고 있다는 점에서 의미가 크다.
이 지점에서 중요한 것은, 최근 연구가 단순히 더 빠른 알고리즘을 제시하는 데 머무르지 않는다는 점이다. 어떤 quorum 설계가 실제로 유리한지 판단하려면 성능, 가용성, 일관성, 장애 회복성, 재구성 비용을 함께 봐야 한다. 2024년 분산 조정 시스템 벤치마킹 분석은 바로 이 부분을 강하게 지적한다. 현재 많은 합의 시스템 연구가 ad-hoc 마이크로벤치마크에 의존하고 있으며, 일관성·가용성·확장성·장애 복원력 전체를 포괄하는 표준화된 평가가 부족하다는 것이다. 다시 말해 새로운 합의 알고리즘이 “빠르다”는 주장은, 무엇을 측정했고 어떤 장애 모델을 넣었으며 어떤 토폴로지를 가정했는지까지 함께 보지 않으면 쉽게 과장될 수 있다. 이는 AI 인프라에서 특히 중요하다. 학습 클러스터의 제어 평면은 정상 상태 처리량보다 장애 후 일관성 복구 시간이 더 중요한 경우가 많기 때문이다.
- 최근 연구가 보는 세 번째 병목: 평가 방법론의 빈약함과 “좋은 합의”의 재정의
합의 알고리즘 연구를 읽을 때 흔히 빠지는 함정은, 제안된 프로토콜의 메시지 수나 리더 지연만 보고 우열을 판단하는 것이다. 그러나 2024년 분석은 분산 조정 시스템의 평가는 단순 성능 벤치마크를 넘어, 성능(performance), 확장성(scalability), 가용성(availability), 일관성(consistency)을 함께 봐야 하며, 기존 벤치마크 도구들은 이러한 복합 요구를 제대로 다루지 못한다고 지적한다. 이 분석은 다양한 합의 알고리즘과 조정 서비스, 그리고 그 위에서 돌아가는 분산 애플리케이션을 검토하면서, 현재 업계와 학계가 여전히 제한적인 지표와 맞춤형 실험에 의존하는 경우가 많다고 정리한다.
이 문제는 AI 인프라 시대에 훨씬 더 심각해진다. 예를 들어 분산 학습 클러스터에서 합의 계층은 모든 스텝마다 관여하지 않을 수도 있지만, 장애 이후 체크포인트의 소유권을 어떻게 넘길지, epoch transition을 어떤 순서로 공표할지, 어느 시점의 메타데이터를 전역적으로 commit된 상태로 볼지를 결정하는 데 직접 관여할 수 있다. 이 경우 합의 프로토콜의 우수성은 단순한 평균 지연보다, “장애 직후 얼마나 빨리 시스템이 일관된 제어 상태를 회복하는가”, “부분 연결성 상황에서 잘못된 리더 선출이 얼마나 억제되는가”, “재구성 시 I/O 증폭이 얼마나 적은가” 같은 지표로 재평가되어야 한다. 실제로 AI/ML 인프라 관련 최근 작업은 대부분의 대규모 학습 클러스터가 이미 Paxos나 Raft 기반의 메타데이터 합의 서비스를 가지고 있다고 전제하고, 그 위에서 원자적 전이를 구현하는 방식을 논의한다. 이는 합의 알고리즘을 독립적인 교과서 주제가 아니라, 상위 인프라의 안전한 상태 전이 계층으로 봐야 한다는 뜻이다.
결국 최근 연구의 진짜 변화는 “더 빠른 합의”보다 “합의를 무엇으로 평가할 것인가”의 변화에 있다. 부분 연결성, 이기종 노드, 다지역 배치, 제어 평면 복구, AI 클러스터 메타데이터 일관성 같은 현실 문제가 들어오면서, 좋은 합의 알고리즘의 정의 자체가 더 입체적으로 바뀌고 있다. Paxos와 Raft는 여전히 핵심 출발점이지만, 최신 연구는 이 둘을 고정된 답으로 보는 대신, 어떤 시스템 목표에 맞춰 어떻게 변형·보완·재조합할 것인가를 중심으로 전개된다.
- Paxos/Raft 이후를 읽는 관점: BFT, DAG, 그리고 AI 시대의 제어 평면
최근 합의 연구를 Paxos와 Raft 주변에서만 보면 중요한 변화를 놓치기 쉽다. 2024년의 대규모 리뷰는 분산 합의가 crash fault tolerance를 넘어 Byzantine fault tolerance(BFT), 부분 동기 네트워크, DAG 기반 합의 메커니즘까지 확장되어 왔다고 정리한다. 특히 PBFT 계열은 악의적 장애에 대한 강인성을, DAG 계열은 높은 병렬성과 처리량을 겨냥한다. 물론 AI 인프라의 대부분은 전통적으로 crash fault 모델에 더 가깝지만, 공급망 공격, 잘못된 펌웨어 배포, 제어 메시지 위변조, 멀티테넌트 환경의 오동작 가능성을 고려하면 BFT 계열 연구도 점점 더 무관한 주제가 아니게 된다. 실제 2026년의 Raft 보안 취약성 분석도, Raft가 주로 fail-stop 모델을 가정하기 때문에 메시지 위조나 재전송 공격 같은 적대적 상황에 충분히 대비하지 못할 수 있음을 지적한다.
여기서 중요한 것은 모든 AI 시스템이 곧바로 BFT 합의를 써야 한다는 뜻이 아니라, 앞으로의 제어 평면은 단순한 성능 중심 crash-fault 합의만으로 설명하기 어려워질 수 있다는 점이다. 예를 들어 대규모 모델 배포나 체크포인트 롤백, 펌웨어 전환, 스케줄러 리더 교체처럼 “한 번 잘못 합의되면 전체 시스템에 큰 손실을 주는 상태 전이”에서는, 안전성 요구가 기존 데이터베이스 리더 선출보다 훨씬 까다로울 수 있다. 따라서 AI 인프라 시대의 합의 연구는 Paxos와 Raft를 기본 뼈대로 삼되, 부분 연결성 대응, 동적 quorum, 보안 강화, 재구성 최적화 같은 연구들을 함께 흡수하는 방향으로 갈 가능성이 높다.
Paxos와 Raft는 끝난 알고리즘이 아니라, 최근 분산 시스템 연구가 여전히 되돌아오는 핵심 기준점이다. 다만 최신 흐름은 “Paxos냐, Raft냐”를 묻는 수준을 넘어서, 부분 연결성 하에서 어떻게 회복성을 확보할 것인가, 이기종 환경에서 quorum을 어떻게 더 유연하게 구성할 것인가, 그리고 AI 인프라의 제어 평면처럼 특수한 상위 시스템 요구를 어떤 합의 구조로 받쳐줄 것인가를 더 본격적으로 묻고 있다. Omni-Paxos는 부분 연결성에 대한 회복성을, Cabinet은 동적 가중 quorum을, 최근 AI/ML 인프라 연구는 합의 계층의 제어 평면 역할을 각각 강조한다. 동시에 2024년의 평가 분석은, 이러한 주장을 비교 가능하게 만들 표준화된 방법론이 아직 충분히 성숙하지 않았음을 보여준다.
따라서 앞으로 합의 알고리즘을 이해하는 가장 좋은 방법은, Paxos와 Raft를 각각 하나의 완성된 답으로 외우는 것이 아니라 “어떤 시스템 병목을 해결하려고 어떤 설계 요소를 바꾸는가”라는 관점으로 읽는 것이다. 이 관점에서 보면 최근 연구는 단순히 더 복잡한 알고리즘을 추가하는 것이 아니라, 합의 문제를 더 현실적인 인프라 맥락 속으로 다시 끌어들이고 있다. AI 시대의 분산 시스템이 커질수록, 합의 알고리즘은 백엔드의 숨은 기본기에서 벗어나 인프라 설계의 핵심 경쟁력으로 더 자주 호출될 가능성이 크다. Paxos와 Raft는 그 출발점이며, 최신 연구들은 그 위에 새로운 운영 현실을 차곡차곡 덧붙이고 있다고 보는 편이 가장 정확하다.