대규모 언어모델이 다양한 자연어 처리 작업에서 인간 수준의 성능을 보이기 시작하면서, 단순한 성능 향상을 넘어 모델의 출력이 인간의 의도와 얼마나 일치하는지에 대한 문제가 중요한 연구 주제로 부상하였다. 특히 모델이 생성하는 텍스트가 사실과 다르거나, 유해하거나, 비윤리적인 방향으로 생성될 가능성이 존재하면서 “정렬(Alignment)” 문제는 AI 시스템의 신뢰성과 직결되는 핵심 이슈로 자리 잡았다. 이러한 문제를 해결하기 위한 대표적인 접근 방식이 Reinforcement Learning from Human Feedback(RLHF)이다. RLHF는 인간의 선호(preference)를 학습하여 모델의 출력 분포를 조정하는 방법으로, 기존의 지도학습(supervised learning)만으로는 해결하기 어려운 미묘한 품질 차이를 반영할 수 있다. 본 글에서는 RLHF의 전체 학습 파이프라인을 구성하는 세 가지 단계—Supervised Fine-Tuning, Reward Modeling, Policy Optimization—를 중심으로, 그 이론적 기반과 실제 적용 메커니즘을 분석하고, Alignment 문제 해결에서의 한계와 최신 연구 방향을 함께 고찰한다.
1. Supervised Fine-Tuning(SFT)을 통한 초기 정책 형성
RLHF의 첫 단계는 Supervised Fine-Tuning(SFT)으로, 사전학습(pretraining)된 언어모델을 인간이 작성한 고품질 데이터에 맞추어 미세조정하는 과정이다. 이 단계에서는 입력(prompt)에 대해 사람이 작성한 이상적인 응답(response)을 모델이 모방하도록 학습된다. 이는 정책(policy)의 초기 상태를 정의하는 과정으로 볼 수 있으며, 이후 강화학습 단계에서 안정적인 출발점을 제공한다. SFT는 일반적으로 cross-entropy loss를 사용하여 학습되며, 모델이 문법적으로 올바르고 의미적으로 일관된 문장을 생성하도록 한다. 그러나 이 단계에서는 인간의 “선호”가 아니라 “정답”을 기준으로 학습이 이루어지기 때문에, 미묘한 품질 차이나 스타일 차이를 반영하기에는 한계가 존재한다. 따라서 SFT는 RLHF 전체 파이프라인에서 필수적이지만, 단독으로는 Alignment 문제를 해결하기 어렵다.
2. Reward Model(RM) 학습과 인간 선호의 수치화
두 번째 단계는 Reward Model(RM)을 학습하는 과정으로, 인간의 선호를 수치화하여 모델이 학습할 수 있도록 변환하는 핵심 단계이다. 일반적으로 동일한 prompt에 대해 여러 개의 응답을 생성하고, 인간 평가자가 이를 비교하여 더 나은 응답을 선택하는 방식으로 데이터가 수집된다. 이러한 pairwise preference 데이터는 Bradley-Terry 모델과 같은 확률 모델을 통해 학습되며, 각 응답에 대해 scalar reward 값을 출력하는 신경망으로 구현된다. Reward Model은 이후 강화학습 단계에서 정책의 업데이트 방향을 결정하는 기준이 되므로, 그 품질이 전체 RLHF 성능에 직접적인 영향을 미친다. 그러나 인간의 선호는 주관적이며, 평가 기준이 일관되지 않을 수 있기 때문에 Reward Model은 본질적으로 불완전한 근사치에 불과하다. 이로 인해 reward hacking이나 over-optimization 문제가 발생할 수 있으며, 이는 RLHF의 주요 한계 중 하나로 지적된다.
3. Policy Optimization과 PPO 기반 강화학습
세 번째 단계는 Reward Model을 활용하여 정책을 최적화하는 강화학습 단계이다. 이 과정에서는 Proximal Policy Optimization(PPO) 알고리즘이 널리 사용된다. PPO는 기존 정책과 새로운 정책 간의 차이를 제한하여 학습 안정성을 확보하는 알고리즘으로, KL divergence를 이용한 regularization이 핵심 요소이다. 구체적으로, 모델이 생성한 응답에 대해 Reward Model이 부여한 점수를 최대화하면서도, 기존 정책과 크게 벗어나지 않도록 업데이트가 이루어진다. 이는 언어모델이 갑작스럽게 비정상적인 출력을 생성하는 것을 방지하는 역할을 한다. 또한 entropy bonus를 추가하여 출력 다양성을 유지하는 기법도 함께 사용된다. 이러한 정책 최적화 과정은 반복적으로 수행되며, 점진적으로 인간 선호에 부합하는 출력 분포를 형성하게 된다.
4. Alignment 문제와 RLHF의 구조적 한계
RLHF는 효과적인 Alignment 방법으로 널리 사용되고 있지만, 몇 가지 근본적인 한계를 가지고 있다. 첫째, Reward Model이 인간 선호를 완벽하게 반영하지 못하기 때문에, 모델이 reward를 “속이는” 방향으로 학습될 수 있다. 둘째, 인간 평가 데이터 수집 비용이 매우 높으며, 대규모 모델에 적용하기 위해서는 막대한 인력이 필요하다. 셋째, RLHF는 주로 단기적인 출력 품질을 최적화하는 데 초점을 맞추기 때문에, 장기적인 일관성이나 사실성(factuality)을 보장하기 어렵다. 이러한 한계를 해결하기 위해 Direct Preference Optimization(DPO), Constitutional AI, Reinforcement Learning with AI Feedback(RLAIF)와 같은 새로운 접근 방식이 제안되고 있다. 특히 DPO는 강화학습 없이도 preference 데이터를 직접 활용하여 정책을 최적화할 수 있는 방법으로 주목받고 있다.
5. 시스템적 관점에서의 RLHF 확장과 비용 문제
RLHF는 단순한 알고리즘이 아니라, 대규모 시스템 설계와 밀접하게 연결된 문제이다. Reward Model과 Policy Model을 동시에 학습해야 하며, 각 단계마다 대량의 GPU 자원이 필요하다. 또한 인간 평가 데이터를 수집하고 관리하는 데이터 파이프라인 역시 중요한 요소이다. 최근에는 offline RLHF, synthetic data generation, active learning 등을 활용하여 비용을 줄이려는 연구가 진행되고 있다. 특히 AI 모델이 생성한 데이터를 다시 학습에 활용하는 self-improving loop 구조는 RLHF의 확장성을 높이는 중요한 방향으로 평가된다. 이러한 시스템적 고려는 RLHF를 실제 서비스에 적용하는 데 있어 필수적인 요소이다.
결론
Reinforcement Learning from Human Feedback는 대규모 언어모델을 인간의 의도에 맞게 조정하기 위한 핵심 기술로, Alignment 문제 해결에 중요한 역할을 하고 있다. SFT, Reward Modeling, Policy Optimization으로 구성된 학습 파이프라인은 인간 선호를 효과적으로 반영할 수 있는 구조를 제공하지만, 동시에 reward 모델의 한계와 높은 비용 문제라는 도전 과제를 안고 있다. 향후 연구는 이러한 한계를 극복하고, 보다 안정적이고 효율적인 정렬 방법을 개발하는 방향으로 진행될 것으로 예상된다. 결국 RLHF는 단순한 학습 기법을 넘어, 인간과 AI의 상호작용을 설계하는 중요한 프레임워크로 자리 잡고 있으며, 앞으로의 AI 발전에 있어 핵심적인 역할을 수행할 것이다.