👨🏽💻 Title & Authors (Affiliation)
- RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback
- Harrison Lee, Google research
- 23.09
✍🏼 한 줄 요약
- RLAIF 가 RLHF보다 성능이 좋을 수 있음을 3개 Generation Tasks(요약, harmless, helpfulness dialogue)에 대해서 테스트
🔒 Problem
- 돈이 많이 드는 RLHF보다 RLAIF(like Constitutional AI)를 써보자.
- 이전의 CAI에서는 Human + AI의 하이브리드 레이블링 이었다면, 이 논문에서는 human vs AI Labler의 직접적인 비교 진행
🔑 Main Ideas
- 인간 대신 preference를 평가 할 모델로 FLAN을 사용
- LLM에게 평가 할 때 입력했던 Prompt 예시
- 예시에와 같은 경우 실제로 1, 2를 생성했는지 본 게 아니라, 1과 2를 생성할 확률을 구한거다
- 아니면 “The first response is better” 처럼 여러 문장을 써서 구할 수 있다.
- 레이블 순서에 대한 Bias를 없애기 위에 순서를 바꿔서 두번 넣었고, 평균을 내서 답을 구했음
- CoT도 시험
- Distilled RLAIF
- RM 학습시 soft label 사용, like [0.6, 0.4], 그 다음 Cross Entropy Loss 사용
- We note that traininga RM on a dataset of AI labels can be viewed as a form of model distillation.
- 그 다음 Policy를 RM으로 학습하는데, 방식은 뭐지?
- Direct RLAIF
- 또 다른 방식
- LLM을 RM으로 활용하기 때문에 RM 학습을 안 할 수 있음
- 단, LLM이 RM보다 크면 너무 오래 걸릴 수도?
- LLM에게 Prompt를 적절히 주고, 1~10까지 Score를 매기도록 하고 Normalize 하여 학습에 활용함
- 모델
- PaLM2 (Googleetal.,2023) isused as the LLM for labeling preferences.
- Extra Small PaLM2 -> SFT로 사용
- 요약만 XS PaLM2를 TL;DR 데이터에 학습, 나머지는 an instructiontuned variant of PaLM2를 썼다는데 이게 뭘까?
- RM -> XS PaLM2 사용
- RL Phase
- PPO 대신 REINFORCE 사용. 그러나 Actor Critic을 쓰긴 함.
- Data는 얼마나 쓴거지?
📈 Results
- Datasets
- RedditTL;DR
- Open AI’s Human Preferences
- Anthropic Helpfuland Harmless Human Preferences
- 인간에게 명확하게 좋은 답변이 있는 샘플만 골라서, 3-4k examples for each task
- summarization(Reddit TL;DR), helpful dialogue generation, harmless dialogue generation Dataset에서 테스트 진행
- AI Labeler Alignment, Win Rate, Harmless Rate로 측정
- 전반적으로 RLAIF가 RLHF와 비슷하거나 우세한 것으로 나타남
- Direct RLAIF가 RLHF보다 더 우세한 것으로 나타남
- same-size 는 Policy와 RM이 동일한 사이즈라는 건데, RM의 사이즈가 Policy보다 크면 성능 향상이 있다는 말.
- The AI labeler is the instruction-tuned PaLM2 XS, where as the initial policy is PaLM2 XS fine-tuned on Reddit TL;DR summarization
Limitations
- 3개 Task에 대해서만 평가 한게 아쉽다.
✏️ Conclusion
- RLAIF 가 RLHF보다 나을 수 있다.
- LLM을 직접 RM으로 쓰는 방식이 더 좋았다 (Direct RLAIF).
- Policy와 RM으로 사용하는 LLM의 사이즈가 같아도 효과가 있다, RM의 사이즈가 더 크면 좋긴 함.
❔ Questions
- PaLM2 XS가 얼마나 작은건지?
- Instruciton Tuning은 어떤 데이터로 한거냐, FLAN?