[Paper Review] RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback

Harrison Lee etc., Google research
[Paper Review] RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback

👨🏽‍💻 Title & Authors (Affiliation)

  • RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback
  • Harrison Lee, Google research
  • 23.09

✍🏼 한 줄 요약

  • RLAIF 가 RLHF보다 성능이 좋을 수 있음을 3개 Generation Tasks(요약, harmless, helpfulness dialogue)에 대해서 테스트

🔒 Problem

  • 돈이 많이 드는 RLHF보다 RLAIF(like Constitutional AI)를 써보자.
  • 이전의 CAI에서는 Human + AI의 하이브리드 레이블링 이었다면, 이 논문에서는 human vs AI Labler의 직접적인 비교 진행

🔑 Main Ideas

  • 인간 대신 preference를 평가 할 모델로 FLAN을 사용
  • LLM에게 평가 할 때 입력했던 Prompt 예시
    • image
    • 예시에와 같은 경우 실제로 1, 2를 생성했는지 본 게 아니라, 1과 2를 생성할 확률을 구한거다
    • 아니면 “The first response is better” 처럼 여러 문장을 써서 구할 수 있다.
    • 레이블 순서에 대한 Bias를 없애기 위에 순서를 바꿔서 두번 넣었고, 평균을 내서 답을 구했음
  • CoT도 시험
    • image
  • Distilled RLAIF
    • RM 학습시 soft label 사용, like [0.6, 0.4], 그 다음 Cross Entropy Loss 사용
    • We note that traininga RM on a dataset of AI labels can be viewed as a form of model distillation.
    • 그 다음 Policy를 RM으로 학습하는데, 방식은 뭐지?
  • Direct RLAIF
    • 또 다른 방식
    • LLM을 RM으로 활용하기 때문에 RM 학습을 안 할 수 있음
    • 단, LLM이 RM보다 크면 너무 오래 걸릴 수도?
    • LLM에게 Prompt를 적절히 주고, 1~10까지 Score를 매기도록 하고 Normalize 하여 학습에 활용함
  • 모델
    • PaLM2 (Googleetal.,2023) isused as the LLM for labeling preferences.
    • Extra Small PaLM2 -> SFT로 사용
    • 요약만 XS PaLM2를 TL;DR 데이터에 학습, 나머지는 an instructiontuned variant of PaLM2를 썼다는데 이게 뭘까?
    • RM -> XS PaLM2 사용
  • RL Phase
    • PPO 대신 REINFORCE 사용. 그러나 Actor Critic을 쓰긴 함.
    • Data는 얼마나 쓴거지?

📈 Results

  • Datasets
    • RedditTL;DR
    • Open AI’s Human Preferences
    • Anthropic Helpfuland Harmless Human Preferences
    • 인간에게 명확하게 좋은 답변이 있는 샘플만 골라서, 3-4k examples for each task
  • summarization(Reddit TL;DR), helpful dialogue generation, harmless dialogue generation Dataset에서 테스트 진행
  • AI Labeler Alignment, Win Rate, Harmless Rate로 측정
  • image
  • image
    • 전반적으로 RLAIF가 RLHF와 비슷하거나 우세한 것으로 나타남
    • Direct RLAIF가 RLHF보다 더 우세한 것으로 나타남
    • same-size 는 Policy와 RM이 동일한 사이즈라는 건데, RM의 사이즈가 Policy보다 크면 성능 향상이 있다는 말.
  • The AI labeler is the instruction-tuned PaLM2 XS, where as the initial policy is PaLM2 XS fine-tuned on Reddit TL;DR summarization

Limitations

  • 3개 Task에 대해서만 평가 한게 아쉽다.

✏️ Conclusion

  • RLAIF 가 RLHF보다 나을 수 있다.
  • LLM을 직접 RM으로 쓰는 방식이 더 좋았다 (Direct RLAIF).
  • Policy와 RM으로 사용하는 LLM의 사이즈가 같아도 효과가 있다, RM의 사이즈가 더 크면 좋긴 함.

❔ Questions

  • PaLM2 XS가 얼마나 작은건지?
  • Instruciton Tuning은 어떤 데이터로 한거냐, FLAN?