👨🏽‍💻 Title & Authors (Affiliation)

✍🏼 한 줄 요약

RLAIF 가 RLHF보다 성능이 좋을 수 있음을 3개 Generation Tasks(요약, harmless, helpfulness dialogue)에 대해서 테스트

인간 대신 preference를 평가 할 모델로 FLAN을 사용
LLM에게 평가 할 때 입력했던 Prompt 예시
- 예시에와 같은 경우 실제로 1, 2를 생성했는지 본 게 아니라, 1과 2를 생성할 확률을 구한거다
- 아니면 “The first response is better” 처럼 여러 문장을 써서 구할 수 있다.
- 레이블 순서에 대한 Bias를 없애기 위에 순서를 바꿔서 두번 넣었고, 평균을 내서 답을 구했음
CoT도 시험
Distilled RLAIF
- RM 학습시 soft label 사용, like [0.6, 0.4], 그 다음 Cross Entropy Loss 사용
- We note that traininga RM on a dataset of AI labels can be viewed as a form of model distillation.
- 그 다음 Policy를 RM으로 학습하는데, 방식은 뭐지?
Direct RLAIF
- 또 다른 방식
- LLM을 RM으로 활용하기 때문에 RM 학습을 안 할 수 있음
- 단, LLM이 RM보다 크면 너무 오래 걸릴 수도?
- LLM에게 Prompt를 적절히 주고, 1~10까지 Score를 매기도록 하고 Normalize 하여 학습에 활용함
모델
- PaLM2 (Googleetal.,2023) isused as the LLM for labeling preferences.
- Extra Small PaLM2 -> SFT로 사용
- 요약만 XS PaLM2를 TL;DR 데이터에 학습, 나머지는 an instructiontuned variant of PaLM2를 썼다는데 이게 뭘까?
- RM -> XS PaLM2 사용
RL Phase
- PPO 대신 REINFORCE 사용. 그러나 Actor Critic을 쓰긴 함.
- Data는 얼마나 쓴거지?

Datasets
- RedditTL;DR
- Open AI’s Human Preferences
- Anthropic Helpfuland Harmless Human Preferences
- 인간에게 명확하게 좋은 답변이 있는 샘플만 골라서, 3-4k examples for each task
summarization(Reddit TL;DR), helpful dialogue generation, harmless dialogue generation Dataset에서 테스트 진행
AI Labeler Alignment, Win Rate, Harmless Rate로 측정
- 전반적으로 RLAIF가 RLHF와 비슷하거나 우세한 것으로 나타남
- Direct RLAIF가 RLHF보다 더 우세한 것으로 나타남
- same-size 는 Policy와 RM이 동일한 사이즈라는 건데, RM의 사이즈가 Policy보다 크면 성능 향상이 있다는 말.
The AI labeler is the instruction-tuned PaLM2 XS, where as the initial policy is PaLM2 XS fine-tuned on Reddit TL;DR summarization