Paper AI

•12 Dec, 2023

[Paper Review] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Avi Singh etc., Deep Mind

Hits

[Paper Review] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

👨🏽‍💻 Title & Authors (Affiliation)

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Avi Singh etc., Deep Mind
23.12

🔒 Problem

일반적으로 LM을 학습 할 때, 양질의 human-generated data가 필요하고, 그 양이나 퀄러티에 따라서 LM의 성능이 크게 차이가 난다.
Model Generated Data를 사용해서 인간이 만든 데이터로 학습 할 때보다 더 좋은 성능을 낼 수 없을까?

🔑 Main Ideas

두 가지 Step으로 진행
- 1) Generate: Model로 하여금 여러 output을 generate 하고 binary reward를 통해서 filtering 함.
- 2) Improve: Generate Step에서 모은 데이터로 SFT 학습
비슷한 Approach 들이 과거에도 있었으나, 이 논문에서는 scaling에 초점을 맞춰서 연구
또한 비교적 덜 알려진 2가지 도메인에 대해서 평가함 : competition-level MATH problems, code generate(APPS)
추가로 General 한 능력을 평가하기 위해 Big-BenchHard 사용
Models : PaLM2 등

📈 Results

위 그래프를 보면 PaLM 2보다 PaLM2-ReST가 훨씬 점수가 높은 것을 볼 수 있음.

Limitations

MATH와 APPS 데이터를 선택한 이유는 둘 다 자동으로 채점이 가능함. 따라서 Binary Reward로 채점이 가능
그렇다면 자동으로 채점이 불가능한 Task에 대해서도 이런 내용을 적용이 가능한지?

✏️ Conclusion

모델이 직접 수학이나 코딩 같은 문제를 풀게 하고, 어쩌다가 정답을 맞추면 거기에 대한 Reward를 받아서 걔로 학습(SFT).
Rejection Sampling이랑 유사한데, Binary Reward에서 다른 점이 있음
근데 자동으로 Evaluation 되는 문제이기 때문에, Reward Model이 필요 없음
그리고 나서 이 모델을 general 영역으로 Transfer 하는 것이 가능

❔ Questions

Binary는 아니더라도, 요약/번역과 같은 자동 채점 기능이 가능한 Task에 대해서 동일한 방식을 적용해서 Reasoning 능력을 높이고, 그 후에 General Domain으로 Transfer learning 할 수 있을까?

[Paper Review] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Older post

[사주 공부] 사전 개념 강의(1) - 하도와 낙서

Newer post

[Paper Review] RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback

[Paper Review] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Related

View all

Paper AI

•15 Jun, 2024

[Paper Review] Tiny Time Mixers(TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivaraiate Time Series

Paper AI

•06 Mar, 2024

[Paper Review] (작성중) 2402 Instruction-tuned Language Models are Better Knowledge Learners

Paper AI

•21 Feb, 2024

[Paper Review] Gemma: Open Models Based on Gemini Research and Technology

Paper AI

•18 Feb, 2024

[Paper Review] 2402 Chain-of-Thought Reasoning Without Prompting