Paper Reading 4

Distributionally Robust Optimization For Language Modeling Jul 30, 2024
Optimizing Language Models for Human Preferences is a Causal Inference Problem Jun 16, 2024
Token-level Direct Preference Optimization Jun 2, 2024
SimPO: Simple Preference Optimization with a Reference-Free Reward Jun 2, 2024