Skip Navigation

AI / Machine Learning @compuverse.uk manitcor @lemmy.intai.tech 1y ago

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

cross-posted from: https://lemmy.intai.tech/post/17988

https://arxiv.org/pdf/2305.18290.pdf

Machine Learning - Theory | Research @lemmy.intai.tech manitcor @lemmy.intai.tech 1y ago

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

3 0

0 comments