Skip Navigation

Machine Learning - Theory | Research @lemmy.intai.tech manitcor @lemmy.intai.tech 1y ago

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

https://arxiv.org/pdf/2305.18290.pdf

AI / Machine Learning @compuverse.uk manitcor @lemmy.intai.tech 1y ago

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

2 0

0 comments