pdsdpo
/

PDS-DPO-7B

@@ -35,10 +35,12 @@ PDS-DPO-7B is a vision-language model built upon LLaVA 1.5 7B and trained using
 ## Citation
 ```bibtex
-@article{2024pdsdpo
-title={Multimodal Preference Data Synthetic Alignment with Reward Model},
-author={},
-journal={},
-year={}
 }
 ```

 ## Citation
 ```bibtex
+@misc{wijaya2024multimodalpreferencedatasynthetic,
+      title={Multimodal Preference Data Synthetic Alignment with Reward Model},
+      author={Robert Wijaya and Ngoc-Bao Nguyen and Ngai-Man Cheung},
+      year={2024},
+      eprint={2412.17417},
+      archivePrefix={arXiv},
+      primaryClass={cs.CV}
 }
 ```