pdsdpo
/

PDS-DPO-7B

@@ -35,12 +35,10 @@ PDS-DPO-7B is a vision-language model built upon LLaVA 1.5 7B and trained using
 ## Citation
 ```bibtex
-@misc{wijaya2024multimodalpreferencedatasynthetic,
-      title={Multimodal Preference Data Synthetic Alignment with Reward Model},
-      author={Robert Wijaya and Ngoc-Bao Nguyen and Ngai-Man Cheung},
-      year={2024},
-      eprint={2412.17417},
-      archivePrefix={arXiv},
-      primaryClass={cs.CV}
 }
 ```

 ## Citation
 ```bibtex
+@article{wijaya2024multimodal,
+  title={Multimodal Preference Data Synthetic Alignment with Reward Model},
+  author={Wijaya, Robert and Nguyen, Ngoc-Bao and Cheung, Ngai-Man},
+  journal={arXiv preprint arXiv:2412.17417},
+  year={2024}
 }
 ```