yueqin yin's picture

3 1 1

yueqin yin

yyqoni

AI & ML interests

None yet

Recent Activity

updated a collection 8 days ago

DenseRewardRLHF-PPO

updated a model 8 days ago

yyqoni/Phi-3-mini-4k-bandit-ppo-60k

upvoted a paper 9 days ago

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

View all activity

Organizations

Collections 1

Papers 4

arxiv:2501.02790

arxiv:2402.10958

arxiv:2310.05400

arxiv:2203.17266

models 19

yyqoni/Phi-3-mini-4k-bandit-ppo-60k

Text Generation • Updated 8 days ago • 11

yyqoni/rlhflow-llama-3-sft-8b-v2-token-ppo-60k

Text Generation • Updated 10 days ago • 15

yyqoni/rlhflow-llama-3-sft-8b-v2-bandit-ppo-60k

Text Generation • Updated 10 days ago • 14

yyqoni/meta-llama-3.1-instruct-8b-bandit-ppo-60k

Text Generation • Updated 10 days ago • 16

yyqoni/meta-llama-3.1-instruct-8b-token-ppo-60k

Text Generation • Updated 10 days ago • 12

yyqoni/Phi-3-mini-4k-token-ppo-60k

Text Generation • Updated 10 days ago • 13

yyqoni/meta-llama-3.1-instruct-8b-segment-ppo-60k

Text Generation • Updated 10 days ago • 9

yyqoni/rlhflow-llama-3-sft-8b-v2-segment-ppo-60k

Text Generation • Updated 10 days ago • 15

yyqoni/Phi-3-mini-4k-segment-ppo-60k

Text Generation • Updated 10 days ago • 12

yyqoni/meta-llama-3.1-instruct-8b-bandit-rm-700k

Text Classification • Updated 10 days ago • 11

datasets

None public yet