YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
bert4sl_punct_zh_public
时间(time)
2024.6
训练数据构成(dataset)
使用高质量语料过滤而成, 收集高质量语料, 并使用PPL过滤等;
- chinese-poetry/chinese-poetry
- chinese-poetry/huajianji
- garychowcmu/daizhigev20
- yangjianxin1/Firefly
- 学习强国428万数据; 国内源Macropodus/xuexiqiangguo_428w
- xi_talk40万; 国内源Papersnake/xi_talk
- [qwen-7b生成的100万好句]
- [人民日报语料2000万]
训练说明
每种标点的最大句子数为10万, 总计500万训练句子, 训练3epoch;
- Downloads last month
- 12