maiduchuy321 commited on
Commit
d011ed0
·
verified ·
1 Parent(s): 59b41b7

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,735 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: bkai-foundation-models/vietnamese-bi-encoder
3
+ language:
4
+ - vn
5
+ library_name: sentence-transformers
6
+ license: apache-2.0
7
+ metrics:
8
+ - cosine_accuracy@1
9
+ - cosine_accuracy@3
10
+ - cosine_accuracy@5
11
+ - cosine_accuracy@10
12
+ - cosine_precision@1
13
+ - cosine_precision@3
14
+ - cosine_precision@5
15
+ - cosine_precision@10
16
+ - cosine_recall@1
17
+ - cosine_recall@3
18
+ - cosine_recall@5
19
+ - cosine_recall@10
20
+ - cosine_ndcg@10
21
+ - cosine_mrr@10
22
+ - cosine_map@100
23
+ pipeline_tag: sentence-similarity
24
+ tags:
25
+ - sentence-transformers
26
+ - sentence-similarity
27
+ - feature-extraction
28
+ - generated_from_trainer
29
+ - dataset_size:107510
30
+ - loss:MatryoshkaLoss
31
+ - loss:MultipleNegativesRankingLoss
32
+ widget:
33
+ - source_sentence: '" điều 8. loại dự_án đầu_tư xây_dựng nhà ở được thế_chấp vay vốn
34
+ tại tổ_chức tín_dụng dự_án đầu_tư xây_dựng nhà ở được thế_chấp để vay vốn theo
35
+ quy_định tại thông_tư này là một trong các dự_án đầu_tư xây_dựng nhà ở quy_định
36
+ tại khoản 2 điều 17 luật nhà ở , bao_gồm : 1. dự_án đầu_tư xây_dựng mới hoặc cải_tạo
37
+ một công_trình nhà ở độc_lập hoặc một cụm công_trình nhà ở. 2. dự_án đầu_tư xây_dựng
38
+ khu nhà ở có hệ_thống hạ_tầng kỹ_thuật và hạ_tầng xã_hội_đồng_bộ tại khu_vực nông_thôn.
39
+ 3. dự_án đầu_tư xây_dựng khu đô_thị hoặc dự_án sử_dụng đất hỗn_hợp mà có dành
40
+ diện_tích đất trong dự_án để xây_dựng nhà ở. 4. dự_án đầu_tư xây_dựng công_trình
41
+ có mục_đích sử_dụng hỗn_hợp để ở và kinh_doanh. "'
42
+ sentences:
43
+ - vợ là người nước_ngoài thì làm giấy khai_sinh cho con ở đâu ?
44
+ - dụng_cụ tiếp_xúc với da nguyên_vẹn có_thể áp_dụng biện_pháp khử khuẩn ở mức_độ
45
+ nào ?
46
+ - những dự_án đầu_tư xây_dựng nhà ở nào được phép thế_chấp vay vốn tại tổ_chức tín_dụng
47
+ ?
48
+ - source_sentence: 'hồ_sơ_khai thuế … 3. người nộp thuế không phải nộp hồ_sơ_khai
49
+ thuế trong các trường_hợp sau đây : … b ) cá_nhân có thu_nhập được miễn thuế theo
50
+ quy_định của pháp_luật về thuế thu_nhập cá_nhân và quy_định tại điểm b khoản 2
51
+ điều 79 luật quản_lý thuế_trừ cá_nhân nhận thừa_kế , quà tặng là bất_động_sản.
52
+ chuyển_nhượng bất_động_sản. … hồ_sơ_khai thuế của tổ_chức , cá_nhân trả thu_nhập
53
+ khấu_trừ thuế đối_với tiền_lương , tiền công … căn_cứ các quy_định nêu trên ,
54
+ chỉ trường_hợp tổ_chức , cá_nhân phát_sinh trả thu_nhập chịu thuế thu_nhập cá_nhân
55
+ mới thuộc diện phải khai thuế thu_nhập cá_nhân. do đó , trường_hợp tổ_chức , cá_nhân
56
+ không phát_sinh trả thu_nhập chịu thuế thu_nhập cá_nhân thì không thuộc diện điều_chỉnh
57
+ của luật thuế thu_nhập cá_nhân. theo đó , tổ_chức , cá_nhân không phát_sinh trả
58
+ thu_nhập chịu thuế thu_nhập cá_nhân tháng / quý nào thì không phải khai thuế thu_nhập
59
+ cá_nhân của tháng / quý đó … về khai thuế , tính thuế. về khai thuế thu_nhập cá_nhân
60
+ và thuế , các khoản thu khác của hộ kinh_doanh , cá_nhân cho thuê tài_sản a )
61
+ về hồ_sơ_khai thuế : điểm mới 1 : sửa_đổi quy_định tổ_chức , cá_nhân trả thu_nhập
62
+ không phát_sinh khấu_trừ thuế thu_nhập cá_nhân theo tháng , quý thì vẫn phải khai
63
+ thuế ( điểm b khoản 3 điều 7 ). trước đây : theo quy_định tại điểm a. 1 khoản
64
+ 1 điều 16 thông_tư số 156 / 2013 / tt - btc ngày 6 / 11 / 2013 thì tổ_chức , cá_nhân
65
+ trả thu_nhập không phát_sinh khấu_trừ thuế thu_nhập cá_nhân theo tháng , quý thì
66
+ không phải khai thuế'
67
+ sentences:
68
+ - trường_hợp nào sử_dụng tác_phẩm đã công_bố không phải xin phép nhưng phải trả_thù_lao
69
+ ?
70
+ - mục_tiêu để học_sinh trung_cấp sư_phạm học chương_trình giáo_dục quốc_phòng và
71
+ an_ninh là gì ?
72
+ - không phát_sinh thuế thu_nhập cá_nhân có phải nộp tờ khai không ?
73
+ - source_sentence: 'thẩm_quyền xử_phạt 1. thanh_tra khoa_học và công_nghệ có thẩm_quyền
74
+ xử_phạt các hành_vi vi_phạm_quy_định tại chương ii của nghị_định này. thẩm_quyền
75
+ xử_phạt của thanh_tra khoa_học và công_nghệ 1. thanh_tra viên thuộc thanh_tra
76
+ bộ khoa_học và công_nghệ , thanh_tra sở khoa_học và công_nghệ đang thi_hành công_vụ
77
+ có quyền : a ) phạt cảnh_cáo. b ) phạt tiền đến 500. 000 đồng. c ) tịch_thu tang_vật
78
+ , phương_tiện vi_phạm hành_chính có giá_trị không vượt quá 1. 000. 000 đồng. d
79
+ ) áp_dụng biện_pháp khắc_phục hậu_quả quy_định tại điểm d khoản 3 điều 3 của nghị_định
80
+ này. quy_định về mức phạt tiền tối_đa , thẩm_quyền xử_phạt đối_với cá_nhân , tổ_chức.
81
+ 2. thẩm_quyền xử_phạt vi_phạm hành_chính của những người được quy_định tại các
82
+ điều từ 16 đến 21 của nghị_định này là thẩm_quyền áp_dụng đối_với một hành_vi
83
+ vi_phạm hành_chính của cá_nhân. trong trường_hợp phạt tiền , thẩm_quyền xử_phạt
84
+ đối_với tổ_chức gấp 02 lần thẩm_quyền xử_phạt đối_với cá_nhân'
85
+ sentences:
86
+ - thanh_tra viên thuộc thanh_tra bộ khoa_học và công_nghệ có quyền xử_phạt tổ_chức
87
+ đại_diện sở_hữu công_nghiệp làm sai_lệch nội_dung chứng_chỉ hành_nghề không ?
88
+ - nguồn tài_chính từ nguồn thu hoạt_động sự_nghiệp có phải là một trong các nguồn
89
+ của đơn_vị sự_nghiệp công_lập không ?
90
+ - hội_đồng tư_vấn tuyển_chọn thực_hiện nhiệm_vụ khoa_học cấp_bộ của bộ tư_pháp có
91
+ những trách_nhiệm gì ?
92
+ - source_sentence: '" 1. đầu_tư chương_trình , dự_án kết_cấu_hạ_tầng kinh_tế - xã_hội.
93
+ trường_hợp thật_sự cần_thiết tách riêng việc bồi_thường , hỗ_trợ , tái_định_cư
94
+ , giải_phóng mặt_bằng thành dự_án độc_lập , đối_với dự_án quan_trọng quốc_gia
95
+ do quốc_hội xem_xét , quyết_định. đối_với dự_án nhóm a do thủ_tướng chính_phủ
96
+ , hội_đồng nhân_dân cấp tỉnh xem_xét , quyết_định theo thẩm_quyền. việc tách riêng
97
+ dự_án độc_lập được thực_hiện khi phê_duyệt chủ_trương đầu_tư dự_án quan_trọng
98
+ quốc_gia , dự_án nhóm a. 2. đầu_tư phục_vụ hoạt_động của cơ_quan nhà_nước , đơn_vị
99
+ sự_nghiệp công_lập , tổ_chức chính_trị , tổ_chức chính_trị - xã_hội. 3. đầu_tư
100
+ và hỗ_trợ hoạt_động đầu_tư cung_cấp sản_phẩm , dịch_vụ công_ích , phúc_lợi xã_hội.
101
+ 4. đầu_tư của nhà_nước tham_gia thực_hiện dự_án theo phương_thức đối_tác công
102
+ tư. 5. đầu_tư phục_vụ công_tác lập , thẩm_định , quyết_định hoặc phê_duyệt , công_bố
103
+ và điều_chỉnh quy_hoạch theo quy_định của pháp_luật về quy_hoạch. 6. cấp bù lãi_suất
104
+ tín_dụng ưu_đãi , phí quản_lý. cấp vốn điều_lệ cho các ngân_hàng chính_sách ,
105
+ quỹ tài_chính nhà_nước_ngoài ngân_sách. hỗ_trợ đầu_tư cho các đối_tượng chính_sách
106
+ khác theo quyết_định của thủ_tướng chính_phủ. chính_phủ quy_định trình_tự , thủ_tục
107
+ thực_hiện đầu_tư đối_với đối_tượng quy_định tại khoản này. "'
108
+ sentences:
109
+ - các nước phát_triển khi tham_gia_công_ước chống sa_mạc_hóa của liên_hợp quốc sẽ
110
+ có những nghĩa_vụ nào ?
111
+ - ban quản_lý các dự_án đầu_tư xây_dựng thanh_tra chính_phủ có cơ_cấu tổ_chức như
112
+ thế_nào ?
113
+ - đối_tượng đầu_tư công bao_gồm những_ai ?
114
+ - source_sentence: 1. công_ước này sẽ bắt_đầu có hiệu_lực với điều_kiện tuân_thủ các
115
+ quy_định của khoản 6 điều này , vào ngày đầu tháng tiếp_theo sau khi hết một hạn
116
+ kỳ 12 tháng kể từ ngày văn_bản phê_chuẩn , chấp_nhận , chuẩn_y hay gia_nhập thứ
117
+ mười được đệ_trình kể_cả những văn_bản chứa_đựng một tuyên_bố được làm chiếu theo
118
+ điều 92. 5. mọi quốc_gia thành_viên của công_ước la - haye 1964 về ký_kết_hợp_đồng
119
+ mà phê_chuẩn , chấp_nhận hay chuẩn_y công_ước này , hoặc gia_nhập công_ước này
120
+ và tuyên_bố hay đã tuyên_bố chiếu theo điều 92 rằng họ không bị ràng_buộc bởi
121
+ phần thứ ba của công_ước sẽ hủy bỏ vào lúc phê_chuẩn , chấp_nhận , chuẩn_y hay
122
+ gia_nhập , bản công_ước la - haye 1964 về ký_kết_hợp_đồng_bằng cách gửi một thông_cáo
123
+ với mục_đích đó cho chính_phủ hà_lan. 6. vì mục_đích của điều này , các sự phê_chuẩn
124
+ , chấp_nhận , chuẩn_y và gia_nhập công_ước này của các quốc_gia thành_viên của
125
+ công_ước la - haye 1964 về ký_kết_hợp_đồng hay công_ước la - haye 1964 về mua_bán
126
+ hàng_hóa chỉ bắt_đầu có hiệu_lực kể từ ngày các thông_báo hủy_bỏ của các quốc_gia
127
+ đó đối_với hai công_ước nói trên cũng sẽ có hiệu_lực. người giữ lưu_chiểu bản
128
+ công_ước này sẽ thỏa_thuận với chính_phủ hà_lan , vốn là người giữ lưu_chiểu các
129
+ công_ước 1964 , để ��ảm_bảo sự phối_hợp cần_thiết về vấn_đề này
130
+ sentences:
131
+ - công_ước viên về mua_bán hàng_hóa quốc_tế năm 1980 sẽ bắt_đầu có hiệu_lực với
132
+ điều_kiện gì ?
133
+ - sau khi giữ người trong trường_hợp khẩn_cấp thì cơ_quan điều_tra phải thông_báo
134
+ ngay cho những_ai ?
135
+ - đăng_kiểm viên có hành_vi làm sai_lệch kết_quả kiểm_định xe cơ_giới bị phạt tiền
136
+ như thế_nào ?
137
+ model-index:
138
+ - name: vietnamese-bi-encoder-for-SoICT-2024
139
+ results:
140
+ - task:
141
+ type: information-retrieval
142
+ name: Information Retrieval
143
+ dataset:
144
+ name: dim 768
145
+ type: dim_768
146
+ metrics:
147
+ - type: cosine_accuracy@1
148
+ value: 0.3883308220324795
149
+ name: Cosine Accuracy@1
150
+ - type: cosine_accuracy@3
151
+ value: 0.6043864054913779
152
+ name: Cosine Accuracy@3
153
+ - type: cosine_accuracy@5
154
+ value: 0.6909425749204755
155
+ name: Cosine Accuracy@5
156
+ - type: cosine_accuracy@10
157
+ value: 0.7849489368826386
158
+ name: Cosine Accuracy@10
159
+ - type: cosine_precision@1
160
+ value: 0.3883308220324795
161
+ name: Cosine Precision@1
162
+ - type: cosine_precision@3
163
+ value: 0.2014621351637926
164
+ name: Cosine Precision@3
165
+ - type: cosine_precision@5
166
+ value: 0.13818851498409507
167
+ name: Cosine Precision@5
168
+ - type: cosine_precision@10
169
+ value: 0.07849489368826384
170
+ name: Cosine Precision@10
171
+ - type: cosine_recall@1
172
+ value: 0.3883308220324795
173
+ name: Cosine Recall@1
174
+ - type: cosine_recall@3
175
+ value: 0.6043864054913779
176
+ name: Cosine Recall@3
177
+ - type: cosine_recall@5
178
+ value: 0.6909425749204755
179
+ name: Cosine Recall@5
180
+ - type: cosine_recall@10
181
+ value: 0.7849489368826386
182
+ name: Cosine Recall@10
183
+ - type: cosine_ndcg@10
184
+ value: 0.5804958772856197
185
+ name: Cosine Ndcg@10
186
+ - type: cosine_mrr@10
187
+ value: 0.5156554362355417
188
+ name: Cosine Mrr@10
189
+ - type: cosine_map@100
190
+ value: 0.5234798575441378
191
+ name: Cosine Map@100
192
+ ---
193
+
194
+ # vietnamese-bi-encoder-for-SoICT-2024
195
+
196
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
197
+
198
+ ## Model Details
199
+
200
+ ### Model Description
201
+ - **Model Type:** Sentence Transformer
202
+ - **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
203
+ - **Maximum Sequence Length:** 256 tokens
204
+ - **Output Dimensionality:** 768 tokens
205
+ - **Similarity Function:** Cosine Similarity
206
+ - **Training Dataset:**
207
+ - json
208
+ - **Language:** vn
209
+ - **License:** apache-2.0
210
+
211
+ ### Model Sources
212
+
213
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
214
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
215
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
216
+
217
+ ### Full Model Architecture
218
+
219
+ ```
220
+ SentenceTransformer(
221
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
222
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
223
+ )
224
+ ```
225
+
226
+ ## Usage
227
+
228
+ ### Direct Usage (Sentence Transformers)
229
+
230
+ First install the Sentence Transformers library:
231
+
232
+ ```bash
233
+ pip install -U sentence-transformers
234
+ ```
235
+
236
+ Then you can load this model and run inference.
237
+ ```python
238
+ from sentence_transformers import SentenceTransformer
239
+
240
+ # Download from the 🤗 Hub
241
+ model = SentenceTransformer("maiduchuy321/vietnamese-bi-encoder-for-SoICT-2024")
242
+ # Run inference
243
+ sentences = [
244
+ '1. công_ước này sẽ bắt_đầu có hiệu_lực với điều_kiện tuân_thủ các quy_định của khoản 6 điều này , vào ngày đầu tháng tiếp_theo sau khi hết một hạn kỳ 12 tháng kể từ ngày văn_bản phê_chuẩn , chấp_nhận , chuẩn_y hay gia_nhập thứ mười được đệ_trình kể_cả những văn_bản chứa_đựng một tuyên_bố được làm chiếu theo điều 92. 5. mọi quốc_gia thành_viên của công_ước la - haye 1964 về ký_kết_hợp_đồng mà phê_chuẩn , chấp_nhận hay chuẩn_y công_ước này , hoặc gia_nhập công_ước này và tuyên_bố hay đã tuyên_bố chiếu theo điều 92 rằng họ không bị ràng_buộc bởi phần thứ ba của công_ước sẽ hủy bỏ vào lúc phê_chuẩn , chấp_nhận , chuẩn_y hay gia_nhập , bản công_ước la - haye 1964 về ký_kết_hợp_đồng_bằng cách gửi một thông_cáo với mục_đích đó cho chính_phủ hà_lan. 6. vì mục_đích của điều này , các sự phê_chuẩn , chấp_nhận , chuẩn_y và gia_nhập công_ước này của các quốc_gia thành_viên của công_ước la - haye 1964 về ký_kết_hợp_đồng hay công_ước la - haye 1964 về mua_bán hàng_hóa chỉ bắt_đầu có hiệu_lực kể từ ngày các thông_báo hủy_bỏ của các quốc_gia đó đối_với hai công_ước nói trên cũng sẽ có hiệu_lực. người giữ lưu_chiểu bản công_ước này sẽ thỏa_thuận với chính_phủ hà_lan , vốn là người giữ lưu_chiểu các công_ước 1964 , để đảm_bảo sự phối_hợp cần_thiết về vấn_đề này',
245
+ 'công_ước viên về mua_bán hàng_hóa quốc_tế năm 1980 sẽ bắt_đầu có hiệu_lực với điều_kiện gì ?',
246
+ 'đăng_kiểm viên có hành_vi làm sai_lệch kết_quả kiểm_định xe cơ_giới bị phạt tiền như thế_nào ?',
247
+ ]
248
+ embeddings = model.encode(sentences)
249
+ print(embeddings.shape)
250
+ # [3, 768]
251
+
252
+ # Get the similarity scores for the embeddings
253
+ similarities = model.similarity(embeddings, embeddings)
254
+ print(similarities.shape)
255
+ # [3, 3]
256
+ ```
257
+
258
+ <!--
259
+ ### Direct Usage (Transformers)
260
+
261
+ <details><summary>Click to see the direct usage in Transformers</summary>
262
+
263
+ </details>
264
+ -->
265
+
266
+ <!--
267
+ ### Downstream Usage (Sentence Transformers)
268
+
269
+ You can finetune this model on your own dataset.
270
+
271
+ <details><summary>Click to expand</summary>
272
+
273
+ </details>
274
+ -->
275
+
276
+ <!--
277
+ ### Out-of-Scope Use
278
+
279
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
280
+ -->
281
+
282
+ ## Evaluation
283
+
284
+ ### Metrics
285
+
286
+ #### Information Retrieval
287
+ * Dataset: `dim_768`
288
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
289
+
290
+ | Metric | Value |
291
+ |:--------------------|:-----------|
292
+ | cosine_accuracy@1 | 0.3883 |
293
+ | cosine_accuracy@3 | 0.6044 |
294
+ | cosine_accuracy@5 | 0.6909 |
295
+ | cosine_accuracy@10 | 0.7849 |
296
+ | cosine_precision@1 | 0.3883 |
297
+ | cosine_precision@3 | 0.2015 |
298
+ | cosine_precision@5 | 0.1382 |
299
+ | cosine_precision@10 | 0.0785 |
300
+ | cosine_recall@1 | 0.3883 |
301
+ | cosine_recall@3 | 0.6044 |
302
+ | cosine_recall@5 | 0.6909 |
303
+ | cosine_recall@10 | 0.7849 |
304
+ | cosine_ndcg@10 | 0.5805 |
305
+ | cosine_mrr@10 | 0.5157 |
306
+ | **cosine_map@100** | **0.5235** |
307
+
308
+ <!--
309
+ ## Bias, Risks and Limitations
310
+
311
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
312
+ -->
313
+
314
+ <!--
315
+ ### Recommendations
316
+
317
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
318
+ -->
319
+
320
+ ## Training Details
321
+
322
+ ### Training Dataset
323
+
324
+ #### json
325
+
326
+ * Dataset: json
327
+ * Size: 107,510 training samples
328
+ * Columns: <code>positive</code> and <code>anchor</code>
329
+ * Approximate statistics based on the first 1000 samples:
330
+ | | positive | anchor |
331
+ |:--------|:------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
332
+ | type | string | string |
333
+ | details | <ul><li>min: 2 tokens</li><li>mean: 169.63 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 17.53 tokens</li><li>max: 37 tokens</li></ul> |
334
+ * Samples:
335
+ | positive | anchor |
336
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------|
337
+ | <code>" điều 6. mức hưởng chế_độ ốm_đau 1. mức hưởng chế_độ ốm_đau theo quy_định tại khoản 1 điều 26 và điều 27 của luật bảo_hiểm xã_hội được tính như sau : mức hưởng chế_độ ốm_đau = tiền_lương tháng đóng bảo_hiểm xã_hội của tháng liền kề trước khi nghỉ_việc / 24 ngày x 75 ( % ) x số ngày nghỉ_việc được hưởng chế_độ ốm_đau "</code> | <code>mức hưởng chế_độ ốm_đau được pháp_luật quy_định như thế_nào ?</code> |
338
+ | <code>huấn_luyện , bồi_dưỡng nghiệp_vụ phòng cháy và chữa_cháy. 4. trách_nhiệm tổ_chức huấn_luyện , bồi_dưỡng nghiệp_vụ về phòng cháy và chữa_cháy :. b ) cơ_quan , tổ_chức , cơ_sở hoặc cá_nhân có nhu_cầu được huấn_luyện , bồi_dưỡng nghiệp_vụ phòng cháy và chữa_cháy thì đề_nghị cơ_quan công_an hoặc cơ_sở huấn_luyện , hướng_dẫn về nghiệp_vụ phòng cháy và chữa_cháy đã được xác_nhận đủ điều_kiện kinh_doanh dịch_vụ phòng cháy và chữa_cháy tổ_chức huấn_luyện. kinh_phí tổ_chức huấn_luyện do cơ_quan , tổ_chức , cơ_sở hoặc cá_nhân tham_gia huấn_luyện chịu trách_nhiệm. vi_phạm_quy_định về tuyên_truyền , phổ_biến pháp_luật , kiến_thức và huấn_luyện , bồi_dưỡng nghiệp_vụ phòng cháy và chữa_cháy , cứu nạn , cứu_hộ. 3. phạt tiền từ 1. 500. 000 đồng đến 3. 000. 000 đồng đối_với hành_vi không tổ_chức huấn_luyện , bồi_dưỡng nghiệp_vụ phòng cháy và chữa_cháy , cứu nạn , cứu_hộ theo quy_định</code> | <code>công_ty không thực_hiện bồi_dưỡng nghiệp_vụ phòng cháy chữa_cháy cho người lao_động thì bị xử_phạt như thế_nào ?</code> |
339
+ | <code>" điều 73. điều_kiện trước khi chính_thức hoạt_động 1. doanh_nghiệp bảo_hiểm , doanh_nghiệp tái_bảo_hiểm , chi_nhánh nước_ngoài tại việt nam phải chính_thức hoạt_động trong thời_hạn 12 tháng kể từ ngày được cấp giấy_phép thành_lập và hoạt_động , trừ trường_hợp có sự_kiện bất_khả_kháng hoặc trở_ngại khách_quan. đối_với trường_hợp bất_khả_kháng hoặc trở_ngại khách_quan , doanh_nghiệp bảo_hiểm , doanh_nghiệp tái_bảo_hiểm , chi_nhánh nước_ngoài tại việt nam phải báo_cáo bằng văn_bản và được bộ tài_chính chấp_thuận bằng văn_bản về việc gia_hạn thời_gian chính_thức hoạt_động. thời_gian gia_hạn tối_đa là 12 tháng. 2. doanh_nghiệp bảo_hiểm , doanh_nghiệp tái_bảo_hiểm , chi_nhánh nước_ngoài tại việt nam phải đáp_ứng các quy_định sau đây để chính_thức hoạt_động : a ) chuyển số vốn gửi tại tài_khoản phong_tỏa thành vốn điều_lệ hoặc vốn được cấp. b ) xây_dựng cơ_cấu tổ_chức , bộ_máy quản_lý , kiểm_soát nội_bộ , kiểm_toán nội_bộ , hệ_thống quản_trị rủi_ro phù_hợp với hình_thức hoạt_động theo quy_định của luật này và quy_định khác của pháp_luật có liên_quan. bầu , bổ_nhiệm người đại_diện theo pháp_luật. bầu , bổ_nhiệm các chức_danh đã được bộ tài_chính chấp_thuận về nguyên_tắc quy_định tại khoản 2 điều 70 của luật này. c ) ban_hành các quy_chế quản_lý nội_bộ về tổ_chức hoạt_động , quy_chế nội_bộ về quản_trị rủi_ro và các quy_trình nghiệp_vụ cơ_bản theo quy_định pháp_luật. d ) ký_quỹ đầy_đủ theo quy_định của luật này tại ngân_hàng thương_mại hoạt_động tại việt_nam. đ ) có trụ_sở , cơ_sở vật_chất , kỹ_thuật , hệ_thống công_nghệ phù_hợp với quy_trình nghiệp_vụ về kinh_doanh bảo_hiểm. e ) thực_hiện công_bố nội_dung giấy_phép thành_lập và hoạt_động quy_định tại khoản 2 điều 72 của luật này. 3. doanh_nghiệp bảo_hiểm , doanh_nghiệp tái_bảo_hiểm , chi_nhánh nước_ngoài tại việt nam phải thông_báo cho bộ tài_chính về việc đáp_ứng các quy_định tại khoản 2 điều này ít_nhất 15 ngày trước ngày chính_thức hoạt_động. bộ tài_chính có quyền đình_chỉ việc chính_thức hoạt_động của doanh_nghiệp bảo_hiểm , doanh_nghiệp tái_bảo_hiểm , chi_nhánh nước_ngoài tại việt_nam khi chưa đáp_ứng các quy_định tại khoản 2 điều này. 4. doanh_nghiệp bảo_hiểm , doanh_nghiệp tái_bảo_hiểm , chi_nhánh nước_ngoài tại việt nam không được tiến_hành hoạt_động_kinh_doanh bảo_hiểm trước ngày chính_thức hoạt_động. "</code> | <code>điều_kiện để doanh_nghiệp bảo_hiểm được chính_thức hoạt_động ?</code> |
340
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
341
+ ```json
342
+ {
343
+ "loss": "MultipleNegativesRankingLoss",
344
+ "matryoshka_dims": [
345
+ 768
346
+ ],
347
+ "matryoshka_weights": [
348
+ 1
349
+ ],
350
+ "n_dims_per_step": -1
351
+ }
352
+ ```
353
+
354
+ ### Evaluation Dataset
355
+
356
+ #### json
357
+
358
+ * Dataset: json
359
+ * Size: 11,946 evaluation samples
360
+ * Columns: <code>positive</code> and <code>anchor</code>
361
+ * Approximate statistics based on the first 1000 samples:
362
+ | | positive | anchor |
363
+ |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
364
+ | type | string | string |
365
+ | details | <ul><li>min: 16 tokens</li><li>mean: 165.45 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 17.33 tokens</li><li>max: 40 tokens</li></ul> |
366
+ * Samples:
367
+ | positive | anchor |
368
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
369
+ | <code>" điều 15. nguyên_tắc giao_kết_hợp_đồng lao_động 1. tự_nguyện , bình_đẳng , thiện_chí , hợp_tác và trung_thực. 2. tự_do giao_kết_hợp_đồng lao_động nhưng không được trái pháp_luật , thỏa_ước lao_động tập_thể và đạo_đức xã_hội. "</code> | <code>nguyên_tắc giao_kết_hợp_đồng lao_động được đề_cập như thế_nào ?</code> |
370
+ | <code>" 1. mỗi chức_danh công_chức cấp xã được bố_trí từ 01 người trở lên , ủy_ban nhân_dân cấp tỉnh quy_định việc bố_trí tăng thêm người ở một_số chức_danh công_chức cấp xã phù_hợp với yêu_cầu , nhiệm_vụ của từng xã , phường , thị_trấn ( trừ chức_danh trưởng công_an xã và chỉ_huy_trưởng ban chỉ_huy quân_sự cấp xã ) nhưng không vượt quá tổng_số cán_bộ , công_chức cấp xã quy_định tại khoản 1 điều 4 nghị_định số 92 / 2009 / nđ - cp đã được sửa_đổi , bổ_sung tại khoản 1 điều 2 nghị_định 34 / 2019 / nđ - cp. 2. những chức_danh công_chức cấp xã có từ 02 người đảm_nhiệm , khi tuyển_dụng , ghi hồ_sơ lý_lịch và sổ bảo_hiểm xã_hội phải thống_nhất theo đúng tên gọi của chức_danh công_chức cấp xã quy_định tại khoản 2 điều 3 nghị_định số 92 / 2009 / nđ - cp. 3. căn_cứ quyết_định của ủy_ban nhân_dân cấp tỉnh về việc giao số_lượng cán_bộ , công_chức cấp xã , chủ_tịch ủy_ban nhân_dân cấp huyện quyết_định tuyển_dụng , phân_công , điều_động , luân_chuyển và bố_trí người đảm_nhiệm các chức_danh công_chức cấp xã phù_hợp với chuyên_ngành đào_tạo và đáp_ứng các yêu_cầu của vị_trí chức_danh công_chức. "</code> | <code>bố_trí số_lượng công_chức cấp xã được pháp_luật quy_định như thế_nào ?</code> |
371
+ | <code>“ điều 3. giải_thích từ_ngữ … 4. thu phí dịch_vụ sử_dụng đường_bộ theo hình_thức điện_tử không dừng ( sau đây gọi tắt là thu phí điện_tử không dừng ) là hình_thức thu phí dịch_vụ sử_dụng đường_bộ tự_động , phương_tiện giao_thông đường_bộ không cần phải dừng lại để trả phí dịch_vụ sử_dụng đường_bộ khi tới trạm thu phí dịch_vụ sử_dụng đường_bộ. quá_trình tính_toán phí dịch_vụ sử_dụng đường_bộ được thực_hiện tự_động bởi hệ_thống thu phí dịch_vụ sử_dụng đường_bộ theo hình_thức điện_tử không dừng ( sau đây gọi tắt là hệ_thống thu phí điện_tử không dừng ). ”</code> | <code>thu phí điện_tử không dừng là gì ?</code> |
372
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
373
+ ```json
374
+ {
375
+ "loss": "MultipleNegativesRankingLoss",
376
+ "matryoshka_dims": [
377
+ 768
378
+ ],
379
+ "matryoshka_weights": [
380
+ 1
381
+ ],
382
+ "n_dims_per_step": -1
383
+ }
384
+ ```
385
+
386
+ ### Training Hyperparameters
387
+ #### Non-Default Hyperparameters
388
+
389
+ - `eval_strategy`: epoch
390
+ - `per_device_train_batch_size`: 24
391
+ - `per_device_eval_batch_size`: 16
392
+ - `gradient_accumulation_steps`: 16
393
+ - `learning_rate`: 2e-05
394
+ - `num_train_epochs`: 5
395
+ - `lr_scheduler_type`: cosine
396
+ - `warmup_ratio`: 0.1
397
+ - `fp16`: True
398
+ - `load_best_model_at_end`: True
399
+ - `optim`: adamw_torch_fused
400
+ - `batch_sampler`: no_duplicates
401
+
402
+ #### All Hyperparameters
403
+ <details><summary>Click to expand</summary>
404
+
405
+ - `overwrite_output_dir`: False
406
+ - `do_predict`: False
407
+ - `eval_strategy`: epoch
408
+ - `prediction_loss_only`: True
409
+ - `per_device_train_batch_size`: 24
410
+ - `per_device_eval_batch_size`: 16
411
+ - `per_gpu_train_batch_size`: None
412
+ - `per_gpu_eval_batch_size`: None
413
+ - `gradient_accumulation_steps`: 16
414
+ - `eval_accumulation_steps`: None
415
+ - `torch_empty_cache_steps`: None
416
+ - `learning_rate`: 2e-05
417
+ - `weight_decay`: 0.0
418
+ - `adam_beta1`: 0.9
419
+ - `adam_beta2`: 0.999
420
+ - `adam_epsilon`: 1e-08
421
+ - `max_grad_norm`: 1.0
422
+ - `num_train_epochs`: 5
423
+ - `max_steps`: -1
424
+ - `lr_scheduler_type`: cosine
425
+ - `lr_scheduler_kwargs`: {}
426
+ - `warmup_ratio`: 0.1
427
+ - `warmup_steps`: 0
428
+ - `log_level`: passive
429
+ - `log_level_replica`: warning
430
+ - `log_on_each_node`: True
431
+ - `logging_nan_inf_filter`: True
432
+ - `save_safetensors`: True
433
+ - `save_on_each_node`: False
434
+ - `save_only_model`: False
435
+ - `restore_callback_states_from_checkpoint`: False
436
+ - `no_cuda`: False
437
+ - `use_cpu`: False
438
+ - `use_mps_device`: False
439
+ - `seed`: 42
440
+ - `data_seed`: None
441
+ - `jit_mode_eval`: False
442
+ - `use_ipex`: False
443
+ - `bf16`: False
444
+ - `fp16`: True
445
+ - `fp16_opt_level`: O1
446
+ - `half_precision_backend`: auto
447
+ - `bf16_full_eval`: False
448
+ - `fp16_full_eval`: False
449
+ - `tf32`: None
450
+ - `local_rank`: 0
451
+ - `ddp_backend`: None
452
+ - `tpu_num_cores`: None
453
+ - `tpu_metrics_debug`: False
454
+ - `debug`: []
455
+ - `dataloader_drop_last`: False
456
+ - `dataloader_num_workers`: 0
457
+ - `dataloader_prefetch_factor`: None
458
+ - `past_index`: -1
459
+ - `disable_tqdm`: False
460
+ - `remove_unused_columns`: True
461
+ - `label_names`: None
462
+ - `load_best_model_at_end`: True
463
+ - `ignore_data_skip`: False
464
+ - `fsdp`: []
465
+ - `fsdp_min_num_params`: 0
466
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
467
+ - `fsdp_transformer_layer_cls_to_wrap`: None
468
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
469
+ - `deepspeed`: None
470
+ - `label_smoothing_factor`: 0.0
471
+ - `optim`: adamw_torch_fused
472
+ - `optim_args`: None
473
+ - `adafactor`: False
474
+ - `group_by_length`: False
475
+ - `length_column_name`: length
476
+ - `ddp_find_unused_parameters`: None
477
+ - `ddp_bucket_cap_mb`: None
478
+ - `ddp_broadcast_buffers`: False
479
+ - `dataloader_pin_memory`: True
480
+ - `dataloader_persistent_workers`: False
481
+ - `skip_memory_metrics`: True
482
+ - `use_legacy_prediction_loop`: False
483
+ - `push_to_hub`: False
484
+ - `resume_from_checkpoint`: None
485
+ - `hub_model_id`: None
486
+ - `hub_strategy`: every_save
487
+ - `hub_private_repo`: False
488
+ - `hub_always_push`: False
489
+ - `gradient_checkpointing`: False
490
+ - `gradient_checkpointing_kwargs`: None
491
+ - `include_inputs_for_metrics`: False
492
+ - `eval_do_concat_batches`: True
493
+ - `fp16_backend`: auto
494
+ - `push_to_hub_model_id`: None
495
+ - `push_to_hub_organization`: None
496
+ - `mp_parameters`:
497
+ - `auto_find_batch_size`: False
498
+ - `full_determinism`: False
499
+ - `torchdynamo`: None
500
+ - `ray_scope`: last
501
+ - `ddp_timeout`: 1800
502
+ - `torch_compile`: False
503
+ - `torch_compile_backend`: None
504
+ - `torch_compile_mode`: None
505
+ - `dispatch_batches`: None
506
+ - `split_batches`: None
507
+ - `include_tokens_per_second`: False
508
+ - `include_num_input_tokens_seen`: False
509
+ - `neftune_noise_alpha`: None
510
+ - `optim_target_modules`: None
511
+ - `batch_eval_metrics`: False
512
+ - `eval_on_start`: False
513
+ - `use_liger_kernel`: False
514
+ - `eval_use_gather_object`: False
515
+ - `batch_sampler`: no_duplicates
516
+ - `multi_dataset_batch_sampler`: proportional
517
+
518
+ </details>
519
+
520
+ ### Training Logs
521
+ <details><summary>Click to expand</summary>
522
+
523
+ | Epoch | Step | Training Loss | Validation Loss | dim_768_cosine_map@100 |
524
+ |:-------:|:--------:|:-------------:|:---------------:|:----------------------:|
525
+ | 0.0357 | 10 | 0.0982 | - | - |
526
+ | 0.0714 | 20 | 0.0764 | - | - |
527
+ | 0.1071 | 30 | 0.0586 | - | - |
528
+ | 0.1429 | 40 | 0.0484 | - | - |
529
+ | 0.1786 | 50 | 0.0513 | - | - |
530
+ | 0.2143 | 60 | 0.0441 | - | - |
531
+ | 0.25 | 70 | 0.0446 | - | - |
532
+ | 0.2857 | 80 | 0.0445 | - | - |
533
+ | 0.3214 | 90 | 0.0295 | - | - |
534
+ | 0.3571 | 100 | 0.0359 | - | - |
535
+ | 0.3929 | 110 | 0.035 | - | - |
536
+ | 0.4286 | 120 | 0.0364 | - | - |
537
+ | 0.4643 | 130 | 0.0323 | - | - |
538
+ | 0.5 | 140 | 0.0317 | - | - |
539
+ | 0.5357 | 150 | 0.03 | - | - |
540
+ | 0.5714 | 160 | 0.0278 | - | - |
541
+ | 0.6071 | 170 | 0.026 | - | - |
542
+ | 0.6429 | 180 | 0.0324 | - | - |
543
+ | 0.6786 | 190 | 0.0316 | - | - |
544
+ | 0.7143 | 200 | 0.031 | - | - |
545
+ | 0.75 | 210 | 0.0268 | - | - |
546
+ | 0.7857 | 220 | 0.0246 | - | - |
547
+ | 0.8214 | 230 | 0.0266 | - | - |
548
+ | 0.8571 | 240 | 0.0244 | - | - |
549
+ | 0.8929 | 250 | 0.0248 | - | - |
550
+ | 0.9286 | 260 | 0.0267 | - | - |
551
+ | 0.9643 | 270 | 0.0224 | - | - |
552
+ | 1.0 | 280 | 0.0305 | 0.0125 | 0.5116 |
553
+ | 1.0357 | 290 | 0.0284 | - | - |
554
+ | 1.0714 | 300 | 0.0276 | - | - |
555
+ | 1.1071 | 310 | 0.0179 | - | - |
556
+ | 1.1429 | 320 | 0.0179 | - | - |
557
+ | 1.1786 | 330 | 0.0222 | - | - |
558
+ | 1.2143 | 340 | 0.0174 | - | - |
559
+ | 1.25 | 350 | 0.0146 | - | - |
560
+ | 1.2857 | 360 | 0.0181 | - | - |
561
+ | 1.3214 | 370 | 0.0113 | - | - |
562
+ | 1.3571 | 380 | 0.0131 | - | - |
563
+ | 1.3929 | 390 | 0.0097 | - | - |
564
+ | 1.4286 | 400 | 0.0137 | - | - |
565
+ | 1.4643 | 410 | 0.0119 | - | - |
566
+ | 1.5 | 420 | 0.0092 | - | - |
567
+ | 1.5357 | 430 | 0.0103 | - | - |
568
+ | 1.5714 | 440 | 0.0081 | - | - |
569
+ | 1.6071 | 450 | 0.009 | - | - |
570
+ | 1.6429 | 460 | 0.0098 | - | - |
571
+ | 1.6786 | 470 | 0.009 | - | - |
572
+ | 1.7143 | 480 | 0.0098 | - | - |
573
+ | 1.75 | 490 | 0.0104 | - | - |
574
+ | 1.7857 | 500 | 0.0094 | - | - |
575
+ | 1.8214 | 510 | 0.0088 | - | - |
576
+ | 1.8571 | 520 | 0.0104 | - | - |
577
+ | 1.8929 | 530 | 0.0096 | - | - |
578
+ | 1.9286 | 540 | 0.0097 | - | - |
579
+ | 1.9643 | 550 | 0.009 | - | - |
580
+ | 2.0 | 560 | 0.01 | 0.0109 | 0.5177 |
581
+ | 2.0357 | 570 | 0.0106 | - | - |
582
+ | 2.0714 | 580 | 0.0106 | - | - |
583
+ | 2.1071 | 590 | 0.0079 | - | - |
584
+ | 2.1429 | 600 | 0.0079 | - | - |
585
+ | 2.1786 | 610 | 0.0088 | - | - |
586
+ | 2.2143 | 620 | 0.0088 | - | - |
587
+ | 2.25 | 630 | 0.0076 | - | - |
588
+ | 2.2857 | 640 | 0.0077 | - | - |
589
+ | 2.3214 | 650 | 0.0057 | - | - |
590
+ | 2.3571 | 660 | 0.0063 | - | - |
591
+ | 2.3929 | 670 | 0.0052 | - | - |
592
+ | 2.4286 | 680 | 0.0076 | - | - |
593
+ | 2.4643 | 690 | 0.0063 | - | - |
594
+ | 2.5 | 700 | 0.0056 | - | - |
595
+ | 2.5357 | 710 | 0.007 | - | - |
596
+ | 2.5714 | 720 | 0.0053 | - | - |
597
+ | 2.6071 | 730 | 0.0051 | - | - |
598
+ | 2.6429 | 740 | 0.0052 | - | - |
599
+ | 2.6786 | 750 | 0.0055 | - | - |
600
+ | 2.7143 | 760 | 0.0066 | - | - |
601
+ | 2.75 | 770 | 0.0058 | - | - |
602
+ | 2.7857 | 780 | 0.0055 | - | - |
603
+ | 2.8214 | 790 | 0.006 | - | - |
604
+ | 2.8571 | 800 | 0.0058 | - | - |
605
+ | 2.8929 | 810 | 0.0054 | - | - |
606
+ | 2.9286 | 820 | 0.006 | - | - |
607
+ | 2.9643 | 830 | 0.0061 | - | - |
608
+ | 3.0 | 840 | 0.0061 | 0.0105 | 0.5197 |
609
+ | 3.0357 | 850 | 0.0063 | - | - |
610
+ | 3.0714 | 860 | 0.0062 | - | - |
611
+ | 3.1071 | 870 | 0.0058 | - | - |
612
+ | 3.1429 | 880 | 0.0044 | - | - |
613
+ | 3.1786 | 890 | 0.0061 | - | - |
614
+ | 3.2143 | 900 | 0.0052 | - | - |
615
+ | 3.25 | 910 | 0.0052 | - | - |
616
+ | 3.2857 | 920 | 0.005 | - | - |
617
+ | 3.3214 | 930 | 0.0042 | - | - |
618
+ | 3.3571 | 940 | 0.0043 | - | - |
619
+ | 3.3929 | 950 | 0.0046 | - | - |
620
+ | 3.4286 | 960 | 0.0052 | - | - |
621
+ | 3.4643 | 970 | 0.0047 | - | - |
622
+ | 3.5 | 980 | 0.0042 | - | - |
623
+ | 3.5357 | 990 | 0.0053 | - | - |
624
+ | 3.5714 | 1000 | 0.0035 | - | - |
625
+ | 3.6071 | 1010 | 0.0041 | - | - |
626
+ | 3.6429 | 1020 | 0.0037 | - | - |
627
+ | 3.6786 | 1030 | 0.0038 | - | - |
628
+ | 3.7143 | 1040 | 0.005 | - | - |
629
+ | 3.75 | 1050 | 0.004 | - | - |
630
+ | 3.7857 | 1060 | 0.0039 | - | - |
631
+ | 3.8214 | 1070 | 0.0038 | - | - |
632
+ | 3.8571 | 1080 | 0.0042 | - | - |
633
+ | 3.8929 | 1090 | 0.0048 | - | - |
634
+ | 3.9286 | 1100 | 0.0046 | - | - |
635
+ | 3.9643 | 1110 | 0.0051 | - | - |
636
+ | **4.0** | **1120** | **0.0045** | **0.0103** | **0.5245** |
637
+ | 4.0357 | 1130 | 0.0041 | - | - |
638
+ | 4.0714 | 1140 | 0.0048 | - | - |
639
+ | 4.1071 | 1150 | 0.0046 | - | - |
640
+ | 4.1429 | 1160 | 0.0036 | - | - |
641
+ | 4.1786 | 1170 | 0.0056 | - | - |
642
+ | 4.2143 | 1180 | 0.0044 | - | - |
643
+ | 4.25 | 1190 | 0.0046 | - | - |
644
+ | 4.2857 | 1200 | 0.005 | - | - |
645
+ | 4.3214 | 1210 | 0.0035 | - | - |
646
+ | 4.3571 | 1220 | 0.0039 | - | - |
647
+ | 4.3929 | 1230 | 0.0035 | - | - |
648
+ | 4.4286 | 1240 | 0.0047 | - | - |
649
+ | 4.4643 | 1250 | 0.005 | - | - |
650
+ | 4.5 | 1260 | 0.0041 | - | - |
651
+ | 4.5357 | 1270 | 0.0044 | - | - |
652
+ | 4.5714 | 1280 | 0.0033 | - | - |
653
+ | 4.6071 | 1290 | 0.0037 | - | - |
654
+ | 4.6429 | 1300 | 0.0037 | - | - |
655
+ | 4.6786 | 1310 | 0.0033 | - | - |
656
+ | 4.7143 | 1320 | 0.0047 | - | - |
657
+ | 4.75 | 1330 | 0.0032 | - | - |
658
+ | 4.7857 | 1340 | 0.0039 | - | - |
659
+ | 4.8214 | 1350 | 0.0041 | - | - |
660
+ | 4.8571 | 1360 | 0.0038 | - | - |
661
+ | 4.8929 | 1370 | 0.0045 | - | - |
662
+ | 4.9286 | 1380 | 0.0044 | - | - |
663
+ | 4.9643 | 1390 | 0.0044 | - | - |
664
+ | 5.0 | 1400 | 0.0047 | 0.0102 | 0.5235 |
665
+
666
+ * The bold row denotes the saved checkpoint.
667
+ </details>
668
+
669
+ ### Framework Versions
670
+ - Python: 3.10.14
671
+ - Sentence Transformers: 3.2.1
672
+ - Transformers: 4.45.1
673
+ - PyTorch: 2.4.0
674
+ - Accelerate: 0.34.2
675
+ - Datasets: 3.0.1
676
+ - Tokenizers: 0.20.0
677
+
678
+ ## Citation
679
+
680
+ ### BibTeX
681
+
682
+ #### Sentence Transformers
683
+ ```bibtex
684
+ @inproceedings{reimers-2019-sentence-bert,
685
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
686
+ author = "Reimers, Nils and Gurevych, Iryna",
687
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
688
+ month = "11",
689
+ year = "2019",
690
+ publisher = "Association for Computational Linguistics",
691
+ url = "https://arxiv.org/abs/1908.10084",
692
+ }
693
+ ```
694
+
695
+ #### MatryoshkaLoss
696
+ ```bibtex
697
+ @misc{kusupati2024matryoshka,
698
+ title={Matryoshka Representation Learning},
699
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
700
+ year={2024},
701
+ eprint={2205.13147},
702
+ archivePrefix={arXiv},
703
+ primaryClass={cs.LG}
704
+ }
705
+ ```
706
+
707
+ #### MultipleNegativesRankingLoss
708
+ ```bibtex
709
+ @misc{henderson2017efficient,
710
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
711
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
712
+ year={2017},
713
+ eprint={1705.00652},
714
+ archivePrefix={arXiv},
715
+ primaryClass={cs.CL}
716
+ }
717
+ ```
718
+
719
+ <!--
720
+ ## Glossary
721
+
722
+ *Clearly define terms in order to be accessible across audiences.*
723
+ -->
724
+
725
+ <!--
726
+ ## Model Card Authors
727
+
728
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
729
+ -->
730
+
731
+ <!--
732
+ ## Model Card Contact
733
+
734
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
735
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "bkai-foundation-models/vietnamese-bi-encoder",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 258,
17
+ "model_type": "roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "tokenizer_class": "PhobertTokenizer",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.45.1",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 64001
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.1",
4
+ "transformers": "4.45.1",
5
+ "pytorch": "2.4.0"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c15a11e85c828c98b2c29325679a95f3517f997cb83c2fb35a681412f333507d
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 256,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "PhobertTokenizer",
53
+ "unk_token": "<unk>"
54
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff