HIT-TMG
/

KaLM-embedding-multilingual-mini-v1

Sentence Similarity

sentence-transformers

feature-extraction

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

YanshekWoo commited on 6 days ago

Commit

685312f

·

verified ·

1 Parent(s): ca4dcbe

0902

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -20127,9 +20127,10 @@ KaLM-embedding-multilingual-mini is trained from [Qwen/Qwen2-0.5B](https://huggi
 - [x] Model Checkpoint
     - [x] [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1)
     - [x] [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1)
     - [ ] KaLM-embedding-multilingual-max-v1
-- [ ] Technical Report
-- [ ] Training and Evaluation Code
 - [ ] Training Data
@@ -20141,7 +20142,8 @@ KaLM-embedding-multilingual-mini is trained from [Qwen/Qwen2-0.5B](https://huggi
 | [bge-m3 (dense)](https://huggingface.co/BAAI/bge-m3) | 560M | 60.80 | 59.84 | 60.32
 | [gte-multilingual-base (dense)](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) | **305M** | 62.72 | 61.40 | 62.06
 | [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1) | 494M | 62.31 | 61.87 | 62.09
-| [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1) | 494M | **63.57** | **64.74** | **64.16**

 - [x] Model Checkpoint
     - [x] [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1)
     - [x] [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1)
+    - [x] [KaLM-embedding-multilingual-mini-instruct-v1.5](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1.5)
     - [ ] KaLM-embedding-multilingual-max-v1
+- [x] Training and Evaluation Code: [HITsz-TMG/KaLM-Embedding](https://github.com/HITsz-TMG/KaLM-Embedding)
+- [x] Technical Report: [KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model](https://arxiv.org/abs/2501.01028)
 - [ ] Training Data
 | [bge-m3 (dense)](https://huggingface.co/BAAI/bge-m3) | 560M | 60.80 | 59.84 | 60.32
 | [gte-multilingual-base (dense)](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) | **305M** | 62.72 | 61.40 | 62.06
 | [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1) | 494M | 62.31 | 61.87 | 62.09
+| [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1) | 494M | 63.57 | 64.74 | 64.16
+| [KaLM-embedding-multilingual-mini-instruct-v1.5](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1.5) | 494M | **64.13** | **64.94** | **64.53**