update: markdown
Browse files- README.md +8 -8
- README_JA.md +5 -5
README.md
CHANGED
@@ -29,10 +29,10 @@ datasets:
|
|
29 |
|
30 |
**[日本語のREADME/Japanese README](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/README_JA.md)**
|
31 |
|
32 |
-
"Sarashina-Embedding-v1-1B" is a Japanese text embedding model, based on the 1.2B-parameter
|
33 |
-
We trained this model with multi-stage contrastive learning. We achieved the state-of-the-art average score
|
34 |
|
35 |
-
This model maps sentences & paragraphs to a 1792-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and
|
36 |
|
37 |
## Model Details
|
38 |
|
@@ -57,8 +57,6 @@ SentenceTransformer(
|
|
57 |
|
58 |
## Usage
|
59 |
|
60 |
-
### Direct Usage (Sentence Transformers)
|
61 |
-
|
62 |
First install the Sentence Transformers library:
|
63 |
|
64 |
```bash
|
@@ -76,13 +74,13 @@ model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
|
|
76 |
sentences = [
|
77 |
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
|
78 |
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
|
79 |
-
'
|
80 |
]
|
81 |
embeddings = model.encode(sentences)
|
82 |
print(embeddings.shape)
|
83 |
# [3, 1792]
|
84 |
|
85 |
-
# Get the similarity scores
|
86 |
similarities = model.similarity(embeddings, embeddings)
|
87 |
print(similarities.shape)
|
88 |
# [3, 3]
|
@@ -90,7 +88,7 @@ print(similarities.shape)
|
|
90 |
|
91 |
**Note**
|
92 |
|
93 |
-
- You do not need to add prefixes such as "Query: " and "Document: "
|
94 |
- This model is licensed under the [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE), which has restrictions on commercial use. If you are interested in utilizing this model for your business, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).
|
95 |
|
96 |
## Training
|
@@ -151,3 +149,5 @@ To enable the model to learn a more accurate query-document similarity, we perfo
|
|
151 |
This model is licensed under [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE).
|
152 |
|
153 |
**If you are interested in using this model for commercial purposes, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).**
|
|
|
|
|
|
29 |
|
30 |
**[日本語のREADME/Japanese README](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/README_JA.md)**
|
31 |
|
32 |
+
"Sarashina-Embedding-v1-1B" is a Japanese text embedding model, based on the 1.2B-parameter Japanese LLM "[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)".
|
33 |
+
We trained this model with multi-stage contrastive learning. We achieved the state-of-the-art average score across 16 datasets in [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark).
|
34 |
|
35 |
+
This model maps sentences & paragraphs to a 1792-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and other applications.
|
36 |
|
37 |
## Model Details
|
38 |
|
|
|
57 |
|
58 |
## Usage
|
59 |
|
|
|
|
|
60 |
First install the Sentence Transformers library:
|
61 |
|
62 |
```bash
|
|
|
74 |
sentences = [
|
75 |
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
|
76 |
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
|
77 |
+
'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
|
78 |
]
|
79 |
embeddings = model.encode(sentences)
|
80 |
print(embeddings.shape)
|
81 |
# [3, 1792]
|
82 |
|
83 |
+
# Get the similarity scores between the embeddings
|
84 |
similarities = model.similarity(embeddings, embeddings)
|
85 |
print(similarities.shape)
|
86 |
# [3, 3]
|
|
|
88 |
|
89 |
**Note**
|
90 |
|
91 |
+
- You do not need to add prefixes such as "Query: " and "Document: " to the beginning of the input sentence.
|
92 |
- This model is licensed under the [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE), which has restrictions on commercial use. If you are interested in utilizing this model for your business, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).
|
93 |
|
94 |
## Training
|
|
|
149 |
This model is licensed under [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE).
|
150 |
|
151 |
**If you are interested in using this model for commercial purposes, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).**
|
152 |
+
|
153 |
+
[^oai]: Benchmarked on April 23, 2024.
|
README_JA.md
CHANGED
@@ -27,7 +27,7 @@ datasets:
|
|
27 |
|
28 |
「Sarashina-embedding-v1-1b」は、1.2Bパラメータの日本語LLM「[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)」をベースにした日本語テキスト埋め込みモデルです。
|
29 |
|
30 |
-
このモデルは、マルチステージの対照学習で訓練され、 [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark)の16
|
31 |
|
32 |
このモデルは、文や段落などのテキストを1792次元の密ベクトル空間にマッピングし、意味的テキスト類似度、意味的検索、paraphrase mining、テキスト分類、クラスタリングなどに使用できます。
|
33 |
|
@@ -73,7 +73,7 @@ model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
|
|
73 |
sentences = [
|
74 |
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
|
75 |
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
|
76 |
-
'
|
77 |
]
|
78 |
embeddings = model.encode(sentences)
|
79 |
print(embeddings.shape)
|
@@ -88,7 +88,7 @@ print(similarities.shape)
|
|
88 |
**注意**
|
89 |
|
90 |
- "Query: ", "Document: "などのprefixを入力文の先頭に加える必要はありません。
|
91 |
-
- このモデルは[Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE)
|
92 |
|
93 |
## 学習
|
94 |
|
@@ -96,7 +96,7 @@ print(similarities.shape)
|
|
96 |
|
97 |
### Stage 1: 弱教師あり学習
|
98 |
|
99 |
-
|
100 |
|
101 |
#### データセット
|
102 |
|
@@ -118,7 +118,7 @@ print(similarities.shape)
|
|
118 |
|
119 |
### Stage 2: ファインチューニング
|
120 |
|
121 |
-
|
122 |
|
123 |
#### データセット
|
124 |
|
|
|
27 |
|
28 |
「Sarashina-embedding-v1-1b」は、1.2Bパラメータの日本語LLM「[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)」をベースにした日本語テキスト埋め込みモデルです。
|
29 |
|
30 |
+
このモデルは、マルチステージの対照学習で訓練され、 [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark)の16個のデータセットで(2024/12/1時点で)最高水準の平均スコアを達成しました。
|
31 |
|
32 |
このモデルは、文や段落などのテキストを1792次元の密ベクトル空間にマッピングし、意味的テキスト類似度、意味的検索、paraphrase mining、テキスト分類、クラスタリングなどに使用できます。
|
33 |
|
|
|
73 |
sentences = [
|
74 |
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
|
75 |
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
|
76 |
+
'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
|
77 |
]
|
78 |
embeddings = model.encode(sentences)
|
79 |
print(embeddings.shape)
|
|
|
88 |
**注意**
|
89 |
|
90 |
- "Query: ", "Document: "などのprefixを入力文の先頭に加える必要はありません。
|
91 |
+
- このモデルは[Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE)でライセンスされており、商用利用には制限があります。もしビジネスでこのモデルを活用することに興味がある場合は、気軽に[コンタクトページ](https://www.sbintuitions.co.jp/#contact)にご連絡ください。
|
92 |
|
93 |
## 学習
|
94 |
|
|
|
96 |
|
97 |
### Stage 1: 弱教師あり学習
|
98 |
|
99 |
+
幅広いドメインに対して汎用的かつ高い性能を持つ埋め込みモデルを構築するため、独自webクロールデータとオープンデータで構成された弱教師データによる対照学習を行いました。
|
100 |
|
101 |
#### データセット
|
102 |
|
|
|
118 |
|
119 |
### Stage 2: ファインチューニング
|
120 |
|
121 |
+
より正確なクエリ-ドキュメント間の類似度をモデルに学習させるために、以下のデータセットでファインチューニングを行いました。
|
122 |
|
123 |
#### データセット
|
124 |
|