akiFQCint commited on
Commit
4c6010c
·
1 Parent(s): eb3c21c

update: markdown

Browse files
Files changed (2) hide show
  1. README.md +8 -8
  2. README_JA.md +5 -5
README.md CHANGED
@@ -29,10 +29,10 @@ datasets:
29
 
30
  **[日本語のREADME/Japanese README](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/README_JA.md)**
31
 
32
- "Sarashina-Embedding-v1-1B" is a Japanese text embedding model, based on the 1.2B-parameter Japansese LLM "[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)".
33
- We trained this model with multi-stage contrastive learning. We achieved the state-of-the-art average score in the average of 16 datasets in [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark).
34
 
35
- This model maps sentences & paragraphs to a 1792-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
36
 
37
  ## Model Details
38
 
@@ -57,8 +57,6 @@ SentenceTransformer(
57
 
58
  ## Usage
59
 
60
- ### Direct Usage (Sentence Transformers)
61
-
62
  First install the Sentence Transformers library:
63
 
64
  ```bash
@@ -76,13 +74,13 @@ model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
76
  sentences = [
77
  '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
78
  'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
79
- '更科蕎麦とはなんですか?'
80
  ]
81
  embeddings = model.encode(sentences)
82
  print(embeddings.shape)
83
  # [3, 1792]
84
 
85
- # Get the similarity scores for the embeddings
86
  similarities = model.similarity(embeddings, embeddings)
87
  print(similarities.shape)
88
  # [3, 3]
@@ -90,7 +88,7 @@ print(similarities.shape)
90
 
91
  **Note**
92
 
93
- - You do not need to add prefixes such as "Query: " and "Document: " at the beginning of the input sentence.
94
  - This model is licensed under the [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE), which has restrictions on commercial use. If you are interested in utilizing this model for your business, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).
95
 
96
  ## Training
@@ -151,3 +149,5 @@ To enable the model to learn a more accurate query-document similarity, we perfo
151
  This model is licensed under [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE).
152
 
153
  **If you are interested in using this model for commercial purposes, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).**
 
 
 
29
 
30
  **[日本語のREADME/Japanese README](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/README_JA.md)**
31
 
32
+ "Sarashina-Embedding-v1-1B" is a Japanese text embedding model, based on the 1.2B-parameter Japanese LLM "[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)".
33
+ We trained this model with multi-stage contrastive learning. We achieved the state-of-the-art average score across 16 datasets in [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark).
34
 
35
+ This model maps sentences & paragraphs to a 1792-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and other applications.
36
 
37
  ## Model Details
38
 
 
57
 
58
  ## Usage
59
 
 
 
60
  First install the Sentence Transformers library:
61
 
62
  ```bash
 
74
  sentences = [
75
  '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
76
  'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
77
+ 'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
78
  ]
79
  embeddings = model.encode(sentences)
80
  print(embeddings.shape)
81
  # [3, 1792]
82
 
83
+ # Get the similarity scores between the embeddings
84
  similarities = model.similarity(embeddings, embeddings)
85
  print(similarities.shape)
86
  # [3, 3]
 
88
 
89
  **Note**
90
 
91
+ - You do not need to add prefixes such as "Query: " and "Document: " to the beginning of the input sentence.
92
  - This model is licensed under the [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE), which has restrictions on commercial use. If you are interested in utilizing this model for your business, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).
93
 
94
  ## Training
 
149
  This model is licensed under [Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE).
150
 
151
  **If you are interested in using this model for commercial purposes, please feel free to contact us through our [contact page](https://www.sbintuitions.co.jp/#contact).**
152
+
153
+ [^oai]: Benchmarked on April 23, 2024.
README_JA.md CHANGED
@@ -27,7 +27,7 @@ datasets:
27
 
28
  「Sarashina-embedding-v1-1b」は、1.2Bパラメータの日本語LLM「[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)」をベースにした日本語テキスト埋め込みモデルです。
29
 
30
- このモデルは、マルチステージの対照学習で訓練され、 [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark)の16個のデータセットの平均で(2024/12/1時点で)最高水準の平均スコアを達成しました。
31
 
32
  このモデルは、文や段落などのテキストを1792次元の密ベクトル空間にマッピングし、意味的テキスト類似度、意味的検索、paraphrase mining、テキスト分類、クラスタリングなどに使用できます。
33
 
@@ -73,7 +73,7 @@ model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
73
  sentences = [
74
  '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
75
  'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
76
- '更科蕎麦とはなんですか?'
77
  ]
78
  embeddings = model.encode(sentences)
79
  print(embeddings.shape)
@@ -88,7 +88,7 @@ print(similarities.shape)
88
  **注意**
89
 
90
  - "Query: ", "Document: "などのprefixを入力文の先頭に加える必要はありません。
91
- - このモデルは[Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE)でライセンスされており、商用利用には制限があります。もしあなたのビジネスでこのモデルを活用することに興味がある場合は、気軽に[コンタクトページ](https://www.sbintuitions.co.jp/#contact)にご連絡ください。
92
 
93
  ## 学習
94
 
@@ -96,7 +96,7 @@ print(similarities.shape)
96
 
97
  ### Stage 1: 弱教師あり学習
98
 
99
- 幅広いドメインに対して汎用的かつ高い性能を持つ埋め込みモデルを構築するため、私たちは、独自webクロールデータとオープンデータで構成された弱教師データによる対照学習を行いました。
100
 
101
  #### データセット
102
 
@@ -118,7 +118,7 @@ print(similarities.shape)
118
 
119
  ### Stage 2: ファインチューニング
120
 
121
- より正確なクエリ-ドキュメント間の類似度をモデルに学習させるために、私たちは以下のデータセットでファインチューニングを行いました。
122
 
123
  #### データセット
124
 
 
27
 
28
  「Sarashina-embedding-v1-1b」は、1.2Bパラメータの日本語LLM「[Sarashina2.1-1B](https://huggingface.co/sbintuitions/sarashina2.1-1b)」をベースにした日本語テキスト埋め込みモデルです。
29
 
30
+ このモデルは、マルチステージの対照学習で訓練され、 [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) (Japanese Massive Text Embedding Benchmark)の16個のデータセットで(2024/12/1時点で)最高水準の平均スコアを達成しました。
31
 
32
  このモデルは、文や段落などのテキストを1792次元の密ベクトル空間にマッピングし、意味的テキスト類似度、意味的検索、paraphrase mining、テキスト分類、クラスタリングなどに使用できます。
33
 
 
73
  sentences = [
74
  '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
75
  'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
76
+ 'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
77
  ]
78
  embeddings = model.encode(sentences)
79
  print(embeddings.shape)
 
88
  **注意**
89
 
90
  - "Query: ", "Document: "などのprefixを入力文の先頭に加える必要はありません。
91
+ - このモデルは[Sarashina Model NonCommercial License Agreement](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE)でライセンスされており、商用利用には制限があります。もしビジネスでこのモデルを活用することに興味がある場合は、気軽に[コンタクトページ](https://www.sbintuitions.co.jp/#contact)にご連絡ください。
92
 
93
  ## 学習
94
 
 
96
 
97
  ### Stage 1: 弱教師あり学習
98
 
99
+ 幅広いドメインに対して汎用的かつ高い性能を持つ埋め込みモデルを構築するため、独自webクロールデータとオープンデータで構成された弱教師データによる対照学習を行いました。
100
 
101
  #### データセット
102
 
 
118
 
119
  ### Stage 2: ファインチューニング
120
 
121
+ より正確なクエリ-ドキュメント間の類似度をモデルに学習させるために、以下のデータセットでファインチューニングを行いました。
122
 
123
  #### データセット
124