FaLaBSE-v1 / README.md

Add new SentenceTransformer model

33514bd verified 12 days ago

17.7 kB

	---
	tags:
	- sentence-transformers
	- sentence-similarity
	- feature-extraction
	- generated_from_trainer
	- dataset_size:16825
	- loss:MultipleNegativesRankingLoss
	base_model: sentence-transformers/LaBSE
	widget:
	- source_sentence: کمپانی هند شرقی فرانسه در زمان سلطنت لویى چهاردهم، برای رقابت سیاسی،
	اقتصادی و استعماری با دولت بریتانیا در هندوستان تأسیس شد.
	sentences:
	- کمپانی هند شرقی فرانسه در دوره پادشاهی لوئی چهاردهم تاسیس شد.
	- جنگ موهاک بین کشورهای عثمانی و مجارستان رخ داد.
	- فخرالدین عراقی جانشین شیخ بهاء الدین زکریا ملتانی بود.
	- source_sentence: سرانجام پس از گذشت دو هفته از درخواست ایران، یک گروه کارشناسی که
	فاقد عضو کارشناس سلاحهای شیمیایی بوده، به منطقه اعزام شد و نتایج مشاهدات خود را
	گزارش کرد و متعاقب آن قطعنامه ٦١٢ شورای امنیت، مبنی بر محکومیت کاربرد سلاح‌های
	شیمیایی در جنگ ایران و عراق و بدون نام بردن از عامل کشتار صادر شد.
	sentences:
	- در قطعنامه ۶۱۲ شورای امنیت کاربرد سلاح‌های شیمیایی بدون نام بردن از عامل کشتار
	محکوم شد
	- در سال ۱۳۱۷ آن اصل از متمم قانون اساسی مشروطیت که به ایرانی الاصل بودن مادر ولیعهد
	اشاره می کند، دستخوش تغییر قرار گرفت.
	- به عنوان نمونه‌هایی از ویژگی های هنرهای اسلامی می توان به متعهد و راستین، مردمی
	و همگانی بودن اشاره کرد.
	- source_sentence: در سال ۳۳۳ پیش از میلاد ، نبرد ایسوس بین سپاه اسکندر و داریوش (آخرین
	پادشاه هخامنشی) رخ داد، در این جنگ داریوش شکست خورد و خانواده اش شامل مادر و همسر
	داریوش و دختران داریوش که استاتیرا و درییه تیس بودند، همگی اسیر شدند.
	sentences:
	- خانواده داریوش در جنگ ایسوس با اسکندر اسیر شدند.
	- در نقاشی مکتب کوبیسم در فرانسه ظهور کرد.
	- این جمله که کشیش‌هایی که در انقلاب نیکاراگوئه نقش داشتند، پیش از پیروزی انقلاب
	به ایران رفت و آمد می ‌کردند و با امام خمینی ملاقات می نمودند. از سوموزا است.
	- source_sentence: مطابق ماده ۶ بند ۲ میثاق حقوق مدنی – سیاسی، در سرزمین‌هایی که مجازات
	اعدام باطل نشده صدور حکم اعدام جائز نیست مگر در مورد مهمترین جنایات طبق قانون
	لازم‌الاجرا در زمان ارتکاب جنایت که آن هم نباید با مقررات این میثاق و کنوانسیون‌ها
	راجع به جلوگیری و مجازات جرم کشتار دسته‌جمعی (ژنوسید) منافات داشته باشد.
	sentences:
	- ' طبق ماده ۶ میثاق حقوق مدنی - سیاسی، در کشورهایی که مجازات اعدام لغو نشده است،
	صدور حکم اعدام در مهمترین جنایات مجاز است'
	- مدرسه نوریه کبری جزء مدارس شام محسوب می شود.
	- روز بزرگداشت سهروردی ۸ مرداد است.
	- source_sentence: در جرائم مهمی که مجازات آنها قصاص نفس، اعدام، رجم و حبس ابد است،
	حتما باید وکیل در دادرسی حضور داشته باشد و اگر متهم توان تعیین وکیل برای خود را
	نداشته باشد، دادگاه الزاماً برای او وکیل تسخیری تعیین می کند.
	sentences:
	- تعیین وکیل تسخیری برای متهم در آن دسته از جرایم الزامی است که مجازات قانونی آنها
	قصاص نفس، اعدام، رجم و حبس ابد است.
	- در سال ۱۳۶۸ مقام نخست وزیری در ایران حذف شد.
	- ضعف بنیه‌ی دفاعی ایران، نقطه امید صدام برای حمله به ایران و پیروزی سه روزه بر
	ایران بود
	pipeline_tag: sentence-similarity
	library_name: sentence-transformers
	---

	# SentenceTransformer based on sentence-transformers/LaBSE

	This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/LaBSE](https://huggingface.co/sentence-transformers/LaBSE). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

	## Model Details

	### Model Description
	- Model Type: Sentence Transformer
	- Base model: [sentence-transformers/LaBSE](https://huggingface.co/sentence-transformers/LaBSE) <!-- at revision b7f947194ceae0ddf90bafe213722569e274ad28 -->
	- Maximum Sequence Length: 256 tokens
	- Output Dimensionality: 768 dimensions
	- Similarity Function: Cosine Similarity
	<!-- - Training Dataset: Unknown -->
	<!-- - Language: Unknown -->
	<!-- - License: Unknown -->

	### Model Sources

	- Documentation: [Sentence Transformers Documentation](https://sbert.net)
	- Repository: [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
	- Hugging Face: [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

	### Full Model Architecture

	```
	SentenceTransformer(
	(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel
	(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
	(2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
	(3): Normalize()
	)
	```

	## Usage

	### Direct Usage (Sentence Transformers)

	First install the Sentence Transformers library:

	```bash
	pip install -U sentence-transformers
	```

	Then you can load this model and run inference.
	```python
	from sentence_transformers import SentenceTransformer

	# Download from the 🤗 Hub
	model = SentenceTransformer("codersan/FaLaBSE-v1")
	# Run inference
	sentences = [
	'در جرائم مهمی که مجازات آنها قصاص نفس، اعدام، رجم و حبس ابد است، حتما باید وکیل در دادرسی حضور داشته باشد و اگر متهم توان تعیین وکیل برای خود را نداشته باشد، دادگاه الزاماً برای او وکیل تسخیری تعیین می کند.',
	'تعیین وکیل تسخیری برای متهم در آن دسته از جرایم الزامی است که مجازات قانونی آنها قصاص نفس، اعدام، رجم و حبس ابد است.',
	'در سال ۱۳۶۸ مقام نخست وزیری در ایران حذف شد.',
	]
	embeddings = model.encode(sentences)
	print(embeddings.shape)
	# [3, 768]

	# Get the similarity scores for the embeddings
	similarities = model.similarity(embeddings, embeddings)
	print(similarities.shape)
	# [3, 3]
	```

	<!--
	### Direct Usage (Transformers)

	<details><summary>Click to see the direct usage in Transformers</summary>

	</details>
	-->

	<!--
	### Downstream Usage (Sentence Transformers)

	You can finetune this model on your own dataset.

	<details><summary>Click to expand</summary>

	</details>
	-->

	<!--
	### Out-of-Scope Use

	List how the model may foreseeably be misused and address what users ought not to do with the model.
	-->

	<!--
	## Bias, Risks and Limitations

	What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.
	-->

	<!--
	### Recommendations

	What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.
	-->

	## Training Details

	### Training Dataset

	#### Unnamed Dataset


	* Size: 16,825 training samples
	* Columns: <code>anchor</code> and <code>positive</code>
	* Approximate statistics based on the first 1000 samples:
	\| \| anchor \| positive \|
	\|:--------\|:------------------------------------------------------------------------------------\|:----------------------------------------------------------------------------------\|
	\| type \| string \| string \|
	\| details \| <ul><li>min: 16 tokens</li><li>mean: 55.45 tokens</li><li>max: 180 tokens</li></ul> \| <ul><li>min: 8 tokens</li><li>mean: 20.45 tokens</li><li>max: 49 tokens</li></ul> \|
	* Samples:
	\| anchor \| positive \|
	\|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------\|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------\|
	\| <code>اولین انتقال و نفوذ طبیعی فرهنگ و تمدن اسلامی به اروپا از طریق کانون های جغرافیایی مصر، اندلس و سیسیل انجام گرفت و آنچه توانست به روند این انتقال سرعت بخشد جنگ های صلیبی بود.</code> \| <code>نخستین انتقال و نفوذ طبیعی فرهنگ و تمدن اسلامی به اروپا از طریق کانون های جغرافیایی مصر، اندلس و سیسیل بود و جنگ های صلیبی توانست این روند را سریع کند.</code> \|
	\| <code>ویژگی های هنر عصر اموی: ۱- تلفیقی بودن ۲- بازنمایی نوعی تفنن و تفریح ۳- نقاشی های تزئینی و تندیس های بی کیفیت</code> \| <code>نقاشی های تزئینی و تندیس های بی‌کیفیت، یکی از ویژگی های هنر عصر اموی است.</code> \|
	\| <code>قبه الصخره یکی از تجلی گاه های زیبایی و ظرافت هنر اسلامی محسوب می شود و به فرمان عبدالملک بن مروان برای برگزاری روز عرفه ساخته شد.</code> \| <code>قبه الصخره به فرمان عبدالملک بن مروان و برای برگزاری روز عرفه بنا گردید.</code> \|
	* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
	```json
	{
	"scale": 20.0,
	"similarity_fct": "cos_sim"
	}
	```

	### Training Hyperparameters

	#### All Hyperparameters
	<details><summary>Click to expand</summary>

	- `overwrite_output_dir`: False
	- `do_predict`: False
	- `eval_strategy`: no
	- `prediction_loss_only`: True
	- `per_device_train_batch_size`: 8
	- `per_device_eval_batch_size`: 8
	- `per_gpu_train_batch_size`: None
	- `per_gpu_eval_batch_size`: None
	- `gradient_accumulation_steps`: 1
	- `eval_accumulation_steps`: None
	- `torch_empty_cache_steps`: None
	- `learning_rate`: 5e-05
	- `weight_decay`: 0.0
	- `adam_beta1`: 0.9
	- `adam_beta2`: 0.999
	- `adam_epsilon`: 1e-08
	- `max_grad_norm`: 1.0
	- `num_train_epochs`: 3.0
	- `max_steps`: -1
	- `lr_scheduler_type`: linear
	- `lr_scheduler_kwargs`: {}
	- `warmup_ratio`: 0.0
	- `warmup_steps`: 0
	- `log_level`: passive
	- `log_level_replica`: warning
	- `log_on_each_node`: True
	- `logging_nan_inf_filter`: True
	- `save_safetensors`: True
	- `save_on_each_node`: False
	- `save_only_model`: False
	- `restore_callback_states_from_checkpoint`: False
	- `no_cuda`: False
	- `use_cpu`: False
	- `use_mps_device`: False
	- `seed`: 42
	- `data_seed`: None
	- `jit_mode_eval`: False
	- `use_ipex`: False
	- `bf16`: False
	- `fp16`: False
	- `fp16_opt_level`: O1
	- `half_precision_backend`: auto
	- `bf16_full_eval`: False
	- `fp16_full_eval`: False
	- `tf32`: None
	- `local_rank`: 0
	- `ddp_backend`: None
	- `tpu_num_cores`: None
	- `tpu_metrics_debug`: False
	- `debug`: []
	- `dataloader_drop_last`: False
	- `dataloader_num_workers`: 0
	- `dataloader_prefetch_factor`: None
	- `past_index`: -1
	- `disable_tqdm`: False
	- `remove_unused_columns`: True
	- `label_names`: None
	- `load_best_model_at_end`: False
	- `ignore_data_skip`: False
	- `fsdp`: []
	- `fsdp_min_num_params`: 0
	- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
	- `fsdp_transformer_layer_cls_to_wrap`: None
	- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
	- `deepspeed`: None
	- `label_smoothing_factor`: 0.0
	- `optim`: adamw_torch
	- `optim_args`: None
	- `adafactor`: False
	- `group_by_length`: False
	- `length_column_name`: length
	- `ddp_find_unused_parameters`: None
	- `ddp_bucket_cap_mb`: None
	- `ddp_broadcast_buffers`: False
	- `dataloader_pin_memory`: True
	- `dataloader_persistent_workers`: False
	- `skip_memory_metrics`: True
	- `use_legacy_prediction_loop`: False
	- `push_to_hub`: False
	- `resume_from_checkpoint`: None
	- `hub_model_id`: None
	- `hub_strategy`: every_save
	- `hub_private_repo`: None
	- `hub_always_push`: False
	- `gradient_checkpointing`: False
	- `gradient_checkpointing_kwargs`: None
	- `include_inputs_for_metrics`: False
	- `include_for_metrics`: []
	- `eval_do_concat_batches`: True
	- `fp16_backend`: auto
	- `push_to_hub_model_id`: None
	- `push_to_hub_organization`: None
	- `mp_parameters`:
	- `auto_find_batch_size`: False
	- `full_determinism`: False
	- `torchdynamo`: None
	- `ray_scope`: last
	- `ddp_timeout`: 1800
	- `torch_compile`: False
	- `torch_compile_backend`: None
	- `torch_compile_mode`: None
	- `dispatch_batches`: None
	- `split_batches`: None
	- `include_tokens_per_second`: False
	- `include_num_input_tokens_seen`: False
	- `neftune_noise_alpha`: None
	- `optim_target_modules`: None
	- `batch_eval_metrics`: False
	- `eval_on_start`: False
	- `use_liger_kernel`: False
	- `eval_use_gather_object`: False
	- `average_tokens_across_devices`: False
	- `prompts`: None
	- `batch_sampler`: batch_sampler
	- `multi_dataset_batch_sampler`: proportional

	</details>

	### Training Logs
	\| Epoch \| Step \| Training Loss \|
	\|:------:\|:----:\|:-------------:\|
	\| 0.2376 \| 500 \| 0.061 \|
	\| 0.4753 \| 1000 \| 0.055 \|
	\| 0.7129 \| 1500 \| 0.0572 \|
	\| 0.9506 \| 2000 \| 0.0457 \|
	\| 1.1882 \| 2500 \| 0.0249 \|
	\| 1.4259 \| 3000 \| 0.0173 \|
	\| 1.6635 \| 3500 \| 0.0142 \|
	\| 1.9011 \| 4000 \| 0.0128 \|
	\| 2.1388 \| 4500 \| 0.0123 \|
	\| 2.3764 \| 5000 \| 0.0079 \|
	\| 2.6141 \| 5500 \| 0.0094 \|
	\| 2.8517 \| 6000 \| 0.0089 \|


	### Framework Versions
	- Python: 3.10.12
	- Sentence Transformers: 3.3.1
	- Transformers: 4.47.1
	- PyTorch: 2.5.1+cu121
	- Accelerate: 1.2.1
	- Datasets: 3.2.0
	- Tokenizers: 0.21.0

	## Citation

	### BibTeX

	#### Sentence Transformers
	```bibtex
	@inproceedings{reimers-2019-sentence-bert,
	title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
	author = "Reimers, Nils and Gurevych, Iryna",
	booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
	month = "11",
	year = "2019",
	publisher = "Association for Computational Linguistics",
	url = "https://arxiv.org/abs/1908.10084",
	}
	```

	#### MultipleNegativesRankingLoss
	```bibtex
	@misc{henderson2017efficient,
	title={Efficient Natural Language Response Suggestion for Smart Reply},
	author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
	year={2017},
	eprint={1705.00652},
	archivePrefix={arXiv},
	primaryClass={cs.CL}
	}
	```

	<!--
	## Glossary

	Clearly define terms in order to be accessible across audiences.
	-->

	<!--
	## Model Card Authors

	Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.
	-->

	<!--
	## Model Card Contact

	Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.
	-->