Upload folder using huggingface_hub

Browse files

Files changed (15) hide show

README.md +61 -0
all_results.json +15 -0
config.json +8 -8
eval_results.json +10 -0
generation_config.json +4 -4
model.safetensors +2 -2
runs/Mar24_11-48-02_999c6cbb45d4/events.out.tfevents.1711280895.999c6cbb45d4.1535.0 +3 -0
runs/Mar24_11-48-02_999c6cbb45d4/events.out.tfevents.1711280936.999c6cbb45d4.1535.1 +3 -0
source.spm +0 -0
target.spm +0 -0
tokenizer_config.json +3 -3
train_results.json +8 -0
trainer_state.json +11 -9
training_args.bin +1 -1
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+language:
+- ar
+- en
+license: apache-2.0
+base_model: Helsinki-NLP/opus-mt-ar-en
+tags:
+- generated_from_trainer
+metrics:
+- bleu
+model-index:
+- name: opus_2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# opus_2
+This model is a fine-tuned version of [Helsinki-NLP/opus-mt-ar-en](https://huggingface.co/Helsinki-NLP/opus-mt-ar-en) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0489
+- Bleu: 94.8725
+- Gen Len: 13.95
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- Transformers 4.40.0.dev0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 3.0,
+    "eval_bleu": 94.8725,
+    "eval_gen_len": 13.95,
+    "eval_loss": 0.04893746227025986,
+    "eval_runtime": 5.9575,
+    "eval_samples": 80,
+    "eval_samples_per_second": 13.428,
+    "eval_steps_per_second": 3.357,
+    "train_loss": 0.2005171725198215,
+    "train_runtime": 34.6596,
+    "train_samples": 627,
+    "train_samples_per_second": 54.271,
+    "train_steps_per_second": 13.589
+}

config.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
-  "_name_or_path": "Helsinki-NLP/opus-mt-en-ar",
   "activation_dropout": 0.0,
   "activation_function": "swish",
   "add_bias_logits": false,
@@ -10,7 +11,7 @@
   "attention_dropout": 0.0,
   "bad_words_ids": [
     [
-      62801
     ]
   ],
   "bos_token_id": 0,
@@ -21,15 +22,14 @@
   "decoder_ffn_dim": 2048,
   "decoder_layerdrop": 0.0,
   "decoder_layers": 6,
-  "decoder_start_token_id": 62801,
-  "decoder_vocab_size": 62802,
   "dropout": 0.1,
   "encoder_attention_heads": 8,
   "encoder_ffn_dim": 2048,
   "encoder_layerdrop": 0.0,
   "encoder_layers": 6,
   "eos_token_id": 0,
-  "extra_pos_embeddings": 62802,
   "forced_eos_token_id": 0,
   "id2label": {
     "0": "LABEL_0",
@@ -50,12 +50,12 @@
   "normalize_embedding": false,
   "num_beams": 4,
   "num_hidden_layers": 6,
-  "pad_token_id": 62801,
   "scale_embedding": true,
   "share_encoder_decoder_embeddings": true,
   "static_position_embeddings": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.39.0.dev0",
   "use_cache": true,
-  "vocab_size": 62802
 }

 {
+  "_name_or_path": "Helsinki-NLP/opus-mt-ar-en",
+  "_num_labels": 3,
   "activation_dropout": 0.0,
   "activation_function": "swish",
   "add_bias_logits": false,
   "attention_dropout": 0.0,
   "bad_words_ids": [
     [
+      62833
     ]
   ],
   "bos_token_id": 0,
   "decoder_ffn_dim": 2048,
   "decoder_layerdrop": 0.0,
   "decoder_layers": 6,
+  "decoder_start_token_id": 62833,
+  "decoder_vocab_size": 62834,
   "dropout": 0.1,
   "encoder_attention_heads": 8,
   "encoder_ffn_dim": 2048,
   "encoder_layerdrop": 0.0,
   "encoder_layers": 6,
   "eos_token_id": 0,
   "forced_eos_token_id": 0,
   "id2label": {
     "0": "LABEL_0",
   "normalize_embedding": false,
   "num_beams": 4,
   "num_hidden_layers": 6,
+  "pad_token_id": 62833,
   "scale_embedding": true,
   "share_encoder_decoder_embeddings": true,
   "static_position_embeddings": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.40.0.dev0",
   "use_cache": true,
+  "vocab_size": 62834
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "eval_bleu": 94.8725,
+    "eval_gen_len": 13.95,
+    "eval_loss": 0.04893746227025986,
+    "eval_runtime": 5.9575,
+    "eval_samples": 80,
+    "eval_samples_per_second": 13.428,
+    "eval_steps_per_second": 3.357
+}

generation_config.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
   "bad_words_ids": [
     [
-      62801
     ]
   ],
   "bos_token_id": 0,
-  "decoder_start_token_id": 62801,
   "eos_token_id": 0,
   "forced_eos_token_id": 0,
   "max_length": 512,
   "num_beams": 4,
-  "pad_token_id": 62801,
   "renormalize_logits": true,
-  "transformers_version": "4.39.0.dev0"
 }

 {
   "bad_words_ids": [
     [
+      62833
     ]
   ],
   "bos_token_id": 0,
+  "decoder_start_token_id": 62833,
   "eos_token_id": 0,
   "forced_eos_token_id": 0,
   "max_length": 512,
   "num_beams": 4,
+  "pad_token_id": 62833,
   "renormalize_logits": true,
+  "transformers_version": "4.40.0.dev0"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:876fdabd8de9b8a1552a39a5ab70a384fb6299b3fb723e27aae9d8bf5f5aaecc
-size 305452744

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce5afd45fe23e5742c4ccff0cef4bfaa9940e5d0996d9a65ba4b2ff04552f216
+size 305518408

runs/Mar24_11-48-02_999c6cbb45d4/events.out.tfevents.1711280895.999c6cbb45d4.1535.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bc4b9c03ac1ed08bbcd87e4eb57d3e264409bc40dd03a85cb5136f0b77863f8
+size 5807

runs/Mar24_11-48-02_999c6cbb45d4/events.out.tfevents.1711280936.999c6cbb45d4.1535.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6caa06100a5d2ad216debb326372f15a594bc04038b40ebeb79fae47846c04c
+size 458

source.spm CHANGED Viewed

Binary files a/source.spm and b/source.spm differ

target.spm CHANGED Viewed

Binary files a/target.spm and b/target.spm differ

tokenizer_config.json CHANGED Viewed

@@ -16,7 +16,7 @@
       "single_word": false,
       "special": true
     },
-    "62801": {
       "content": "<pad>",
       "lstrip": false,
       "normalized": false,
@@ -30,9 +30,9 @@
   "model_max_length": 512,
   "pad_token": "<pad>",
   "separate_vocabs": false,
-  "source_lang": "eng",
   "sp_model_kwargs": {},
-  "target_lang": "ara",
   "tokenizer_class": "MarianTokenizer",
   "unk_token": "<unk>"
 }

       "single_word": false,
       "special": true
     },
+    "62833": {
       "content": "<pad>",
       "lstrip": false,
       "normalized": false,
   "model_max_length": 512,
   "pad_token": "<pad>",
   "separate_vocabs": false,
+  "source_lang": "ar",
   "sp_model_kwargs": {},
+  "target_lang": "en",
   "tokenizer_class": "MarianTokenizer",
   "unk_token": "<unk>"
 }

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.2005171725198215,
+    "train_runtime": 34.6596,
+    "train_samples": 627,
+    "train_samples_per_second": 54.271,
+    "train_steps_per_second": 13.589
+}

trainer_state.json CHANGED Viewed

@@ -1,27 +1,29 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.824858757062147,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 2.82,
-      "grad_norm": 3.9365735054016113,
-      "learning_rate": 2.919020715630885e-06,
-      "loss": 0.1939,
-      "step": 500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 531,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 6335551438848.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 471,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 3.0,
+      "step": 471,
+      "total_flos": 7909441929216.0,
+      "train_loss": 0.2005171725198215,
+      "train_runtime": 34.6596,
+      "train_samples_per_second": 54.271,
+      "train_steps_per_second": 13.589
     }
   ],
   "logging_steps": 500,
+  "max_steps": 471,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 7909441929216.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da2d8a8c3cce0b00111924516d0009d42009475d9cc4facd034884be6d737922
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:357745389cc2e25c38c8fd420362968539e5493a2c89bb93ab767ccc444e9b64
 size 5048

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff