End of training

Browse files

Files changed (6) hide show

README.md +4 -4
all_results.json +13 -13
eval_results.json +7 -7
runs/Dec26_16-38-08_83479bdb9181/events.out.tfevents.1735239794.83479bdb9181.76.1 +3 -0
train_results.json +7 -7
trainer_state.json +110 -54

README.md CHANGED Viewed

@@ -5,7 +5,7 @@ base_model: openai/whisper-small
 tags:
 - generated_from_trainer
 datasets:
-- common_voice_17_0
 metrics:
 - wer
 model-index:
@@ -15,8 +15,8 @@ model-index:
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
-      name: common_voice_17_0
-      type: common_voice_17_0
       config: ar
       split: None
       args: ar
@@ -31,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 # whisper-small-dar
-This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on the common_voice_17_0 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1813
 - Wer: 0.3367

 tags:
 - generated_from_trainer
 datasets:
+- mozilla-foundation/common_voice_17_0
 metrics:
 - wer
 model-index:
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
+      name: mozilla-foundation/common_voice_17_0 ar
+      type: mozilla-foundation/common_voice_17_0
       config: ar
       split: None
       args: ar
 # whisper-small-dar
+This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on the mozilla-foundation/common_voice_17_0 ar dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1813
 - Wer: 0.3367

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 100.0,
-    "eval_loss": 1.3785362243652344,
-    "eval_runtime": 12.5874,
-    "eval_samples": 33,
-    "eval_samples_per_second": 2.622,
-    "eval_steps_per_second": 0.159,
-    "eval_wer": 0.7520215633423181,
-    "total_flos": 4.617366645252293e+18,
-    "train_loss": 0.04933440090715885,
-    "train_runtime": 2429.6725,
-    "train_samples": 148,
-    "train_samples_per_second": 6.585,
-    "train_steps_per_second": 0.206
 }

 {
+    "epoch": 2.9673590504451037,
+    "eval_loss": 0.18132926523685455,
+    "eval_runtime": 479.53,
+    "eval_samples": 2296,
+    "eval_samples_per_second": 4.788,
+    "eval_steps_per_second": 0.15,
+    "eval_wer": 0.3367421033522934,
+    "total_flos": 9.234732878187725e+18,
+    "train_loss": 0.21518024158477783,
+    "train_runtime": 7211.1645,
+    "train_samples": 10777,
+    "train_samples_per_second": 4.438,
+    "train_steps_per_second": 0.139
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 100.0,
-    "eval_loss": 1.3785362243652344,
-    "eval_runtime": 12.5874,
-    "eval_samples": 33,
-    "eval_samples_per_second": 2.622,
-    "eval_steps_per_second": 0.159,
-    "eval_wer": 0.7520215633423181
 }

 {
+    "epoch": 2.9673590504451037,
+    "eval_loss": 0.18132926523685455,
+    "eval_runtime": 479.53,
+    "eval_samples": 2296,
+    "eval_samples_per_second": 4.788,
+    "eval_steps_per_second": 0.15,
+    "eval_wer": 0.3367421033522934
 }

runs/Dec26_16-38-08_83479bdb9181/events.out.tfevents.1735239794.83479bdb9181.76.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b6a8858bb33d35fb0224836209866907cc9edb98d4f86800ccc1280b2194d02
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 100.0,
-    "total_flos": 4.617366645252293e+18,
-    "train_loss": 0.04933440090715885,
-    "train_runtime": 2429.6725,
-    "train_samples": 148,
-    "train_samples_per_second": 6.585,
-    "train_steps_per_second": 0.206
 }

 {
+    "epoch": 2.9673590504451037,
+    "total_flos": 9.234732878187725e+18,
+    "train_loss": 0.21518024158477783,
+    "train_runtime": 7211.1645,
+    "train_samples": 10777,
+    "train_samples_per_second": 4.438,
+    "train_steps_per_second": 0.139
 }

trainer_state.json CHANGED Viewed

@@ -1,86 +1,142 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 100.0,
-  "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 20.0,
-      "eval_loss": 1.218579649925232,
-      "eval_runtime": 12.9357,
-      "eval_samples_per_second": 2.551,
-      "eval_steps_per_second": 0.155,
-      "eval_wer": 0.7466307277628033,
       "step": 100
     },
     {
-      "epoch": 40.0,
-      "eval_loss": 1.3031549453735352,
-      "eval_runtime": 12.9001,
-      "eval_samples_per_second": 2.558,
-      "eval_steps_per_second": 0.155,
-      "eval_wer": 0.7358490566037735,
       "step": 200
     },
     {
-      "epoch": 50.0,
-      "grad_norm": 0.009337667375802994,
-      "learning_rate": 5.6444444444444445e-06,
-      "loss": 0.0984,
-      "step": 250
     },
     {
-      "epoch": 60.0,
-      "eval_loss": 1.348648190498352,
-      "eval_runtime": 12.4824,
-      "eval_samples_per_second": 2.644,
-      "eval_steps_per_second": 0.16,
-      "eval_wer": 0.7466307277628033,
       "step": 300
     },
     {
-      "epoch": 80.0,
-      "eval_loss": 1.371259093284607,
-      "eval_runtime": 12.6242,
-      "eval_samples_per_second": 2.614,
-      "eval_steps_per_second": 0.158,
-      "eval_wer": 0.7520215633423181,
       "step": 400
     },
     {
-      "epoch": 100.0,
-      "grad_norm": 0.006098776590079069,
-      "learning_rate": 8.88888888888889e-08,
-      "loss": 0.0003,
-      "step": 500
     },
     {
-      "epoch": 100.0,
-      "eval_loss": 1.3785362243652344,
-      "eval_runtime": 12.7001,
-      "eval_samples_per_second": 2.598,
-      "eval_steps_per_second": 0.157,
-      "eval_wer": 0.7520215633423181,
       "step": 500
     },
     {
-      "epoch": 100.0,
-      "step": 500,
-      "total_flos": 4.617366645252293e+18,
-      "train_loss": 0.04933440090715885,
-      "train_runtime": 2429.6725,
-      "train_samples_per_second": 6.585,
-      "train_steps_per_second": 0.206
     }
   ],
-  "logging_steps": 250,
-  "max_steps": 500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 100,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -94,7 +150,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.617366645252293e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9673590504451037,
+  "eval_steps": 200,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.29673590504451036,
+      "grad_norm": 4.922755241394043,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.6132,
       "step": 100
     },
     {
+      "epoch": 0.5934718100890207,
+      "grad_norm": 4.277930736541748,
+      "learning_rate": 8.933333333333333e-06,
+      "loss": 0.303,
       "step": 200
     },
     {
+      "epoch": 0.5934718100890207,
+      "eval_loss": 0.24335336685180664,
+      "eval_runtime": 493.5362,
+      "eval_samples_per_second": 4.652,
+      "eval_steps_per_second": 0.146,
+      "eval_wer": 0.4226068014038485,
+      "step": 200
     },
     {
+      "epoch": 0.8902077151335311,
+      "grad_norm": 4.590033054351807,
+      "learning_rate": 7.822222222222224e-06,
+      "loss": 0.2564,
       "step": 300
     },
     {
+      "epoch": 1.1869436201780414,
+      "grad_norm": 3.3569984436035156,
+      "learning_rate": 6.711111111111111e-06,
+      "loss": 0.2,
       "step": 400
     },
     {
+      "epoch": 1.1869436201780414,
+      "eval_loss": 0.20352379977703094,
+      "eval_runtime": 482.7378,
+      "eval_samples_per_second": 4.756,
+      "eval_steps_per_second": 0.149,
+      "eval_wer": 0.39138327483964663,
+      "step": 400
     },
     {
+      "epoch": 1.4836795252225519,
+      "grad_norm": 3.2953569889068604,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.1637,
       "step": 500
     },
     {
+      "epoch": 1.7804154302670623,
+      "grad_norm": 3.363754987716675,
+      "learning_rate": 4.488888888888889e-06,
+      "loss": 0.1633,
+      "step": 600
+    },
+    {
+      "epoch": 1.7804154302670623,
+      "eval_loss": 0.18764939904212952,
+      "eval_runtime": 484.1747,
+      "eval_samples_per_second": 4.742,
+      "eval_steps_per_second": 0.149,
+      "eval_wer": 0.3469079026987777,
+      "step": 600
+    },
+    {
+      "epoch": 2.077151335311573,
+      "grad_norm": 2.2284867763519287,
+      "learning_rate": 3.377777777777778e-06,
+      "loss": 0.1428,
+      "step": 700
+    },
+    {
+      "epoch": 2.373887240356083,
+      "grad_norm": 2.0610995292663574,
+      "learning_rate": 2.266666666666667e-06,
+      "loss": 0.106,
+      "step": 800
+    },
+    {
+      "epoch": 2.373887240356083,
+      "eval_loss": 0.18498285114765167,
+      "eval_runtime": 480.7097,
+      "eval_samples_per_second": 4.776,
+      "eval_steps_per_second": 0.15,
+      "eval_wer": 0.3487837347210456,
+      "step": 800
+    },
+    {
+      "epoch": 2.6706231454005933,
+      "grad_norm": 2.554095983505249,
+      "learning_rate": 1.1555555555555556e-06,
+      "loss": 0.1029,
+      "step": 900
+    },
+    {
+      "epoch": 2.9673590504451037,
+      "grad_norm": 2.727163314819336,
+      "learning_rate": 4.444444444444445e-08,
+      "loss": 0.1005,
+      "step": 1000
+    },
+    {
+      "epoch": 2.9673590504451037,
+      "eval_loss": 0.18132926523685455,
+      "eval_runtime": 479.4261,
+      "eval_samples_per_second": 4.789,
+      "eval_steps_per_second": 0.15,
+      "eval_wer": 0.3367421033522934,
+      "step": 1000
+    },
+    {
+      "epoch": 2.9673590504451037,
+      "step": 1000,
+      "total_flos": 9.234732878187725e+18,
+      "train_loss": 0.21518024158477783,
+      "train_runtime": 7211.1645,
+      "train_samples_per_second": 4.438,
+      "train_steps_per_second": 0.139
     }
   ],
+  "logging_steps": 100,
+  "max_steps": 1000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 9.234732878187725e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null