{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.998698642870422,
  "eval_steps": 500,
  "global_step": 3360,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.014872652909462726,
      "grad_norm": 1.0425002574920654,
      "learning_rate": 8.928571428571428e-06,
      "loss": 0.4346,
      "step": 10
    },
    {
      "epoch": 0.02974530581892545,
      "grad_norm": 0.5861272811889648,
      "learning_rate": 1.7857142857142855e-05,
      "loss": 0.3527,
      "step": 20
    },
    {
      "epoch": 0.044617958728388175,
      "grad_norm": 0.5629558563232422,
      "learning_rate": 2.6785714285714284e-05,
      "loss": 0.2922,
      "step": 30
    },
    {
      "epoch": 0.0594906116378509,
      "grad_norm": 0.49566933512687683,
      "learning_rate": 3.571428571428571e-05,
      "loss": 0.281,
      "step": 40
    },
    {
      "epoch": 0.07436326454731362,
      "grad_norm": 0.45387113094329834,
      "learning_rate": 4.4642857142857136e-05,
      "loss": 0.2689,
      "step": 50
    },
    {
      "epoch": 0.08923591745677635,
      "grad_norm": 0.43913352489471436,
      "learning_rate": 5.357142857142857e-05,
      "loss": 0.2506,
      "step": 60
    },
    {
      "epoch": 0.10410857036623908,
      "grad_norm": 0.7242547869682312,
      "learning_rate": 6.25e-05,
      "loss": 0.229,
      "step": 70
    },
    {
      "epoch": 0.1189812232757018,
      "grad_norm": 0.5109072923660278,
      "learning_rate": 7.142857142857142e-05,
      "loss": 0.2373,
      "step": 80
    },
    {
      "epoch": 0.13385387618516453,
      "grad_norm": 0.5291035175323486,
      "learning_rate": 8.035714285714285e-05,
      "loss": 0.2405,
      "step": 90
    },
    {
      "epoch": 0.14872652909462725,
      "grad_norm": 0.48036572337150574,
      "learning_rate": 8.928571428571427e-05,
      "loss": 0.2274,
      "step": 100
    },
    {
      "epoch": 0.16359918200409,
      "grad_norm": 0.3294093906879425,
      "learning_rate": 9.82142857142857e-05,
      "loss": 0.2038,
      "step": 110
    },
    {
      "epoch": 0.1784718349135527,
      "grad_norm": 0.49968525767326355,
      "learning_rate": 0.00010714285714285714,
      "loss": 0.2084,
      "step": 120
    },
    {
      "epoch": 0.19334448782301544,
      "grad_norm": 0.32227209210395813,
      "learning_rate": 0.00011607142857142857,
      "loss": 0.1981,
      "step": 130
    },
    {
      "epoch": 0.20821714073247816,
      "grad_norm": 0.37266677618026733,
      "learning_rate": 0.000125,
      "loss": 0.2192,
      "step": 140
    },
    {
      "epoch": 0.22308979364194087,
      "grad_norm": 0.5228686928749084,
      "learning_rate": 0.00013392857142857144,
      "loss": 0.2014,
      "step": 150
    },
    {
      "epoch": 0.2379624465514036,
      "grad_norm": 0.4202245771884918,
      "learning_rate": 0.00014285714285714284,
      "loss": 0.1912,
      "step": 160
    },
    {
      "epoch": 0.25283509946086635,
      "grad_norm": 0.45801258087158203,
      "learning_rate": 0.00015178571428571427,
      "loss": 0.212,
      "step": 170
    },
    {
      "epoch": 0.26770775237032907,
      "grad_norm": 0.4326329827308655,
      "learning_rate": 0.0001607142857142857,
      "loss": 0.1973,
      "step": 180
    },
    {
      "epoch": 0.2825804052797918,
      "grad_norm": 0.38971471786499023,
      "learning_rate": 0.0001696428571428571,
      "loss": 0.1907,
      "step": 190
    },
    {
      "epoch": 0.2974530581892545,
      "grad_norm": 0.3728097975254059,
      "learning_rate": 0.00017857142857142854,
      "loss": 0.192,
      "step": 200
    },
    {
      "epoch": 0.3123257110987172,
      "grad_norm": 0.34695690870285034,
      "learning_rate": 0.00018749999999999998,
      "loss": 0.1855,
      "step": 210
    },
    {
      "epoch": 0.32719836400818,
      "grad_norm": 0.41753408312797546,
      "learning_rate": 0.0001964285714285714,
      "loss": 0.1883,
      "step": 220
    },
    {
      "epoch": 0.3420710169176427,
      "grad_norm": 0.27681878209114075,
      "learning_rate": 0.00020535714285714284,
      "loss": 0.1809,
      "step": 230
    },
    {
      "epoch": 0.3569436698271054,
      "grad_norm": 2.382871150970459,
      "learning_rate": 0.00021428571428571427,
      "loss": 0.1735,
      "step": 240
    },
    {
      "epoch": 0.3718163227365681,
      "grad_norm": 160.2670440673828,
      "learning_rate": 0.0002232142857142857,
      "loss": 1.2159,
      "step": 250
    },
    {
      "epoch": 0.3866889756460309,
      "grad_norm": 21.60050392150879,
      "learning_rate": 0.00023214285714285714,
      "loss": 5.4026,
      "step": 260
    },
    {
      "epoch": 0.4015616285554936,
      "grad_norm": 13.928524017333984,
      "learning_rate": 0.00024107142857142857,
      "loss": 4.3573,
      "step": 270
    },
    {
      "epoch": 0.4164342814649563,
      "grad_norm": 5.3707685470581055,
      "learning_rate": 0.00025,
      "loss": 3.2782,
      "step": 280
    },
    {
      "epoch": 0.431306934374419,
      "grad_norm": 5.556903839111328,
      "learning_rate": 0.0002589285714285714,
      "loss": 2.8033,
      "step": 290
    },
    {
      "epoch": 0.44617958728388174,
      "grad_norm": 2.512521505355835,
      "learning_rate": 0.00026785714285714287,
      "loss": 2.5486,
      "step": 300
    },
    {
      "epoch": 0.4610522401933445,
      "grad_norm": 3.592169761657715,
      "learning_rate": 0.0002767857142857143,
      "loss": 2.2779,
      "step": 310
    },
    {
      "epoch": 0.4759248931028072,
      "grad_norm": 2.791459321975708,
      "learning_rate": 0.0002857142857142857,
      "loss": 2.1011,
      "step": 320
    },
    {
      "epoch": 0.49079754601226994,
      "grad_norm": 1.1407463550567627,
      "learning_rate": 0.0002946428571428571,
      "loss": 1.9929,
      "step": 330
    },
    {
      "epoch": 0.5056701989217327,
      "grad_norm": 1.795841097831726,
      "learning_rate": 0.0002999987048597728,
      "loss": 1.8818,
      "step": 340
    },
    {
      "epoch": 0.5205428518311954,
      "grad_norm": 1.4798821210861206,
      "learning_rate": 0.00029998413478906613,
      "loss": 1.772,
      "step": 350
    },
    {
      "epoch": 0.5354155047406581,
      "grad_norm": 1.5337024927139282,
      "learning_rate": 0.0002999533773001224,
      "loss": 1.6782,
      "step": 360
    },
    {
      "epoch": 0.5502881576501208,
      "grad_norm": 1.332065463066101,
      "learning_rate": 0.00029990643571252174,
      "loss": 1.6035,
      "step": 370
    },
    {
      "epoch": 0.5651608105595836,
      "grad_norm": 1.0516103506088257,
      "learning_rate": 0.00029984331509255415,
      "loss": 1.5053,
      "step": 380
    },
    {
      "epoch": 0.5800334634690463,
      "grad_norm": 1.034192442893982,
      "learning_rate": 0.00029976402225267247,
      "loss": 1.3906,
      "step": 390
    },
    {
      "epoch": 0.594906116378509,
      "grad_norm": 1.2757515907287598,
      "learning_rate": 0.0002996685657507577,
      "loss": 1.2592,
      "step": 400
    },
    {
      "epoch": 0.6097787692879717,
      "grad_norm": 0.8252782225608826,
      "learning_rate": 0.000299556955889195,
      "loss": 1.0907,
      "step": 410
    },
    {
      "epoch": 0.6246514221974344,
      "grad_norm": 1.020588994026184,
      "learning_rate": 0.0002994292047137618,
      "loss": 0.9035,
      "step": 420
    },
    {
      "epoch": 0.6395240751068972,
      "grad_norm": 0.5973761677742004,
      "learning_rate": 0.0002992853260123278,
      "loss": 0.7538,
      "step": 430
    },
    {
      "epoch": 0.65439672801636,
      "grad_norm": 0.6886543035507202,
      "learning_rate": 0.0002991253353133668,
      "loss": 0.6621,
      "step": 440
    },
    {
      "epoch": 0.6692693809258227,
      "grad_norm": 0.44221287965774536,
      "learning_rate": 0.00029894924988428087,
      "loss": 0.59,
      "step": 450
    },
    {
      "epoch": 0.6841420338352854,
      "grad_norm": 0.7888408899307251,
      "learning_rate": 0.00029875708872953677,
      "loss": 0.539,
      "step": 460
    },
    {
      "epoch": 0.6990146867447481,
      "grad_norm": 0.43110209703445435,
      "learning_rate": 0.00029854887258861447,
      "loss": 0.4903,
      "step": 470
    },
    {
      "epoch": 0.7138873396542108,
      "grad_norm": 0.41334015130996704,
      "learning_rate": 0.0002983246239337692,
      "loss": 0.4488,
      "step": 480
    },
    {
      "epoch": 0.7287599925636735,
      "grad_norm": 0.3482460379600525,
      "learning_rate": 0.0002980843669676061,
      "loss": 0.4165,
      "step": 490
    },
    {
      "epoch": 0.7436326454731362,
      "grad_norm": 0.3593901991844177,
      "learning_rate": 0.0002978281276204675,
      "loss": 0.3821,
      "step": 500
    },
    {
      "epoch": 0.7436326454731362,
      "eval_loss": 0.37597203254699707,
      "eval_runtime": 212.4955,
      "eval_samples_per_second": 22.499,
      "eval_steps_per_second": 22.499,
      "step": 500
    },
    {
      "epoch": 0.758505298382599,
      "grad_norm": 0.4221905469894409,
      "learning_rate": 0.00029755593354763516,
      "loss": 0.3627,
      "step": 510
    },
    {
      "epoch": 0.7733779512920618,
      "grad_norm": 0.31105437874794006,
      "learning_rate": 0.0002972678141263449,
      "loss": 0.3346,
      "step": 520
    },
    {
      "epoch": 0.7882506042015245,
      "grad_norm": 0.2600822150707245,
      "learning_rate": 0.000296963800452616,
      "loss": 0.3217,
      "step": 530
    },
    {
      "epoch": 0.8031232571109872,
      "grad_norm": 0.21437157690525055,
      "learning_rate": 0.0002966439253378957,
      "loss": 0.3095,
      "step": 540
    },
    {
      "epoch": 0.8179959100204499,
      "grad_norm": 0.22641418874263763,
      "learning_rate": 0.000296308223305517,
      "loss": 0.2866,
      "step": 550
    },
    {
      "epoch": 0.8328685629299126,
      "grad_norm": 0.2200980931520462,
      "learning_rate": 0.00029595673058697357,
      "loss": 0.2579,
      "step": 560
    },
    {
      "epoch": 0.8477412158393753,
      "grad_norm": 0.21351036429405212,
      "learning_rate": 0.0002955894851180086,
      "loss": 0.2727,
      "step": 570
    },
    {
      "epoch": 0.862613868748838,
      "grad_norm": 0.2137759029865265,
      "learning_rate": 0.0002952065265345211,
      "loss": 0.2621,
      "step": 580
    },
    {
      "epoch": 0.8774865216583008,
      "grad_norm": 0.18923349678516388,
      "learning_rate": 0.00029480789616828765,
      "loss": 0.2647,
      "step": 590
    },
    {
      "epoch": 0.8923591745677635,
      "grad_norm": 0.1697588562965393,
      "learning_rate": 0.00029439363704250176,
      "loss": 0.2434,
      "step": 600
    },
    {
      "epoch": 0.9072318274772263,
      "grad_norm": 0.15528830885887146,
      "learning_rate": 0.0002939637938671306,
      "loss": 0.2293,
      "step": 610
    },
    {
      "epoch": 0.922104480386689,
      "grad_norm": 0.43390974402427673,
      "learning_rate": 0.0002935184130340893,
      "loss": 0.228,
      "step": 620
    },
    {
      "epoch": 0.9369771332961517,
      "grad_norm": 0.2026420682668686,
      "learning_rate": 0.000293057542612234,
      "loss": 0.2355,
      "step": 630
    },
    {
      "epoch": 0.9518497862056144,
      "grad_norm": 0.16864228248596191,
      "learning_rate": 0.00029258123234217435,
      "loss": 0.2213,
      "step": 640
    },
    {
      "epoch": 0.9667224391150772,
      "grad_norm": 0.15947186946868896,
      "learning_rate": 0.0002920895336309044,
      "loss": 0.2079,
      "step": 650
    },
    {
      "epoch": 0.9815950920245399,
      "grad_norm": 0.21965055167675018,
      "learning_rate": 0.0002915824995462551,
      "loss": 0.2002,
      "step": 660
    },
    {
      "epoch": 0.9964677449340026,
      "grad_norm": 0.23223313689231873,
      "learning_rate": 0.00029106018481116626,
      "loss": 0.1983,
      "step": 670
    },
    {
      "epoch": 1.0117122141662018,
      "grad_norm": 0.26117920875549316,
      "learning_rate": 0.00029052264579778063,
      "loss": 0.2175,
      "step": 680
    },
    {
      "epoch": 1.0265848670756645,
      "grad_norm": 0.176736518740654,
      "learning_rate": 0.00028996994052135996,
      "loss": 0.1831,
      "step": 690
    },
    {
      "epoch": 1.0414575199851273,
      "grad_norm": 0.17873461544513702,
      "learning_rate": 0.0002894021286340233,
      "loss": 0.1784,
      "step": 700
    },
    {
      "epoch": 1.05633017289459,
      "grad_norm": 0.2646450996398926,
      "learning_rate": 0.0002888192714183092,
      "loss": 0.1784,
      "step": 710
    },
    {
      "epoch": 1.0712028258040527,
      "grad_norm": 0.16840551793575287,
      "learning_rate": 0.00028822143178056114,
      "loss": 0.1726,
      "step": 720
    },
    {
      "epoch": 1.0860754787135156,
      "grad_norm": 0.1423952877521515,
      "learning_rate": 0.0002876086742441387,
      "loss": 0.1608,
      "step": 730
    },
    {
      "epoch": 1.1009481316229783,
      "grad_norm": 0.16237640380859375,
      "learning_rate": 0.0002869810649424535,
      "loss": 0.179,
      "step": 740
    },
    {
      "epoch": 1.115820784532441,
      "grad_norm": 0.158773735165596,
      "learning_rate": 0.0002863386716118316,
      "loss": 0.1742,
      "step": 750
    },
    {
      "epoch": 1.1306934374419038,
      "grad_norm": 0.17627516388893127,
      "learning_rate": 0.0002856815635842029,
      "loss": 0.1821,
      "step": 760
    },
    {
      "epoch": 1.1455660903513665,
      "grad_norm": 0.23613831400871277,
      "learning_rate": 0.00028500981177961816,
      "loss": 0.156,
      "step": 770
    },
    {
      "epoch": 1.1604387432608292,
      "grad_norm": 0.16501256823539734,
      "learning_rate": 0.0002843234886985951,
      "loss": 0.1517,
      "step": 780
    },
    {
      "epoch": 1.175311396170292,
      "grad_norm": 0.2365158647298813,
      "learning_rate": 0.00028362266841429345,
      "loss": 0.1391,
      "step": 790
    },
    {
      "epoch": 1.1901840490797546,
      "grad_norm": 0.17508777976036072,
      "learning_rate": 0.00028290742656452014,
      "loss": 0.1434,
      "step": 800
    },
    {
      "epoch": 1.2050567019892173,
      "grad_norm": 0.145797461271286,
      "learning_rate": 0.0002821778403435663,
      "loss": 0.1607,
      "step": 810
    },
    {
      "epoch": 1.21992935489868,
      "grad_norm": 0.15968403220176697,
      "learning_rate": 0.00028143398849387577,
      "loss": 0.1536,
      "step": 820
    },
    {
      "epoch": 1.2348020078081428,
      "grad_norm": 0.1553070992231369,
      "learning_rate": 0.00028067595129754647,
      "loss": 0.1481,
      "step": 830
    },
    {
      "epoch": 1.2496746607176055,
      "grad_norm": 0.1769135743379593,
      "learning_rate": 0.0002799038105676658,
      "loss": 0.1285,
      "step": 840
    },
    {
      "epoch": 1.2645473136270682,
      "grad_norm": 0.1639111191034317,
      "learning_rate": 0.0002791176496394808,
      "loss": 0.144,
      "step": 850
    },
    {
      "epoch": 1.279419966536531,
      "grad_norm": 0.19045153260231018,
      "learning_rate": 0.00027831755336140416,
      "loss": 0.1347,
      "step": 860
    },
    {
      "epoch": 1.2942926194459936,
      "grad_norm": 0.18079642951488495,
      "learning_rate": 0.00027750360808585637,
      "loss": 0.1254,
      "step": 870
    },
    {
      "epoch": 1.3091652723554563,
      "grad_norm": 0.18368874490261078,
      "learning_rate": 0.00027667590165994613,
      "loss": 0.1289,
      "step": 880
    },
    {
      "epoch": 1.324037925264919,
      "grad_norm": 0.20005619525909424,
      "learning_rate": 0.00027583452341598935,
      "loss": 0.1246,
      "step": 890
    },
    {
      "epoch": 1.338910578174382,
      "grad_norm": 0.1317131668329239,
      "learning_rate": 0.0002749795641618673,
      "loss": 0.1238,
      "step": 900
    },
    {
      "epoch": 1.3537832310838445,
      "grad_norm": 0.15287995338439941,
      "learning_rate": 0.00027411111617122656,
      "loss": 0.1224,
      "step": 910
    },
    {
      "epoch": 1.3686558839933074,
      "grad_norm": 0.1613466739654541,
      "learning_rate": 0.0002732292731735196,
      "loss": 0.1178,
      "step": 920
    },
    {
      "epoch": 1.3835285369027701,
      "grad_norm": 0.1685304194688797,
      "learning_rate": 0.000272334130343889,
      "loss": 0.1201,
      "step": 930
    },
    {
      "epoch": 1.3984011898122328,
      "grad_norm": 0.19208119809627533,
      "learning_rate": 0.0002714257842928956,
      "loss": 0.1103,
      "step": 940
    },
    {
      "epoch": 1.4132738427216955,
      "grad_norm": 0.17899583280086517,
      "learning_rate": 0.00027050433305609125,
      "loss": 0.1128,
      "step": 950
    },
    {
      "epoch": 1.4281464956311583,
      "grad_norm": 0.19848547875881195,
      "learning_rate": 0.0002695698760834384,
      "loss": 0.1112,
      "step": 960
    },
    {
      "epoch": 1.443019148540621,
      "grad_norm": 0.1710231602191925,
      "learning_rate": 0.0002686225142285762,
      "loss": 0.1107,
      "step": 970
    },
    {
      "epoch": 1.4578918014500837,
      "grad_norm": 0.1552249938249588,
      "learning_rate": 0.0002676623497379363,
      "loss": 0.0984,
      "step": 980
    },
    {
      "epoch": 1.4727644543595464,
      "grad_norm": 0.1702568084001541,
      "learning_rate": 0.0002666894862397072,
      "loss": 0.1109,
      "step": 990
    },
    {
      "epoch": 1.487637107269009,
      "grad_norm": 0.12360525131225586,
      "learning_rate": 0.00026570402873264996,
      "loss": 0.1018,
      "step": 1000
    },
    {
      "epoch": 1.487637107269009,
      "eval_loss": 0.10193677991628647,
      "eval_runtime": 212.152,
      "eval_samples_per_second": 22.536,
      "eval_steps_per_second": 22.536,
      "step": 1000
    },
    {
      "epoch": 1.5025097601784718,
      "grad_norm": 0.14356306195259094,
      "learning_rate": 0.0002647060835747659,
      "loss": 0.101,
      "step": 1010
    },
    {
      "epoch": 1.5173824130879345,
      "grad_norm": 0.12723973393440247,
      "learning_rate": 0.00026369575847181795,
      "loss": 0.095,
      "step": 1020
    },
    {
      "epoch": 1.5322550659973972,
      "grad_norm": 0.12857410311698914,
      "learning_rate": 0.0002626731624657058,
      "loss": 0.0915,
      "step": 1030
    },
    {
      "epoch": 1.54712771890686,
      "grad_norm": 0.1593610793352127,
      "learning_rate": 0.0002616384059226977,
      "loss": 0.0993,
      "step": 1040
    },
    {
      "epoch": 1.562000371816323,
      "grad_norm": 0.11687605082988739,
      "learning_rate": 0.0002605916005215186,
      "loss": 0.0894,
      "step": 1050
    },
    {
      "epoch": 1.5768730247257854,
      "grad_norm": 0.1873299479484558,
      "learning_rate": 0.0002595328592412969,
      "loss": 0.097,
      "step": 1060
    },
    {
      "epoch": 1.5917456776352483,
      "grad_norm": 0.1516319364309311,
      "learning_rate": 0.00025846229634937136,
      "loss": 0.0931,
      "step": 1070
    },
    {
      "epoch": 1.6066183305447108,
      "grad_norm": 0.1431397646665573,
      "learning_rate": 0.0002573800273889577,
      "loss": 0.0918,
      "step": 1080
    },
    {
      "epoch": 1.6214909834541738,
      "grad_norm": 0.17975349724292755,
      "learning_rate": 0.0002562861691666793,
      "loss": 0.0892,
      "step": 1090
    },
    {
      "epoch": 1.6363636363636362,
      "grad_norm": 0.1414797306060791,
      "learning_rate": 0.0002551808397399597,
      "loss": 0.0952,
      "step": 1100
    },
    {
      "epoch": 1.6512362892730992,
      "grad_norm": 0.151850625872612,
      "learning_rate": 0.0002540641584042812,
      "loss": 0.1008,
      "step": 1110
    },
    {
      "epoch": 1.6661089421825617,
      "grad_norm": 0.1266675442457199,
      "learning_rate": 0.00025293624568031,
      "loss": 0.0782,
      "step": 1120
    },
    {
      "epoch": 1.6809815950920246,
      "grad_norm": 0.12076599150896072,
      "learning_rate": 0.0002517972233008882,
      "loss": 0.0772,
      "step": 1130
    },
    {
      "epoch": 1.6958542480014873,
      "grad_norm": 0.125094935297966,
      "learning_rate": 0.0002506472141978955,
      "loss": 0.0837,
      "step": 1140
    },
    {
      "epoch": 1.71072690091095,
      "grad_norm": 0.13272984325885773,
      "learning_rate": 0.0002494863424889819,
      "loss": 0.0736,
      "step": 1150
    },
    {
      "epoch": 1.7255995538204127,
      "grad_norm": 0.16893050074577332,
      "learning_rate": 0.00024831473346417153,
      "loss": 0.0856,
      "step": 1160
    },
    {
      "epoch": 1.7404722067298755,
      "grad_norm": 0.11702137440443039,
      "learning_rate": 0.00024713251357234053,
      "loss": 0.0799,
      "step": 1170
    },
    {
      "epoch": 1.7553448596393382,
      "grad_norm": 0.13682794570922852,
      "learning_rate": 0.00024593981040756997,
      "loss": 0.089,
      "step": 1180
    },
    {
      "epoch": 1.7702175125488009,
      "grad_norm": 0.13676613569259644,
      "learning_rate": 0.0002447367526953746,
      "loss": 0.0797,
      "step": 1190
    },
    {
      "epoch": 1.7850901654582636,
      "grad_norm": 0.13324877619743347,
      "learning_rate": 0.00024352347027881003,
      "loss": 0.0792,
      "step": 1200
    },
    {
      "epoch": 1.7999628183677263,
      "grad_norm": 0.11255478858947754,
      "learning_rate": 0.00024230009410445893,
      "loss": 0.0763,
      "step": 1210
    },
    {
      "epoch": 1.814835471277189,
      "grad_norm": 0.10950371623039246,
      "learning_rate": 0.0002410667562082985,
      "loss": 0.0663,
      "step": 1220
    },
    {
      "epoch": 1.8297081241866517,
      "grad_norm": 0.11777317523956299,
      "learning_rate": 0.00023982358970145004,
      "loss": 0.0694,
      "step": 1230
    },
    {
      "epoch": 1.8445807770961147,
      "grad_norm": 0.1194106712937355,
      "learning_rate": 0.00023857072875581244,
      "loss": 0.0703,
      "step": 1240
    },
    {
      "epoch": 1.8594534300055772,
      "grad_norm": 0.11233114451169968,
      "learning_rate": 0.00023730830858958177,
      "loss": 0.0655,
      "step": 1250
    },
    {
      "epoch": 1.87432608291504,
      "grad_norm": 0.11641702055931091,
      "learning_rate": 0.00023603646545265687,
      "loss": 0.0645,
      "step": 1260
    },
    {
      "epoch": 1.8891987358245026,
      "grad_norm": 0.1414889097213745,
      "learning_rate": 0.00023475533661193495,
      "loss": 0.068,
      "step": 1270
    },
    {
      "epoch": 1.9040713887339655,
      "grad_norm": 0.10632241517305374,
      "learning_rate": 0.00023346506033649614,
      "loss": 0.064,
      "step": 1280
    },
    {
      "epoch": 1.918944041643428,
      "grad_norm": 0.10176625102758408,
      "learning_rate": 0.0002321657758826807,
      "loss": 0.062,
      "step": 1290
    },
    {
      "epoch": 1.933816694552891,
      "grad_norm": 0.09434150904417038,
      "learning_rate": 0.00023085762347905943,
      "loss": 0.0684,
      "step": 1300
    },
    {
      "epoch": 1.9486893474623534,
      "grad_norm": 0.12967799603939056,
      "learning_rate": 0.00022954074431129915,
      "loss": 0.0605,
      "step": 1310
    },
    {
      "epoch": 1.9635620003718164,
      "grad_norm": 0.1181391179561615,
      "learning_rate": 0.0002282152805069247,
      "loss": 0.0654,
      "step": 1320
    },
    {
      "epoch": 1.978434653281279,
      "grad_norm": 0.10801093280315399,
      "learning_rate": 0.00022688137511997977,
      "loss": 0.07,
      "step": 1330
    },
    {
      "epoch": 1.9933073061907418,
      "grad_norm": 0.11437591165304184,
      "learning_rate": 0.00022553917211558713,
      "loss": 0.0578,
      "step": 1340
    },
    {
      "epoch": 2.008551775422941,
      "grad_norm": 0.11018254607915878,
      "learning_rate": 0.0002241888163544111,
      "loss": 0.0565,
      "step": 1350
    },
    {
      "epoch": 2.0234244283324037,
      "grad_norm": 0.08331198990345001,
      "learning_rate": 0.0002228304535770228,
      "loss": 0.0399,
      "step": 1360
    },
    {
      "epoch": 2.0382970812418666,
      "grad_norm": 0.09547814726829529,
      "learning_rate": 0.00022146423038817102,
      "loss": 0.0438,
      "step": 1370
    },
    {
      "epoch": 2.053169734151329,
      "grad_norm": 0.10641171038150787,
      "learning_rate": 0.00022009029424095928,
      "loss": 0.0384,
      "step": 1380
    },
    {
      "epoch": 2.068042387060792,
      "grad_norm": 0.10844069719314575,
      "learning_rate": 0.0002187087934209318,
      "loss": 0.044,
      "step": 1390
    },
    {
      "epoch": 2.0829150399702545,
      "grad_norm": 0.10333788394927979,
      "learning_rate": 0.00021731987703006933,
      "loss": 0.041,
      "step": 1400
    },
    {
      "epoch": 2.0977876928797174,
      "grad_norm": 0.10635129362344742,
      "learning_rate": 0.0002159236949706967,
      "loss": 0.04,
      "step": 1410
    },
    {
      "epoch": 2.11266034578918,
      "grad_norm": 0.09010270237922668,
      "learning_rate": 0.00021452039792930474,
      "loss": 0.0402,
      "step": 1420
    },
    {
      "epoch": 2.127532998698643,
      "grad_norm": 0.09274252504110336,
      "learning_rate": 0.00021311013736028658,
      "loss": 0.0384,
      "step": 1430
    },
    {
      "epoch": 2.1424056516081054,
      "grad_norm": 0.08550871163606644,
      "learning_rate": 0.00021169306546959174,
      "loss": 0.0428,
      "step": 1440
    },
    {
      "epoch": 2.1572783045175683,
      "grad_norm": 0.10152186453342438,
      "learning_rate": 0.00021026933519829896,
      "loss": 0.0442,
      "step": 1450
    },
    {
      "epoch": 2.1721509574270312,
      "grad_norm": 0.08528181910514832,
      "learning_rate": 0.00020883910020610957,
      "loss": 0.0375,
      "step": 1460
    },
    {
      "epoch": 2.1870236103364937,
      "grad_norm": 0.09736708551645279,
      "learning_rate": 0.00020740251485476345,
      "loss": 0.0387,
      "step": 1470
    },
    {
      "epoch": 2.2018962632459567,
      "grad_norm": 0.09133671224117279,
      "learning_rate": 0.00020595973419137908,
      "loss": 0.0373,
      "step": 1480
    },
    {
      "epoch": 2.216768916155419,
      "grad_norm": 0.08406363427639008,
      "learning_rate": 0.00020451091393171964,
      "loss": 0.0381,
      "step": 1490
    },
    {
      "epoch": 2.231641569064882,
      "grad_norm": 0.08503925055265427,
      "learning_rate": 0.00020305621044338718,
      "loss": 0.0376,
      "step": 1500
    },
    {
      "epoch": 2.231641569064882,
      "eval_loss": 0.051042910665273666,
      "eval_runtime": 212.5441,
      "eval_samples_per_second": 22.494,
      "eval_steps_per_second": 22.494,
      "step": 1500
    },
    {
      "epoch": 2.2465142219743446,
      "grad_norm": 0.09201103448867798,
      "learning_rate": 0.00020159578072894606,
      "loss": 0.0393,
      "step": 1510
    },
    {
      "epoch": 2.2613868748838075,
      "grad_norm": 0.09499834477901459,
      "learning_rate": 0.00020012978240897814,
      "loss": 0.0346,
      "step": 1520
    },
    {
      "epoch": 2.27625952779327,
      "grad_norm": 0.09396501630544662,
      "learning_rate": 0.00019865837370507106,
      "loss": 0.039,
      "step": 1530
    },
    {
      "epoch": 2.291132180702733,
      "grad_norm": 0.08983522653579712,
      "learning_rate": 0.00019718171342274205,
      "loss": 0.0387,
      "step": 1540
    },
    {
      "epoch": 2.3060048336121954,
      "grad_norm": 0.1118871420621872,
      "learning_rate": 0.00019569996093429814,
      "loss": 0.0379,
      "step": 1550
    },
    {
      "epoch": 2.3208774865216584,
      "grad_norm": 0.08434595167636871,
      "learning_rate": 0.00019421327616163563,
      "loss": 0.0372,
      "step": 1560
    },
    {
      "epoch": 2.335750139431121,
      "grad_norm": 0.0915694460272789,
      "learning_rate": 0.00019272181955898017,
      "loss": 0.036,
      "step": 1570
    },
    {
      "epoch": 2.350622792340584,
      "grad_norm": 0.08459066599607468,
      "learning_rate": 0.0001912257520955692,
      "loss": 0.0363,
      "step": 1580
    },
    {
      "epoch": 2.3654954452500463,
      "grad_norm": 0.09195558726787567,
      "learning_rate": 0.00018972523523827907,
      "loss": 0.0389,
      "step": 1590
    },
    {
      "epoch": 2.3803680981595092,
      "grad_norm": 0.09830203652381897,
      "learning_rate": 0.0001882204309341982,
      "loss": 0.0373,
      "step": 1600
    },
    {
      "epoch": 2.3952407510689717,
      "grad_norm": 0.08541320264339447,
      "learning_rate": 0.00018671150159314855,
      "loss": 0.0342,
      "step": 1610
    },
    {
      "epoch": 2.4101134039784347,
      "grad_norm": 0.08817029744386673,
      "learning_rate": 0.00018519861007015729,
      "loss": 0.0371,
      "step": 1620
    },
    {
      "epoch": 2.4249860568878976,
      "grad_norm": 0.08839129656553268,
      "learning_rate": 0.00018368191964788,
      "loss": 0.0355,
      "step": 1630
    },
    {
      "epoch": 2.43985870979736,
      "grad_norm": 0.08589951694011688,
      "learning_rate": 0.00018216159401897812,
      "loss": 0.0339,
      "step": 1640
    },
    {
      "epoch": 2.454731362706823,
      "grad_norm": 0.09998754411935806,
      "learning_rate": 0.00018063779726845203,
      "loss": 0.0339,
      "step": 1650
    },
    {
      "epoch": 2.4696040156162855,
      "grad_norm": 0.08363664150238037,
      "learning_rate": 0.0001791106938559317,
      "loss": 0.0357,
      "step": 1660
    },
    {
      "epoch": 2.4844766685257484,
      "grad_norm": 0.08930620551109314,
      "learning_rate": 0.00017758044859792705,
      "loss": 0.0347,
      "step": 1670
    },
    {
      "epoch": 2.499349321435211,
      "grad_norm": 0.08270251750946045,
      "learning_rate": 0.00017604722665003956,
      "loss": 0.0332,
      "step": 1680
    },
    {
      "epoch": 2.514221974344674,
      "grad_norm": 0.09085123986005783,
      "learning_rate": 0.00017451119348913744,
      "loss": 0.0357,
      "step": 1690
    },
    {
      "epoch": 2.5290946272541364,
      "grad_norm": 0.0897296592593193,
      "learning_rate": 0.00017297251489549638,
      "loss": 0.0368,
      "step": 1700
    },
    {
      "epoch": 2.5439672801635993,
      "grad_norm": 0.07172433286905289,
      "learning_rate": 0.000171431356934907,
      "loss": 0.0371,
      "step": 1710
    },
    {
      "epoch": 2.558839933073062,
      "grad_norm": 0.0848449245095253,
      "learning_rate": 0.0001698878859407519,
      "loss": 0.032,
      "step": 1720
    },
    {
      "epoch": 2.5737125859825247,
      "grad_norm": 0.08270355314016342,
      "learning_rate": 0.00016834226849605371,
      "loss": 0.0333,
      "step": 1730
    },
    {
      "epoch": 2.588585238891987,
      "grad_norm": 0.07130729407072067,
      "learning_rate": 0.00016679467141549617,
      "loss": 0.0324,
      "step": 1740
    },
    {
      "epoch": 2.60345789180145,
      "grad_norm": 0.07863139361143112,
      "learning_rate": 0.00016524526172742026,
      "loss": 0.0295,
      "step": 1750
    },
    {
      "epoch": 2.6183305447109126,
      "grad_norm": 0.08600688725709915,
      "learning_rate": 0.00016369420665579725,
      "loss": 0.0342,
      "step": 1760
    },
    {
      "epoch": 2.6332031976203756,
      "grad_norm": 0.10146727412939072,
      "learning_rate": 0.0001621416736021805,
      "loss": 0.032,
      "step": 1770
    },
    {
      "epoch": 2.648075850529838,
      "grad_norm": 0.0812121257185936,
      "learning_rate": 0.00016058783012763844,
      "loss": 0.0341,
      "step": 1780
    },
    {
      "epoch": 2.662948503439301,
      "grad_norm": 0.0973149985074997,
      "learning_rate": 0.00015903284393466987,
      "loss": 0.0313,
      "step": 1790
    },
    {
      "epoch": 2.677821156348764,
      "grad_norm": 0.0835902988910675,
      "learning_rate": 0.00015747688284910457,
      "loss": 0.0298,
      "step": 1800
    },
    {
      "epoch": 2.6926938092582264,
      "grad_norm": 0.07972200214862823,
      "learning_rate": 0.00015592011480198992,
      "loss": 0.0346,
      "step": 1810
    },
    {
      "epoch": 2.707566462167689,
      "grad_norm": 0.07594762742519379,
      "learning_rate": 0.0001543627078114667,
      "loss": 0.0338,
      "step": 1820
    },
    {
      "epoch": 2.722439115077152,
      "grad_norm": 0.07757771015167236,
      "learning_rate": 0.00015280482996463533,
      "loss": 0.0315,
      "step": 1830
    },
    {
      "epoch": 2.737311767986615,
      "grad_norm": 0.06432707607746124,
      "learning_rate": 0.00015124664939941457,
      "loss": 0.0319,
      "step": 1840
    },
    {
      "epoch": 2.7521844208960773,
      "grad_norm": 0.07696104794740677,
      "learning_rate": 0.00014968833428639474,
      "loss": 0.0301,
      "step": 1850
    },
    {
      "epoch": 2.7670570738055402,
      "grad_norm": 0.07426641881465912,
      "learning_rate": 0.00014813005281068774,
      "loss": 0.0285,
      "step": 1860
    },
    {
      "epoch": 2.7819297267150027,
      "grad_norm": 0.0765393078327179,
      "learning_rate": 0.00014657197315377495,
      "loss": 0.0313,
      "step": 1870
    },
    {
      "epoch": 2.7968023796244657,
      "grad_norm": 0.07151610404253006,
      "learning_rate": 0.00014501426347535598,
      "loss": 0.03,
      "step": 1880
    },
    {
      "epoch": 2.811675032533928,
      "grad_norm": 0.07834175229072571,
      "learning_rate": 0.0001434570918951996,
      "loss": 0.0286,
      "step": 1890
    },
    {
      "epoch": 2.826547685443391,
      "grad_norm": 0.09932053834199905,
      "learning_rate": 0.00014190062647499892,
      "loss": 0.0307,
      "step": 1900
    },
    {
      "epoch": 2.8414203383528536,
      "grad_norm": 0.08595503121614456,
      "learning_rate": 0.00014034503520023297,
      "loss": 0.0306,
      "step": 1910
    },
    {
      "epoch": 2.8562929912623165,
      "grad_norm": 0.08349858224391937,
      "learning_rate": 0.00013879048596203636,
      "loss": 0.0306,
      "step": 1920
    },
    {
      "epoch": 2.871165644171779,
      "grad_norm": 0.07905739545822144,
      "learning_rate": 0.0001372371465390794,
      "loss": 0.0305,
      "step": 1930
    },
    {
      "epoch": 2.886038297081242,
      "grad_norm": 0.06820567697286606,
      "learning_rate": 0.0001356851845794598,
      "loss": 0.0276,
      "step": 1940
    },
    {
      "epoch": 2.9009109499907044,
      "grad_norm": 0.07227708399295807,
      "learning_rate": 0.00013413476758260934,
      "loss": 0.0267,
      "step": 1950
    },
    {
      "epoch": 2.9157836029001674,
      "grad_norm": 0.09035148471593857,
      "learning_rate": 0.00013258606288121542,
      "loss": 0.0287,
      "step": 1960
    },
    {
      "epoch": 2.9306562558096303,
      "grad_norm": 0.08626757562160492,
      "learning_rate": 0.00013103923762316198,
      "loss": 0.0298,
      "step": 1970
    },
    {
      "epoch": 2.945528908719093,
      "grad_norm": 0.0765102431178093,
      "learning_rate": 0.00012949445875348902,
      "loss": 0.0274,
      "step": 1980
    },
    {
      "epoch": 2.9604015616285553,
      "grad_norm": 0.08610813319683075,
      "learning_rate": 0.00012795189299637483,
      "loss": 0.0283,
      "step": 1990
    },
    {
      "epoch": 2.975274214538018,
      "grad_norm": 0.08020433783531189,
      "learning_rate": 0.00012641170683714222,
      "loss": 0.0267,
      "step": 2000
    },
    {
      "epoch": 2.975274214538018,
      "eval_loss": 0.0338360071182251,
      "eval_runtime": 212.7237,
      "eval_samples_per_second": 22.475,
      "eval_steps_per_second": 22.475,
      "step": 2000
    },
    {
      "epoch": 2.990146867447481,
      "grad_norm": 0.06885667890310287,
      "learning_rate": 0.00012487406650428954,
      "loss": 0.0277,
      "step": 2010
    },
    {
      "epoch": 3.00539133667968,
      "grad_norm": 0.07658534497022629,
      "learning_rate": 0.00012333913795155053,
      "loss": 0.0251,
      "step": 2020
    },
    {
      "epoch": 3.020263989589143,
      "grad_norm": 0.06449634581804276,
      "learning_rate": 0.00012180708683998321,
      "loss": 0.0147,
      "step": 2030
    },
    {
      "epoch": 3.0351366424986055,
      "grad_norm": 0.06312290579080582,
      "learning_rate": 0.00012027807852009038,
      "loss": 0.0157,
      "step": 2040
    },
    {
      "epoch": 3.0500092954080684,
      "grad_norm": 0.07343071699142456,
      "learning_rate": 0.00011875227801397381,
      "loss": 0.0149,
      "step": 2050
    },
    {
      "epoch": 3.064881948317531,
      "grad_norm": 0.06489036977291107,
      "learning_rate": 0.00011722984999752392,
      "loss": 0.0155,
      "step": 2060
    },
    {
      "epoch": 3.079754601226994,
      "grad_norm": 0.06041651591658592,
      "learning_rate": 0.00011571095878264658,
      "loss": 0.0139,
      "step": 2070
    },
    {
      "epoch": 3.094627254136457,
      "grad_norm": 0.07048339396715164,
      "learning_rate": 0.00011419576829952933,
      "loss": 0.014,
      "step": 2080
    },
    {
      "epoch": 3.1094999070459193,
      "grad_norm": 0.05680292099714279,
      "learning_rate": 0.00011268444207894902,
      "loss": 0.0133,
      "step": 2090
    },
    {
      "epoch": 3.124372559955382,
      "grad_norm": 0.0727318823337555,
      "learning_rate": 0.00011117714323462186,
      "loss": 0.0147,
      "step": 2100
    },
    {
      "epoch": 3.1392452128648447,
      "grad_norm": 0.054686855524778366,
      "learning_rate": 0.00010967403444559963,
      "loss": 0.0143,
      "step": 2110
    },
    {
      "epoch": 3.1541178657743076,
      "grad_norm": 0.05729954317212105,
      "learning_rate": 0.00010817527793871143,
      "loss": 0.0134,
      "step": 2120
    },
    {
      "epoch": 3.16899051868377,
      "grad_norm": 0.08314567804336548,
      "learning_rate": 0.00010668103547105553,
      "loss": 0.0148,
      "step": 2130
    },
    {
      "epoch": 3.183863171593233,
      "grad_norm": 0.05523039028048515,
      "learning_rate": 0.00010519146831254088,
      "loss": 0.0129,
      "step": 2140
    },
    {
      "epoch": 3.1987358245026956,
      "grad_norm": 0.05546917766332626,
      "learning_rate": 0.00010370673722848183,
      "loss": 0.0139,
      "step": 2150
    },
    {
      "epoch": 3.2136084774121585,
      "grad_norm": 0.05486704409122467,
      "learning_rate": 0.00010222700246224735,
      "loss": 0.0135,
      "step": 2160
    },
    {
      "epoch": 3.228481130321621,
      "grad_norm": 0.05656208097934723,
      "learning_rate": 0.00010075242371796585,
      "loss": 0.0125,
      "step": 2170
    },
    {
      "epoch": 3.243353783231084,
      "grad_norm": 0.053801827132701874,
      "learning_rate": 9.928316014328916e-05,
      "loss": 0.0141,
      "step": 2180
    },
    {
      "epoch": 3.2582264361405464,
      "grad_norm": 0.061040911823511124,
      "learning_rate": 9.781937031221589e-05,
      "loss": 0.0136,
      "step": 2190
    },
    {
      "epoch": 3.2730990890500093,
      "grad_norm": 0.05558522418141365,
      "learning_rate": 9.636121220797707e-05,
      "loss": 0.0138,
      "step": 2200
    },
    {
      "epoch": 3.287971741959472,
      "grad_norm": 0.055547308176755905,
      "learning_rate": 9.490884320598516e-05,
      "loss": 0.0136,
      "step": 2210
    },
    {
      "epoch": 3.3028443948689348,
      "grad_norm": 0.061592597514390945,
      "learning_rate": 9.34624200568492e-05,
      "loss": 0.014,
      "step": 2220
    },
    {
      "epoch": 3.3177170477783973,
      "grad_norm": 0.05287894979119301,
      "learning_rate": 9.202209886945698e-05,
      "loss": 0.0125,
      "step": 2230
    },
    {
      "epoch": 3.33258970068786,
      "grad_norm": 0.06365808844566345,
      "learning_rate": 9.058803509412646e-05,
      "loss": 0.0139,
      "step": 2240
    },
    {
      "epoch": 3.347462353597323,
      "grad_norm": 0.05474059656262398,
      "learning_rate": 8.916038350582876e-05,
      "loss": 0.0141,
      "step": 2250
    },
    {
      "epoch": 3.3623350065067856,
      "grad_norm": 0.054872963577508926,
      "learning_rate": 8.773929818748315e-05,
      "loss": 0.0135,
      "step": 2260
    },
    {
      "epoch": 3.3772076594162486,
      "grad_norm": 0.05935963988304138,
      "learning_rate": 8.632493251332793e-05,
      "loss": 0.0128,
      "step": 2270
    },
    {
      "epoch": 3.392080312325711,
      "grad_norm": 0.06830602139234543,
      "learning_rate": 8.491743913236628e-05,
      "loss": 0.0133,
      "step": 2280
    },
    {
      "epoch": 3.406952965235174,
      "grad_norm": 0.057178862392902374,
      "learning_rate": 8.351696995189218e-05,
      "loss": 0.0121,
      "step": 2290
    },
    {
      "epoch": 3.4218256181446365,
      "grad_norm": 0.06827449798583984,
      "learning_rate": 8.212367612109464e-05,
      "loss": 0.0127,
      "step": 2300
    },
    {
      "epoch": 3.4366982710540994,
      "grad_norm": 0.04981634393334389,
      "learning_rate": 8.073770801474495e-05,
      "loss": 0.0132,
      "step": 2310
    },
    {
      "epoch": 3.451570923963562,
      "grad_norm": 0.052124422043561935,
      "learning_rate": 7.935921521696702e-05,
      "loss": 0.0129,
      "step": 2320
    },
    {
      "epoch": 3.466443576873025,
      "grad_norm": 0.05991722270846367,
      "learning_rate": 7.798834650509306e-05,
      "loss": 0.0128,
      "step": 2330
    },
    {
      "epoch": 3.4813162297824873,
      "grad_norm": 0.05946414917707443,
      "learning_rate": 7.662524983360665e-05,
      "loss": 0.0127,
      "step": 2340
    },
    {
      "epoch": 3.4961888826919503,
      "grad_norm": 0.05650801584124565,
      "learning_rate": 7.527007231817389e-05,
      "loss": 0.0127,
      "step": 2350
    },
    {
      "epoch": 3.5110615356014128,
      "grad_norm": 0.04841410368680954,
      "learning_rate": 7.392296021976614e-05,
      "loss": 0.0122,
      "step": 2360
    },
    {
      "epoch": 3.5259341885108757,
      "grad_norm": 0.05933946743607521,
      "learning_rate": 7.258405892887398e-05,
      "loss": 0.0121,
      "step": 2370
    },
    {
      "epoch": 3.540806841420338,
      "grad_norm": 0.05451497435569763,
      "learning_rate": 7.125351294981598e-05,
      "loss": 0.0127,
      "step": 2380
    },
    {
      "epoch": 3.555679494329801,
      "grad_norm": 0.05574881285429001,
      "learning_rate": 6.993146588514225e-05,
      "loss": 0.0124,
      "step": 2390
    },
    {
      "epoch": 3.5705521472392636,
      "grad_norm": 0.057919006794691086,
      "learning_rate": 6.86180604201361e-05,
      "loss": 0.0119,
      "step": 2400
    },
    {
      "epoch": 3.5854248001487266,
      "grad_norm": 0.051368821412324905,
      "learning_rate": 6.731343830741433e-05,
      "loss": 0.0126,
      "step": 2410
    },
    {
      "epoch": 3.6002974530581895,
      "grad_norm": 0.06351654976606369,
      "learning_rate": 6.6017740351628e-05,
      "loss": 0.0135,
      "step": 2420
    },
    {
      "epoch": 3.615170105967652,
      "grad_norm": 0.053709421306848526,
      "learning_rate": 6.473110639426616e-05,
      "loss": 0.0122,
      "step": 2430
    },
    {
      "epoch": 3.6300427588771145,
      "grad_norm": 0.061445701867341995,
      "learning_rate": 6.345367529856254e-05,
      "loss": 0.0132,
      "step": 2440
    },
    {
      "epoch": 3.6449154117865774,
      "grad_norm": 0.0678747370839119,
      "learning_rate": 6.218558493450893e-05,
      "loss": 0.0125,
      "step": 2450
    },
    {
      "epoch": 3.6597880646960403,
      "grad_norm": 0.05095114931464195,
      "learning_rate": 6.0926972163974775e-05,
      "loss": 0.012,
      "step": 2460
    },
    {
      "epoch": 3.674660717605503,
      "grad_norm": 0.05740583688020706,
      "learning_rate": 5.9677972825936254e-05,
      "loss": 0.0125,
      "step": 2470
    },
    {
      "epoch": 3.6895333705149658,
      "grad_norm": 0.05399662256240845,
      "learning_rate": 5.8438721721815536e-05,
      "loss": 0.0134,
      "step": 2480
    },
    {
      "epoch": 3.7044060234244283,
      "grad_norm": 0.056056030094623566,
      "learning_rate": 5.720935260093177e-05,
      "loss": 0.0125,
      "step": 2490
    },
    {
      "epoch": 3.719278676333891,
      "grad_norm": 0.046866290271282196,
      "learning_rate": 5.598999814606618e-05,
      "loss": 0.0118,
      "step": 2500
    },
    {
      "epoch": 3.719278676333891,
      "eval_loss": 0.031009526923298836,
      "eval_runtime": 212.3923,
      "eval_samples_per_second": 22.51,
      "eval_steps_per_second": 22.51,
      "step": 2500
    },
    {
      "epoch": 3.7341513292433537,
      "grad_norm": 0.046400755643844604,
      "learning_rate": 5.4780789959141524e-05,
      "loss": 0.0122,
      "step": 2510
    },
    {
      "epoch": 3.7490239821528166,
      "grad_norm": 0.05211547762155533,
      "learning_rate": 5.358185854701909e-05,
      "loss": 0.0122,
      "step": 2520
    },
    {
      "epoch": 3.763896635062279,
      "grad_norm": 0.0429752878844738,
      "learning_rate": 5.239333330741298e-05,
      "loss": 0.0124,
      "step": 2530
    },
    {
      "epoch": 3.778769287971742,
      "grad_norm": 0.05008607730269432,
      "learning_rate": 5.121534251492486e-05,
      "loss": 0.0125,
      "step": 2540
    },
    {
      "epoch": 3.7936419408812045,
      "grad_norm": 0.046397943049669266,
      "learning_rate": 5.004801330719941e-05,
      "loss": 0.0111,
      "step": 2550
    },
    {
      "epoch": 3.8085145937906675,
      "grad_norm": 0.05960022658109665,
      "learning_rate": 4.8891471671202675e-05,
      "loss": 0.0117,
      "step": 2560
    },
    {
      "epoch": 3.82338724670013,
      "grad_norm": 0.04353282228112221,
      "learning_rate": 4.7745842429624795e-05,
      "loss": 0.0119,
      "step": 2570
    },
    {
      "epoch": 3.838259899609593,
      "grad_norm": 0.05057670921087265,
      "learning_rate": 4.661124922740794e-05,
      "loss": 0.0116,
      "step": 2580
    },
    {
      "epoch": 3.853132552519056,
      "grad_norm": 0.04886782541871071,
      "learning_rate": 4.548781451840179e-05,
      "loss": 0.0113,
      "step": 2590
    },
    {
      "epoch": 3.8680052054285183,
      "grad_norm": 0.055182382464408875,
      "learning_rate": 4.437565955214723e-05,
      "loss": 0.0116,
      "step": 2600
    },
    {
      "epoch": 3.882877858337981,
      "grad_norm": 0.048834457993507385,
      "learning_rate": 4.3274904360790505e-05,
      "loss": 0.0121,
      "step": 2610
    },
    {
      "epoch": 3.8977505112474438,
      "grad_norm": 0.05025951564311981,
      "learning_rate": 4.218566774612802e-05,
      "loss": 0.0112,
      "step": 2620
    },
    {
      "epoch": 3.9126231641569067,
      "grad_norm": 0.05054251477122307,
      "learning_rate": 4.1108067266784746e-05,
      "loss": 0.0112,
      "step": 2630
    },
    {
      "epoch": 3.927495817066369,
      "grad_norm": 0.05326022952795029,
      "learning_rate": 4.004221922552608e-05,
      "loss": 0.0119,
      "step": 2640
    },
    {
      "epoch": 3.9423684699758317,
      "grad_norm": 0.05668502673506737,
      "learning_rate": 3.898823865670579e-05,
      "loss": 0.0114,
      "step": 2650
    },
    {
      "epoch": 3.9572411228852946,
      "grad_norm": 0.054235439747571945,
      "learning_rate": 3.794623931385062e-05,
      "loss": 0.0119,
      "step": 2660
    },
    {
      "epoch": 3.9721137757947576,
      "grad_norm": 0.05231969431042671,
      "learning_rate": 3.6916333657383024e-05,
      "loss": 0.0108,
      "step": 2670
    },
    {
      "epoch": 3.98698642870422,
      "grad_norm": 0.057500049471855164,
      "learning_rate": 3.5898632842483746e-05,
      "loss": 0.011,
      "step": 2680
    },
    {
      "epoch": 4.002230897936419,
      "grad_norm": 0.04203633964061737,
      "learning_rate": 3.489324670709494e-05,
      "loss": 0.0113,
      "step": 2690
    },
    {
      "epoch": 4.017103550845882,
      "grad_norm": 0.029648838564753532,
      "learning_rate": 3.390028376006589e-05,
      "loss": 0.0059,
      "step": 2700
    },
    {
      "epoch": 4.031976203755345,
      "grad_norm": 0.03779765963554382,
      "learning_rate": 3.2919851169441625e-05,
      "loss": 0.006,
      "step": 2710
    },
    {
      "epoch": 4.046848856664807,
      "grad_norm": 0.040116600692272186,
      "learning_rate": 3.195205475089667e-05,
      "loss": 0.0058,
      "step": 2720
    },
    {
      "epoch": 4.06172150957427,
      "grad_norm": 0.030058899894356728,
      "learning_rate": 3.099699895631474e-05,
      "loss": 0.0056,
      "step": 2730
    },
    {
      "epoch": 4.076594162483733,
      "grad_norm": 0.03675166517496109,
      "learning_rate": 3.0054786862515257e-05,
      "loss": 0.0058,
      "step": 2740
    },
    {
      "epoch": 4.091466815393196,
      "grad_norm": 0.03470413759350777,
      "learning_rate": 2.912552016012879e-05,
      "loss": 0.0057,
      "step": 2750
    },
    {
      "epoch": 4.106339468302658,
      "grad_norm": 0.03222460299730301,
      "learning_rate": 2.8209299142621522e-05,
      "loss": 0.0057,
      "step": 2760
    },
    {
      "epoch": 4.121212121212121,
      "grad_norm": 0.036458127200603485,
      "learning_rate": 2.7306222695471173e-05,
      "loss": 0.0056,
      "step": 2770
    },
    {
      "epoch": 4.136084774121584,
      "grad_norm": 0.035760316997766495,
      "learning_rate": 2.641638828549425e-05,
      "loss": 0.0055,
      "step": 2780
    },
    {
      "epoch": 4.150957427031047,
      "grad_norm": 0.04281270503997803,
      "learning_rate": 2.5539891950326875e-05,
      "loss": 0.0056,
      "step": 2790
    },
    {
      "epoch": 4.165830079940509,
      "grad_norm": 0.030339548364281654,
      "learning_rate": 2.4676828288059558e-05,
      "loss": 0.0057,
      "step": 2800
    },
    {
      "epoch": 4.180702732849972,
      "grad_norm": 0.03753247857093811,
      "learning_rate": 2.382729044702748e-05,
      "loss": 0.0058,
      "step": 2810
    },
    {
      "epoch": 4.195575385759435,
      "grad_norm": 0.035988811403512955,
      "learning_rate": 2.299137011575738e-05,
      "loss": 0.0055,
      "step": 2820
    },
    {
      "epoch": 4.210448038668898,
      "grad_norm": 0.0344134196639061,
      "learning_rate": 2.2169157513071566e-05,
      "loss": 0.0057,
      "step": 2830
    },
    {
      "epoch": 4.22532069157836,
      "grad_norm": 0.03696177527308464,
      "learning_rate": 2.136074137835107e-05,
      "loss": 0.0056,
      "step": 2840
    },
    {
      "epoch": 4.240193344487823,
      "grad_norm": 0.03733756020665169,
      "learning_rate": 2.056620896195804e-05,
      "loss": 0.0057,
      "step": 2850
    },
    {
      "epoch": 4.255065997397286,
      "grad_norm": 0.03630942478775978,
      "learning_rate": 1.978564601581919e-05,
      "loss": 0.0056,
      "step": 2860
    },
    {
      "epoch": 4.269938650306749,
      "grad_norm": 0.03577449545264244,
      "learning_rate": 1.9019136784170635e-05,
      "loss": 0.0055,
      "step": 2870
    },
    {
      "epoch": 4.284811303216211,
      "grad_norm": 0.03209745138883591,
      "learning_rate": 1.82667639944657e-05,
      "loss": 0.0054,
      "step": 2880
    },
    {
      "epoch": 4.299683956125674,
      "grad_norm": 0.03668665885925293,
      "learning_rate": 1.752860884844646e-05,
      "loss": 0.0055,
      "step": 2890
    },
    {
      "epoch": 4.314556609035137,
      "grad_norm": 0.03498975560069084,
      "learning_rate": 1.680475101337959e-05,
      "loss": 0.0055,
      "step": 2900
    },
    {
      "epoch": 4.3294292619445995,
      "grad_norm": 0.04088146984577179,
      "learning_rate": 1.60952686134583e-05,
      "loss": 0.0055,
      "step": 2910
    },
    {
      "epoch": 4.3443019148540625,
      "grad_norm": 0.035557616502046585,
      "learning_rate": 1.5400238221370413e-05,
      "loss": 0.0056,
      "step": 2920
    },
    {
      "epoch": 4.3591745677635245,
      "grad_norm": 0.03443196415901184,
      "learning_rate": 1.4719734850034277e-05,
      "loss": 0.0056,
      "step": 2930
    },
    {
      "epoch": 4.3740472206729875,
      "grad_norm": 0.03481742739677429,
      "learning_rate": 1.4053831944502508e-05,
      "loss": 0.0057,
      "step": 2940
    },
    {
      "epoch": 4.38891987358245,
      "grad_norm": 0.03648516163229942,
      "learning_rate": 1.340260137403557e-05,
      "loss": 0.0053,
      "step": 2950
    },
    {
      "epoch": 4.403792526491913,
      "grad_norm": 0.03400832787156105,
      "learning_rate": 1.2766113424344814e-05,
      "loss": 0.0055,
      "step": 2960
    },
    {
      "epoch": 4.418665179401375,
      "grad_norm": 0.03558880090713501,
      "learning_rate": 1.21444367900069e-05,
      "loss": 0.0055,
      "step": 2970
    },
    {
      "epoch": 4.433537832310838,
      "grad_norm": 0.035319775342941284,
      "learning_rate": 1.1537638567049729e-05,
      "loss": 0.0055,
      "step": 2980
    },
    {
      "epoch": 4.448410485220301,
      "grad_norm": 0.03432595729827881,
      "learning_rate": 1.0945784245710848e-05,
      "loss": 0.0054,
      "step": 2990
    },
    {
      "epoch": 4.463283138129764,
      "grad_norm": 0.03571225702762604,
      "learning_rate": 1.036893770336938e-05,
      "loss": 0.0055,
      "step": 3000
    },
    {
      "epoch": 4.463283138129764,
      "eval_loss": 0.03200867399573326,
      "eval_runtime": 212.5457,
      "eval_samples_per_second": 22.494,
      "eval_steps_per_second": 22.494,
      "step": 3000
    },
    {
      "epoch": 4.478155791039226,
      "grad_norm": 0.040391724556684494,
      "learning_rate": 9.807161197651742e-06,
      "loss": 0.0056,
      "step": 3010
    },
    {
      "epoch": 4.493028443948689,
      "grad_norm": 0.03410281240940094,
      "learning_rate": 9.260515359712517e-06,
      "loss": 0.0055,
      "step": 3020
    },
    {
      "epoch": 4.507901096858152,
      "grad_norm": 0.03447275608778,
      "learning_rate": 8.729059187690479e-06,
      "loss": 0.0054,
      "step": 3030
    },
    {
      "epoch": 4.522773749767615,
      "grad_norm": 0.032652657479047775,
      "learning_rate": 8.212850040341273e-06,
      "loss": 0.0055,
      "step": 3040
    },
    {
      "epoch": 4.537646402677078,
      "grad_norm": 0.035828616470098495,
      "learning_rate": 7.711943630846684e-06,
      "loss": 0.0053,
      "step": 3050
    },
    {
      "epoch": 4.55251905558654,
      "grad_norm": 0.03351854532957077,
      "learning_rate": 7.226394020801645e-06,
      "loss": 0.0054,
      "step": 3060
    },
    {
      "epoch": 4.567391708496003,
      "grad_norm": 0.03872072696685791,
      "learning_rate": 6.7562536143796254e-06,
      "loss": 0.0056,
      "step": 3070
    },
    {
      "epoch": 4.582264361405466,
      "grad_norm": 0.03518550843000412,
      "learning_rate": 6.301573152676664e-06,
      "loss": 0.0054,
      "step": 3080
    },
    {
      "epoch": 4.597137014314928,
      "grad_norm": 0.0351685993373394,
      "learning_rate": 5.862401708235076e-06,
      "loss": 0.0052,
      "step": 3090
    },
    {
      "epoch": 4.612009667224391,
      "grad_norm": 0.0348668210208416,
      "learning_rate": 5.438786679747081e-06,
      "loss": 0.0055,
      "step": 3100
    },
    {
      "epoch": 4.626882320133854,
      "grad_norm": 0.03660331293940544,
      "learning_rate": 5.030773786939319e-06,
      "loss": 0.0055,
      "step": 3110
    },
    {
      "epoch": 4.641754973043317,
      "grad_norm": 0.04046601429581642,
      "learning_rate": 4.638407065638322e-06,
      "loss": 0.0054,
      "step": 3120
    },
    {
      "epoch": 4.65662762595278,
      "grad_norm": 0.03230154886841774,
      "learning_rate": 4.261728863017827e-06,
      "loss": 0.0054,
      "step": 3130
    },
    {
      "epoch": 4.671500278862242,
      "grad_norm": 0.034297142177820206,
      "learning_rate": 3.900779833028472e-06,
      "loss": 0.0054,
      "step": 3140
    },
    {
      "epoch": 4.686372931771705,
      "grad_norm": 0.03240946680307388,
      "learning_rate": 3.5555989320099952e-06,
      "loss": 0.0053,
      "step": 3150
    },
    {
      "epoch": 4.701245584681168,
      "grad_norm": 0.04137023165822029,
      "learning_rate": 3.2262234144868116e-06,
      "loss": 0.0054,
      "step": 3160
    },
    {
      "epoch": 4.7161182375906305,
      "grad_norm": 0.030783316120505333,
      "learning_rate": 2.912688829147214e-06,
      "loss": 0.0052,
      "step": 3170
    },
    {
      "epoch": 4.730990890500093,
      "grad_norm": 0.03588159382343292,
      "learning_rate": 2.6150290150067588e-06,
      "loss": 0.0055,
      "step": 3180
    },
    {
      "epoch": 4.7458635434095555,
      "grad_norm": 0.03300805762410164,
      "learning_rate": 2.3332760977559873e-06,
      "loss": 0.0053,
      "step": 3190
    },
    {
      "epoch": 4.7607361963190185,
      "grad_norm": 0.03986676409840584,
      "learning_rate": 2.0674604862932654e-06,
      "loss": 0.0055,
      "step": 3200
    },
    {
      "epoch": 4.775608849228481,
      "grad_norm": 0.03252493590116501,
      "learning_rate": 1.8176108694427927e-06,
      "loss": 0.0052,
      "step": 3210
    },
    {
      "epoch": 4.790481502137943,
      "grad_norm": 0.03938417136669159,
      "learning_rate": 1.583754212858329e-06,
      "loss": 0.0054,
      "step": 3220
    },
    {
      "epoch": 4.805354155047406,
      "grad_norm": 0.03552339971065521,
      "learning_rate": 1.3659157561127732e-06,
      "loss": 0.0057,
      "step": 3230
    },
    {
      "epoch": 4.820226807956869,
      "grad_norm": 0.03480495885014534,
      "learning_rate": 1.1641190099741904e-06,
      "loss": 0.0053,
      "step": 3240
    },
    {
      "epoch": 4.835099460866332,
      "grad_norm": 0.03451026231050491,
      "learning_rate": 9.783857538683603e-07,
      "loss": 0.0053,
      "step": 3250
    },
    {
      "epoch": 4.849972113775795,
      "grad_norm": 0.033308371901512146,
      "learning_rate": 8.087360335281235e-07,
      "loss": 0.0055,
      "step": 3260
    },
    {
      "epoch": 4.864844766685257,
      "grad_norm": 0.035610370337963104,
      "learning_rate": 6.551881588299279e-07,
      "loss": 0.0054,
      "step": 3270
    },
    {
      "epoch": 4.87971741959472,
      "grad_norm": 0.030910024419426918,
      "learning_rate": 5.177587018176777e-07,
      "loss": 0.0054,
      "step": 3280
    },
    {
      "epoch": 4.894590072504183,
      "grad_norm": 0.034942276775836945,
      "learning_rate": 3.964624949141626e-07,
      "loss": 0.0054,
      "step": 3290
    },
    {
      "epoch": 4.909462725413646,
      "grad_norm": 0.03491232544183731,
      "learning_rate": 2.913126293202228e-07,
      "loss": 0.0053,
      "step": 3300
    },
    {
      "epoch": 4.924335378323108,
      "grad_norm": 0.0331818163394928,
      "learning_rate": 2.0232045360184523e-07,
      "loss": 0.0051,
      "step": 3310
    },
    {
      "epoch": 4.939208031232571,
      "grad_norm": 0.034393060952425,
      "learning_rate": 1.2949557246537678e-07,
      "loss": 0.0053,
      "step": 3320
    },
    {
      "epoch": 4.954080684142034,
      "grad_norm": 0.03940508887171745,
      "learning_rate": 7.284584572085361e-08,
      "loss": 0.0052,
      "step": 3330
    },
    {
      "epoch": 4.968953337051497,
      "grad_norm": 0.03125544637441635,
      "learning_rate": 3.237738743372964e-08,
      "loss": 0.0052,
      "step": 3340
    },
    {
      "epoch": 4.983825989960959,
      "grad_norm": 0.03558258339762688,
      "learning_rate": 8.094565265054365e-09,
      "loss": 0.0054,
      "step": 3350
    },
    {
      "epoch": 4.998698642870422,
      "grad_norm": 0.03360743075609207,
      "learning_rate": 0.0,
      "loss": 0.0054,
      "step": 3360
    },
    {
      "epoch": 4.998698642870422,
      "step": 3360,
      "total_flos": 5.14290499398402e+18,
      "train_loss": 0.19145491501161208,
      "train_runtime": 31931.328,
      "train_samples_per_second": 6.737,
      "train_steps_per_second": 0.105
    }
  ],
  "logging_steps": 10,
  "max_steps": 3360,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.14290499398402e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}