DeepSeek-V3-slice-jp64

実験モデルです

本モデルは DeepSeek-V3 をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。 元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。

例文出力時の各layerごとのexpertsの頻出分布

ライセンス

ご使用前にライセンスファイルをご確認ください。
DeepSeek-V3 こちらのライセンスをそのまま使用しています。

特徴

  • MoEモデルのexpertsから、日本語の例文出力をして各layerごとに頻出する64のexpertをして組み直したモデルです。
  • 16ではまともに動かず、32では安定しなかったため64expertsにしています。
  • scripts/layer_topk_idx_distribution.json
    • 各layerごとに頻出順に128のexpertのrankが記録されています。
  • scripts/deepseek_slice.py
    • 元モデル(bf16)から、64のexpertを使用したモデル(bf16)を作成します。
  • scripts/model_test.py
    • モデル実行用テスト用のスクリプトです。コメントアウトされている例文を元に頻出するexpertを計測しています

使い方

scripts/model_test.pyに実行コードあります

Downloads last month
190
Safetensors
Model size
181B params
Tensor type
F32
·
BF16
·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for mmnga/DeepSeek-V3-slice-jp64

Finetuned
(6)
this model