japanese-stablelm-instruct-gamma-7b-AWQ-calib-ja-1k

stabilityaiさんが公開している、japanese-stablelm-instruct-gamma-7bを、 日本語のキャリブレーションセットで生成したAWQモデルになります。

キャリブレーションセットはizumi-lab/wikipedia-ja-20230720から、 1kほどランダムサンプリングしています。
mmnga/wikipedia-ja-20230720-1k

AWQモデル

Paper arxiv:2306.00978
キャリブレーションセットからActivationを行うことによって、量子化する際に重要な重みを検出し、f16で保護します。
日本語のキャリブレーションセットを使用して生成すると、どれくらい変化があるのか検証する為に作成しました。

他のモデルはこちら

AWQ
mmnga/japanese-stablelm-base-gamma-7b-AWQ-calib-ja-1k
mmnga/japanese-stablelm-instruct-gamma-7b-AWQ-calib-ja-1k

GPTQ
mmnga/japanese-stablelm-base-gamma-7b-GPTQ-calib-ja-1k
mmnga/japanese-stablelm-instruct-gamma-7b-GPTQ-calib-ja-1k

GGUF
3bモデル
mmnga/japanese-stablelm-3b-4e1t-base-gguf
mmnga/japanese-stablelm-3b-4e1t-instruct-gguf

7bモデル
mmnga/japanese-stablelm-base-gamma-7b-gguf
mmnga/japanese-stablelm-instruct-gamma-7b-gguf

Usage

google colabを利用する場合、A100でのみ動作します。ご注意ください。

pip install autoawq transformers
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_name_or_path = "mmnga/japanese-stablelm-instruct-gamma-7b-AWQ-calib-ja-1k"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, safetensors=True, device_map="auto", fuse_layers=True)

prompt = """### 指示:今日の晩御飯のレシピを紹介して。 ### 応答:"""
tokens = tokenizer(
    prompt,
    return_tensors='pt'
).input_ids.cuda()

# Generate output
generation_output = model.generate(
    tokens,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    max_new_tokens=128
)

print(tokenizer.decode(generation_output[0]))
Downloads last month
15
Safetensors
Model size
1.2B params
Tensor type
I32
·
FP16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.