模型参数量14315784192 这不是14B吗 为啥标的7B?
#11
by
caoyizhen
- opened
print(sum(p.numel() for p in model.parameters()))
我用这个代码打出来的参数量是14b呀?
然后这个MOE 我看是每个专家都算了 ,不管有没有被top_k选中 这个我觉得很浪费资源啊?
我靠 原来是2.7B 那对不上啊。。。
这个2.7B是激活使用的参数吗 但是你这个代码里 不是每个专家都算了吗?
我想知道这个2.7B是怎么算的?
我尝试了以下代码来测试速度
import time
import torch
from torch import nn
a = torch.arange(2048, dtype=torch.float32).reshape(1, 2048)
b = torch.tensor([], dtype=torch.float32).reshape(0, 2048)
model = nn.Linear(2048, 2048)
start = time.time()
for i in range(10000):
model(a)
print(time.time() - start)
start = time.time()
for i in range(10000):
model(b)
print(time.time() - start)
因为我发现 对于下面的 虽然速度明显比上一个快,但也有一定的耗时呀