666dzy666 / micronet Goto Github PK

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、regular and group convolutional channel pruning; 3、 group convolution structure; 4、batch-normalization fuse for quantization. deploy: tensorrt, fp32/fp16/int8(ptq-calibration)、op-adapt(upsample)、dynamic_shape

License: MIT License

Python 100.00%

quantization pruning dorefa twn bnn xnor-net pytorch model-compression group-convolution network-slimming

micronet's People

Contributors

Stargazers

Watchers

Forkers

gaondong theonly22 zhuikonger felixzhang7 liuguoyou shuangzixing89 wuxiaolianggit a515151 mjc14 runrunrun1994 allensmile shannonyu snowhou note-liu gchinanty cvtuge waterbearbee dlwbm123 tuq820 wwwanghao yangheng111 hajungong007 lzg188 bolt1st mornydew luqiang6q bbuf pierrehao wpf535236337 jasonlee020 feizhouxiaozhu cooparation xiaogangli hi-yan lxyyang akuiy laoyingbu haomyworld xuyuewei rotorliu creatorcen gale-zhang yinshunyao dwwu zymale guobinli jingdonglin xinxin12345 wyd520520 arui1 pengboxiangshang dengwenping leo-xxx majian-stu lufeng22 zhangfan2018 chuanraocv xubaozhao huangzicheng 2017tjm hell-to-heaven jiajia555 ryanyaohz lippman1125 qiuhaining azuredsky henrylol xudong198602 ray-mami davis-love-ai qingzengsong twistedmove robot-ai-machinelearning daibin88 yuanhaoqiang mrajie88 butub1 talentedmuse gongdalinux we0091234 yangyuke001 loganyan sudohello yisampi kygao wangxihui-inspur boh-inspur lbhli noobgrow keyky dbofseuofhust huoqiang1993 wxb506 hkksimple liguang190223 persuelx zrh0712 derteanoo four-clover whitedou

micronet's Issues

显存不够

CUDA out of memory. 我将batch size 从原来50调到5 , nvidia-smi显示显存远未用完，但是第一个epoch快完时报这个错（6G显存），batch size无论调为多少都有错

缩放操作的位置

你好，在二值量化时我遇到一个问题：STE算法流程结束再调用权重量化器保存权重时，由于alpha缩放位于量化器的forward()中，导致保存下来的权重可行域并非{-1,1}而是{-alpha,alpha}（浮点数）。根据相关论文，是不是应该在量化卷积（Conv2d_Q）forward()时再计算alpha并让它和W*input的结果相乘作为卷积的输出？

请问一下要怎么量化linear层

这里面都是对卷积层做处理，请问一下如果想量化linear层应该怎么做？

这个工程能否用于目标检测模型的量化么

作者，

您好！请问，这个工程能否用于目标检测模型的量化么？比如yolov3等等。

谢谢！

向大佬请教量化模型保存的问题

想问一下大佬，就是模型压缩数据对比那张表中的Size(MB)是怎么出来的，得到的模型pth文件大小确实不变，我看您之前的回复说可以通过脚本提取量化模型参数以txt文件形式保存吗？但是那个模型Size是怎么衡量的呢，谢谢！

你好，gc_prune.py里面对分组卷积后的model参数保存，可否提供下代码

关于分组卷积结构剪枝的模型剪枝

关于量化后权值的精度

大佬你好，请问8bit量化后的网络卷积层权值为什么不是整数呢？大佬的定点化是8位小数的定点化么。如果按大佬的教程量化部分跑一遍，8bit量化后网络的权值应该长啥样吖
刚入门量化，恳请大佬教小白做人，感激不尽

请问下量化中的特征A是指啥意思呢？

这个作品很棒，感谢分享！有个问题需要你帮忙解答一下，量化操作中的提到的特征A是指啥意思呢？希望能得到回复，谢谢！

关于量化后模型的问题

1.我的模型在量化后，权重文件会多出来一些key值，head4.0.q_conv.weight_quantizer.range_tracker.first_w，这些在加载时会报错，这些值有什么影响吗？
2.量化后的模型可以转换为onnx吗？

稀疏训练（对BN层γ进行约束）的程式碼看不懂

def updateBN():
    for m in model.modules():
        if isinstance(m, nn.BatchNorm2d):
            if hasattr(m.weight, 'data'):
                m.weight.grad.data.add_(args.s*torch.sign(m.weight.data))

想問為什麼這段是出自那兩篇paper哪一段
目前看L1正則都是取絕對值而不是直接加梯度

可否将CONV3D,以及GRU量化一下？

只看到了卷积的量化。谢谢老大。

你好，请问能对Inception这种网络进行压缩吗？

感谢作者能够提供这么好的代码给我们参考。

量化后模型参数并未变成指定位数

您好，按照说明进行模型的量化后，提取模型参数，发现还是高位浮点数，并未变成指定的量化位数。请问是需要注意什么操作吗

关于注释和论文

您好，非常感谢您的分享。不过比较遗憾的是你的代码中注释很少，也没有相关的论文。能否把代码相关的论文附上，以便大家学习。谢谢

模型压缩的方法很全很好，可是。。。

把你的量化和剪枝方法应用到一个新的网络中，难度感觉很大，要改动的代码很多。

二值量化中心化并截断部分发现一处不知是bug还是我没有理解

你好，

quantization/WbWtAb/models/util_wt_bab.py这个文件中的meancenter_clampConvParams(w)函数貌似并没有对输入w进行修改就直接返回w了，不知道是不是bug。
另外，你这里中心化和截断操作都用.data截断梯度流是为何呢，我有点不能理解，是为了反向传播时这部分不进行求导吗？

关于WbWtAb中二值化实现的问题

很棒的代码！
有几个关于二值化实现的问题想请教：
1.根据paper，STE是用在weight的BP上，为什么WbWtAb的实现中STE是在Binary_a而不是Binary_w上？
2.二值化deterministic方法直接使用torch.sign()，0依然是0，是否成为了三值化？
3.util_wt_bab.py中activation_bin的forward函数，A!=2时，为何要加relu函数？
4.根据其他issue，readme 中二/三值化后model size和压缩率是手动计算的。那bit量化后的结果也是计算的吗？
感谢！

GFLOPs如何计算

您好，我刚接触模型压缩。请问在README.md的模型压缩数据对比表格中有个参数GFLOPs,这个GFLOPs是如何计算得到的？

大佬可以多在知乎上发表模型压缩优化的文章

我是做嵌入式端模型部署的工作，对模型压缩比较感兴趣。像了解在模型压缩过程中一些需要注意的事项，比如混合通道、组卷积。为什么训练组卷积的weight_decay设置0？还有models/util_w_t_b_conv.py中实现了哪些算法？还有util_w_t_gap.py这个代码是做什么的？

分组卷积中变量含义，如何针对depthwise卷积进行剪枝？

你好，请问gc_group.py中groups, prune_base_num含义是什么，
感觉groups.append(int(nums[j] / channels[j+1])) 用前一层的out_channel除以下一层的in_channel，不太清楚这里的含义？

入门小白求问XNORnet

你好，请问下大大，关于代码，我在代码结构中看到quantization，WbWtAb下看到有bnn与xnornet分类，但由于刚入门，分不太清楚，哪个是bnn代码哪个是xnor代码，xnort论文提及是引入特征因子a进行二值量化，而代码中的A特征值是否就是尼？如果是，，我可否取消A的二值，先只做W的二值呢，因为我试过只输入--w 2，--A还是自动为2了

复现后发现模型大小并没有减小

大佬你好，按照你的readme，跑代码的时候，我跑了8bit量化，二值量化，发现训练时保存的模型并没有减小，这是什么原因呢

量化流程细节的疑问？

Hi,
感谢自己的分享。在代码中有一处疑问向你请假一下，

对权重和输入执行量化后进行卷积操作，但在代码对权重进行量化时，为什么还进行了反量化的操作，数据也是如此，且这反量化都在卷积之前，有点疑惑？

二，有考虑过量化后部署的问题吗？目前似乎三方工具都不直接支持。

有一些做定点化的论文推荐阅读吗？非常感谢！

关于BN_fold的问题

在使用IAO中的BN_fold进行BN层模拟训练量化后，使用bn_folding.py和bn_folding_test.py中的代码完成后，发现网络会自动把所有的样本判别为一类，不能得到和模拟训练量化同样的结果。请问这一块您是怎么做的呢？

发现代码中的一些问题

prune/normal_regular_prune.py中第七行，第46行代码中没有

想请教一下剪枝方面的问题

你好，看到你的readme介绍，你实现了规整剪枝、正常剪枝和分组卷积结构剪枝，我理解规整和正常剪枝是实现了slimming论文里的剪枝方法是吗，那分组卷积剪枝具体实现的是Rethinking the Value of Network Pruning论文里提到的哪个方法呢？

ModuleNotFoundError: No module named 'util_wt_bab'

你好！首先感谢分享，但在二值量化模型的使用中，出现找不到util_wt_bab的情况，这好像并不是第三方包，文件结构里也没有找到该文件，请问应该如何解决呢？谢谢！

若可以的话大佬开个模型压缩的课程(付费)

内容是模型压缩原理与实战结合这块,付费的.若不方便的话,请忽略这不成熟的建议.谢谢! @666DZY666

楼主造的8bit量化的轮子和Pytorch官方量化的API比较

谢谢楼主的开源自己的代码，学习下来对自己很有帮助。前段时间也看了Pytorch官方的量化API（只能量化成8Bit），想请教一下，楼主对于官方API有什么看法吗？

如何进行Dorefa的32位浮点型计算

如果要做浮点型和八位量化的对比，32位浮点型就是把Wbits和Abits这两个参数设置为32，八位量化时就是设置为8吗？？

你给出的这个开源项目，量化是否对显卡有要求？

你给出的这个开源项目，量化是否对显卡有要求？是否必须有tensor core的显卡？

关于移动端部署量化模型

作者您好，请问下您那边最近有做移动端DL框架(MNN, NCNN, TNN)来部署量化后的模型的实验吗？

关于预训练模型的问题

您好！
请问这个预训练模型是什么呢？
参数：args.refine

萌新刚接触，请问剪枝normal_regular_prune这个文件中的import util 在哪下载呀。万分感谢！！

特征值量化的一点疑问

class activation_quantize_fn(nn.Module):
def init(self, a_bit):
super(activation_quantize_fn, self).init()
assert a_bit <= 8 or a_bit == 32
self.a_bit = a_bit
self.uniform_q = uniform_quantize(k=a_bit)

def forward(self, x):
if self.a_bit == 32:
activation_q = x
else:
activation_q = self.uniform_q(torch.clamp(x, 0, 1))
# print(np.unique(activation_q.detach().numpy()))
return activation_q

特征值量化前强行归一到（0，1），这一点不是很理解，有些特征值是比较大

pruning方案存在问题

1.prunin文件下的main函数超参数输入如下
Options: Namespace(cpu=False, data='../data', epochs=300, eval_batch_size=256, evaluate=False, gpu_id='', lr=0.01, num_workers=2, refine='', resume='', s=0.001, sr=True, train_batch_size=512, wd=1e-07)
稀疏训练后，模型准确率为89.21%
2.根据该稀疏模型，做正常剪枝/规整剪枝，超参数如下
Namespace(cpu=False, data='../data', layers=9, model='models_save/nin_preprune.pth', normal_regular=1, percent=0.5, save='models_save/nin_prune.pth')
问题：
!please turn down the prune_ratio!

layer_index: 3 total_channel: 192 remaining_channel: 1 pruned_ratio: 0.994792