在部署测试过程中，llama 7b的use_context_fmha = 1，quant_policy = 4是可以运行的，但是llama 65b不可以，需要use_con

“: an illegal memory access was encountered” 这个报错，好像和量化没关系。<code class="n

请问llama 65b kv cache量化和context fmha不能同时打开吗？ about lmdeploy HOT 7 CLOSED

internlm commented on May 29, 2024

请问llama 65b kv cache量化和context fmha不能同时打开吗？

from lmdeploy.

Comments (7)

tpoisonooo commented on May 29, 2024

不能同时打开，里面有 assert。

fmha 用的 cutlass 实现，而完整的量化方案（w4a4）还没最终确定，不应该写 cutlass 提前优化。现在做的不兼容。

from lmdeploy.

tpoisonooo commented on May 29, 2024

“: an illegal memory access was encountered” 这个报错，好像和量化没关系。use_context_fmha=0 只用 fp16 能复现么？

from lmdeploy.

senbeiasano commented on May 29, 2024

“: an illegal memory access was encountered” 这个报错，好像和量化没关系。use_context_fmha=0 只用 fp16 能复现么？

use_context_fmha=0，quant=0/4都不会报错，但是use_context_fmha=1，quant=4会报错，quant=0不会。
我用的数据是input 4096，output512。

如果不兼容assert，为什么我这边运行成功了呀？整体的量化方案会对目前的kv cache量化有影响吗？
还有想问下kv cache你们目前repo了memory和精度的结果，请问后续会repo速度的overhead吗？

多谢回复！

from lmdeploy.

tpoisonooo commented on May 29, 2024

感觉你不知道这俩选项啥意思。

fmha flush attention，一种高性能 attention 实现：

0 不开，用原始的 attention 版本
1 开，用 flush attention 那篇论文的实现

quant_policy：

0x0 表示不开，用 fp16
0x1 nvidia 用掉了，保留
0x2 nvidia 用掉了
0x4 表示 kvCache_int8。

组合排列一下。
“但是use_context_fmha=1，quant=0不会。” ，开着 fp16 优化、不开量化，当然不报错了。

from lmdeploy.

tpoisonooo commented on May 29, 2024

LLM 量化的意义在吞吐，一个机器可以同时给更多人用。

单用户响应速度会变慢。

from lmdeploy.

senbeiasano commented on May 29, 2024

感谢回复！

不过我这个回复是想回这个⬇️，我以为你问use_context_fmha=0 + quant=0会不会复现这个报错
““: an illegal memory access was encountered” 这个报错，好像和量化没关系。use_context_fmha=0 只用 fp16 能复现么？”

还有就是我说不会报错是指问题刚开始描述的，我在llama 7b上设置use_context_fmha = 1 + quant = 4没有报错。

速度问题我了解了～

from lmdeploy.

tpoisonooo commented on May 29, 2024

哦，容我加个 PR 让它在 use_context_fmha = 1 + quant = 4 报错。

from lmdeploy.

Recommend Projects

请问llama 65b kv cache量化和context fmha不能同时打开吗？ about lmdeploy HOT 7 CLOSED

Comments (7)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent