Comments (16)
"wte", "lm_head"表示模型的embedding和输出层的参数?
from:
注意,如果你使用预训练模型进行LoRA微调,而非chat模型,模型的embedding和输出层的参数将被设为可训练的参数。这是因为预训练模型没有学习过ChatML格式中的特殊token,因此需要将这部分参数设为可训练才能让模型学会理解和预测这些token。这也意味着,假如你的训练引入新的特殊token,你需要通过代码中的modules_to_save
将这些参数设为可训练的参数。如果你想节省显存占用,可以考虑使用chat模型进行LoRA微调,显存占用将大幅度降低。
from qwen-vl.
出错位置在这,site-packages/peft/auto.py
_target_peft_class.from_pretrained(
base_model,
pretrained_model_name_or_path
请问什么原因,谢谢
from qwen-vl.
你lora微调的时候改变了词表大小?
from qwen-vl.
没有
Qwen-VL会出错,
我选择了新的预训练模型Qwen-VL-Chat
若保存了"wte", "lm_head"参数,如何应用到merge模型?peft会自动合并这个参数吗?
另,lora训练后数参数,如何知道正在合并到了新的整体模型中了,(目前问题是lora训练loss下降明显趋于稳定,但是推理时发现跟没训练几乎没区别)
谢谢
from qwen-vl.
请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
from qwen-vl.
有同样的问题,如果是用的直接下载位置的模型,就可以,挪动位置后就会报错,不知道为啥
from qwen-vl.
能否帮忙解答一下,谢谢
from qwen-vl.
这里我也遇到了相应的问题,目前我理解的应该是vocab_size没有对齐造成的,目前模型给出的self.tokenizer.n_vocab的长度为151860 , 这个数字是qwen.tiktoken的长度151643 + 217个特殊字符的个数计算而来,而模型的配置文件中的长度为 "vocab_size": 151936 , 造成Qwen-VL经过lora微调后无法对齐,目前还缺少76个字符,但我不太清楚其余76个字符是什么,所以我只能自作主张的修改Qwen-VL文件夹下的tokenization_qwen.py的45行:
EXTRAS = tuple((f"<|extra_{i}|>" for i in range(281)))
将extras由原来的205生成到281,填补了76个tokens,再继续训练,目前这个方案对我来说是可以完成模型合并的。
from qwen-vl.
@FuHTong 你预训练模型用的是qwen vl-chat模型吧?
你lora训练的效果如何
from qwen-vl.
请问 手动合并参数(w=w0+BA)模型有一定的输出垂直应用效果,
自动合并方式merge_and_unload模型输出为通识结果
两者merged weight有非常微弱的差异
请问为什么,谢谢
from qwen-vl.
请问 手动合并参数(w=w0+BA)模型有一定的输出垂直应用效果,
自动合并方式merge_and_unload模型输出为通识结果
两者merged weight有非常微弱的差异
请问为什么,谢谢
from qwen-vl.
手动合并参数方式应该为(w=w0+a/r*BA)
按照这个方式计算结果跟自动合并方式merge_and_unload的结果完全一致。
两者merged weight值完全一致,但是推理结果webdemo为通识结果,跟没有进行垂直数据训练一样。
请问问题出在什么地方,谢谢
from qwen-vl.
能否解答一下上述几个问题,谢谢!
from qwen-vl.
@FuHTong 能否交流一下,我这里也有一些进展 vx: dcsun001
from qwen-vl.
EXTRAS = tuple((f"<|extra_{i}|>" for i in range(281)))
太强了大哥
from qwen-vl.
为啥用EXTRAS = tuple((f"<|extra_{i}|>" for i in range(281)))的训练效果不好,
还没有未改动前EXTRAS = tuple((f"<|extra_{i}|>" for i in range(205)))的效果好呢
from qwen-vl.
Related Issues (20)
- 💡 [REQUEST] - <请问gptq量化相关的工程代码可否开源?>
- [BUG] <推理阶段,模型forward方法的visual分支并未进行视觉编码>
- AssertionError: Only Support Self-Attention Currently HOT 2
- [Help] Qwen-VL model.generate方法如何输出output_attention HOT 1
- How to get a better result with finetune(如何通过finetune得到一个较好的结果) HOT 5
- [BUG] <title>api 请求报错
- [BUG] <调用qwen_vl_max>接口,传入图片后报下载图片错误
- 训练数据中对一张图片如果存在100轮QA,应如何制作训练数据集
- [BUG] <title> Qwen-VL-Chat-Int4 load进入infer时提示有很多weights没有使用 HOT 1
- 拉了一个多模态大模型技术交流群,大家可以加入进来进行技术交流 HOT 1
- [BUG] <title>ReadMe好像有笔误
- [BUG] 重置位置操作有误
- Qwen2的VL版本是否能提供一个0.5B的模型💡
- 求助:微调多目标标注方法 HOT 9
- [Question] Does the model support Document analysis?
- [BUG] <title>本地下载了模型,也检查了模型文件完整性,但是导入的时候还是会从网上下载 HOT 1
- [BUG] <title><.cache/huggingface/modules/transformers_modules/Qwen-VL-Chat/modeling_qwen.py,每次运行会被刷新,请问怎么不刷新呢? HOT 1
- safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooSmall
- 💡 [REQUEST] - <title>
- [BUG] <title>Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from qwen-vl.