Comments (39)
我在2400+对图文定位数据集上做微调,效果很差,完全找不到图片目标和文本得对应关系,我也试着调整--fix-vit参数,但也没用,效果依旧很差。 @elesun2018 楼上微调效果怎么样?
from qwen-vl.
DATA的样例就是README给出的json示例
from qwen-vl.
--num_train_epochs 5
这个参数配置能否减少,默认5训练时长太久了
1.5epoch-2epoch是否为best 经验值
另,是否支持训练日志可视化?观察训练效果
Qwen-VL/finetune/finetune_lora_single_gpu.sh中的--fix_vit True 的作用,谢谢
from qwen-vl.
是否支持训练日志可视化?观察训练效果
A: 通过修改--report_to wandb实现观察训练效果。
我设置的--num_train_epochs 1.5 训练时长比较久目前没训练完成。
训练的label我使用的格式如下:狗[0.836,0.48,1.0,0.66],没有严格按照README给出的json示例。
另,训练过程中能否进行评估。谢谢!
from qwen-vl.
有大佬只微调过视觉模块吗,最低需要多少算力?
from qwen-vl.
你是说model.transformer.visual.requires_grad_(True)来实现微调过视觉模块?
这段代码没搞懂,不使用lora,fixvit为true,冻结vit?
使用lora占用资源较多,冻结vit,占用的资源不再那麽多?
from qwen-vl.
请问这两者有什么区别 --lazy_preprocess True
LazySupervisedDataset if data_args.lazy_preprocess else SupervisedDataset
谢谢!
from qwen-vl.
你是说model.transformer.visual.requires_grad_(True)来实现微调过视觉模块? 这段代码没搞懂,不使用lora,fixvit为true,冻结vit? 使用lora占用资源较多,冻结vit,占用的资源不再那麽多?
这个似乎是全量微调的时候通过设置--fix_vit参数确定visual是否微调。通过lora微调,不是通过target_modules参数吗,就是对应finetune.py中的类LoraArguments的lora_target_modules。
from qwen-vl.
请问gradient_checkpointing是何用途,谢谢
from qwen-vl.
在标准的反向传播过程中,为了计算梯度,模型会保存所有中间层的输出(也就是激活值)。对于大型模型,这会迅速消耗大量内存。而启用gradient_checkpointing后,模型不会保存所有这些中间激活值。相反,它会在反向传播过程中重新计算部分前向传播步骤,仅在需要计算梯度的那一刻才计算相应的激活值。这样,尽管会增加一些计算开销(因为某些前向过程需要执行两次),但可以大幅度减少内存使用量。
from qwen-vl.
请问这两者有什么区别 --lazy_preprocess True
LazySupervisedDataset if data_args.lazy_preprocess else SupervisedDataset
谢谢!
from qwen-vl.
请问如何根据peft保存的模型文件转换成推理用的qwen模型
有没有相应的代码
from qwen-vl.
@KDD2018 我在2400+对图文定位数据集上做微调,效果很差,完全找不到图片目标和文本得对应关系,我也试着调整--fix-vit参数,但也没用,效果依旧很差。 后来找到问题了吗?
from qwen-vl.
@KDD2018 我在2400+对图文定位数据集上做微调,效果很差,完全找不到图片目标和文本得对应关系,我也试着调整--fix-vit参数,但也没用,效果依旧很差。 后来找到问题了吗?
没有,微调之后,整体的聊天套路是学到了,但是目标和标签的关系完全没学到。我猜测是因为没有微调视觉模块,因为我看源码中LoraArguments的lora_target_modules参数指定的都是LM中的模块。仅仅是猜测,也请大佬们指点迷津。
from qwen-vl.
可以参考README中的微调部分,有相关代码
from qwen-vl.
请问这两者有什么区别 --lazy_preprocess True LazySupervisedDataset if data_args.lazy_preprocess else SupervisedDataset 谢谢!
你是指LazySupervisedDataset和SupervisedDataset的区别吧, LazySupervisedDataset是获取到单个样本之后才进行preprocess。
from qwen-vl.
按照上图进行lora merge_save生成结果
与huggingface下载的模型文件不太一致
请问tokenization_qwen.py tokenizer_config.json如何获取,什么作用,影响推理使用吗
谢谢!
from qwen-vl.
@KDD2018
我在4W图文对,带定位box数据集上做lora微调。
效果也不行,跟没有训练没什么差异。但是训练日志还算可以。
wandb trainloss下降比较明显!
--num_train_epochs 1.5,准备增大5-10epoch看下效果。
我Q 294813364
from qwen-vl.
请问finetune中modules_to_save是什么用途
wte和lm head怎么设置
base_model.model.transformer.wte.modules_to_save
base_model.model.lm_head.modules_to_save
from qwen-vl.
请问target_modules的用途,应该根据什么如何设置,谢谢
这几个模块
"w1",
"attn.c_proj",
"c_attn",
"w2"
from qwen-vl.
@KDD2018 请问对Qwen-VL-Chat微调所需要的”图文对“数据量大概需要多少?目前进行lora微调效果不大 #300 我看其中提到,具体怎么对齐,有知道的吗,可以加Q交流:315386775
在进行lora微调后,进行测试,发现性能确实得到显著提升(大约10个点),原因在于可能之前的微调Prompt和测试Prompt没有对齐,将他们对齐后进行测试,性能的确是提升了。
from qwen-vl.
能否解答下上述几个问题,谢谢
from qwen-vl.
目前问题是lora训练loss下降明显趋于稳定,但是推理时发现跟没训练几乎没区别
lora训练后数参数,如何知道正在合并到了新的整体模型中了
谢谢
from qwen-vl.
请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
finetune时adapter层是冻结的?
from qwen-vl.
能否帮忙解答一下,谢谢
from qwen-vl.
目前问题是lora训练loss下降明显趋于稳定,但是推理时发现跟没训练几乎没区别 lora训练后数参数,如何知道正在合并到了新的整体模型中了 谢谢
the same issue
from qwen-vl.
请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
finetune时adapter层是冻结的?
梯度参数:base_model.model.transformer.ln_f.weight: torch.Size([4096]) False
这个参数需要打开 True,lora训练吗
如何跟论文对应上,参数量不对,to fix 256
from qwen-vl.
请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
finetune时adapter层是冻结的?
梯度参数:base_model.model.transformer.ln_f.weight: torch.Size([4096]) False
这个参数需要打开 True,lora训练吗
如何跟论文对应上,参数量不对,to fix 256
from qwen-vl.
我用finetune.py加载Qwen-VL-Chat-hug0611
huggingface trainer.train(),loss已训练至接近0
然后trainer.predict(data_module["eval_dataset"])
decoded_labels是正常的,而decoded_predicts是乱码。
使用trainer.predict后解码输出就看不出文字效果呢。
请问是什么原因
from qwen-vl.
能否解答一下上述几个问题,谢谢!
from qwen-vl.
请问train loss下降明显,而trainer.predict results中出现大部分乱码。是否正常,如何从results中提取想要的输出答案。
from qwen-vl.
能否解答一下上述几个问题,谢谢!
from qwen-vl.
@KDD2018 我在4W图文对,带定位box数据集上做lora微调。 效果也不行,跟没有训练没什么差异。但是训练日志还算可以。 wandb trainloss下降比较明显! --num_train_epochs 1.5,准备增大5-10epoch看下效果。 我Q 294813364
hello大佬有试过增加更多数据做微调吗,我现在用100000份VQA数据做finetune在A100上,发现loss从3.0降低到1.8就不再下降了(在0.5个epoch的时候),测试结果发现也是有点胡言乱语,这个如何解决呢?
from qwen-vl.
目前,用100个样本训练fientune,loss下降明显,训练中的评估指标也上来了,说明训练环境应该没有问题。
trainer.predict和trainer compute_metrics正常。
再计划用4W个样本finetune训练,观察效果如何。
from qwen-vl.
现在有个奇怪的问题,fienture lora trainer loss~0 predict可以预测正确的文本结果,但是经过融合 webdemo后预测结果输出文本为通识结果(跟没有finetune一样)。融合后的模型参数已发生微弱变化,lmhead从151860变成了151936.
from qwen-vl.
现在有个奇怪的问题,fienture lora trainer loss~0 predict可以预测正确的文本结果,但是经过融合 webdemo后预测结果输出文本为通识结果(跟没有finetune一样)。融合后的模型参数已发生微弱变化,lmhead从151860变成了151936.
from qwen-vl.
我也碰到该问题了,训练效果显著,推理的时候还不如原始模型了。
from qwen-vl.
是否应该从模型文件中的modeling_qwen.py排查,目前找不到原因呢
from qwen-vl.
我排查到问题了,预测自己的数据使用的是model.generate,改为model.chat就ok了。
from qwen-vl.
Related Issues (20)
- 💡 [REQUEST] - <请问gptq量化相关的工程代码可否开源?>
- [BUG] <推理阶段,模型forward方法的visual分支并未进行视觉编码>
- AssertionError: Only Support Self-Attention Currently HOT 2
- [Help] Qwen-VL model.generate方法如何输出output_attention HOT 1
- How to get a better result with finetune(如何通过finetune得到一个较好的结果) HOT 5
- [BUG] <title>api 请求报错
- [BUG] <调用qwen_vl_max>接口,传入图片后报下载图片错误
- 训练数据中对一张图片如果存在100轮QA,应如何制作训练数据集
- [BUG] <title> Qwen-VL-Chat-Int4 load进入infer时提示有很多weights没有使用 HOT 1
- 拉了一个多模态大模型技术交流群,大家可以加入进来进行技术交流 HOT 1
- [BUG] <title>ReadMe好像有笔误
- [BUG] 重置位置操作有误
- Qwen2的VL版本是否能提供一个0.5B的模型💡
- 求助:微调多目标标注方法 HOT 9
- [Question] Does the model support Document analysis?
- [BUG] <title>本地下载了模型,也检查了模型文件完整性,但是导入的时候还是会从网上下载 HOT 1
- [BUG] <title><.cache/huggingface/modules/transformers_modules/Qwen-VL-Chat/modeling_qwen.py,每次运行会被刷新,请问怎么不刷新呢? HOT 1
- safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooSmall
- 💡 [REQUEST] - <title>
- [BUG] <title>Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from qwen-vl.