hikariming / chat-dataset-baseline Goto Github PK

View Code? Open in Web Editor NEW

1.1K 1.1K 95.0 18.26 MB

人工精调的中文对话数据集和一段chatglm的微调代码

Jupyter Notebook 66.98% Python 27.77% Shell 5.25%

alpaca chatglm dataset

chat-dataset-baseline's People

Contributors

Stargazers

Watchers

Forkers

akoukou123 jiao03 misaka152 gitbenxing liamlyyy wul8 adambear xuhuiren leedaga lai-flow jianantian ylinlinz mpskex shmctchina aiporter-1 stupid-ai joshuayan pandaupc aibill2029 erlangs feiyangw lyzkf wittech zero506 jackrain iamleon121 xuguozhi xuqy1981 ericshijian dumpmemory 8333064 cobanka qingyanjiu reborm kongxiangcong dominicqi zhengdewei0817 wesleysanjose mynew chfenglv art-attack kang9779 gaoxiaojun flowbywind jiangminglu begonia2020 sxm1129 feige-cn zhangshoutianniu rabbita weiwancheng tszgc catherinezhou gitlfc163 elepherai mars-wei jiaqi-roh huajinghua hurner liyanggood bmfire1 ibuwei brucekyle99 qidouhai rassec raywang-iat yeahestherchan yelban hkour30 cgu31 vase32 wissen33 ripingit davidlanz zhangzhen80 archerbj tipd4 xuanjiawang zfruit123 zhaohobby qiqi545 wxyv qinb xinhen carr001 myrzhong aixia121 david6811 hpuhushicheng mysterious0o0 yuanxiaoming8899 bocyou dongjicheng zhiqiangcoding

chat-dataset-baseline's Issues

通过餐饮领域多轮对话数据训练之后感觉其他的回答认知出现了问题

这种情况如何解决？

merge.py 整合数据集时，没有保留input部分是为什么呀？

请教一下，merge.py 整合数据集时，没有保留input部分是为什么呀？
input 部分不是应该跟instruction一起作为输入么

我们把github上代码都试了一下，现在能看出明显变化的就是https://github.com/ssbuild/chatglm_finetuning

感谢你的工作！我有个疑问是此处提到的明显变化是指finetune的效果比较好吗，这块是怎么比较的呢？是加入了自己的数据集微调之后看效果吗？其他code效果都不好？

关于翻译alpaca_data.json认领

hello，我这里想认领一部分这个数据集翻译，请问怎么划分呢？
还是说已经翻译完了呢？

关于无监督数据灌入模型

你好对这个方向非常感兴趣，比如在公司实际落地的时候，需要模型理解一个系统的整体概念，用langchain+向量检索无法理解大的语境。期待你们的论文，另外有推荐的相关领域论文或者资料吗，非常感谢

学习复现的话需要多少colab内的计算单元？

最近充值了colab pro想要学习和复现alpaca-lora，害怕计算单元不足还停留在阅读各个项目代码阶段。
大佬想咨询一下大概需要多少计算单元？以及数据量是多少。

{
"instruction": "从给定列表中选择一种颜色，并描述它如何用于创造一个舒适的房间氛围。",
"input": "黄色",
"output": "黄色是一种温暖和愉快的颜色，可以用来创造一个舒适的房间氛围。通过使用浅黄色的墙壁和装饰品，可以给人一种舒适和快乐的感觉。柔和的灯光会让房间感到温馨，黄色的暖色调则会增添明亮、阳光般的气氛。"
},
类似于这种有input的数据，input是不是要和instruction合在一起作为question更合适。

家人们，一张3090能train吗？

参数怎么设置比较合适捏

你好，如何使用 fastapi 部署微调后的模型。就像官方的一样，如何修改api.py的脚本？？？

你好，如何使用 fastapi 部署微调后的模型
就像官方的一样。如何修改api.py的脚本？？？
官方的如下：
首先需要安装额外的依赖 pip install fastapi uvicorn，然后运行仓库中的 api.py：
python api.py
默认部署在本地的 8000 端口，通过 POST 方法进行调用

curl -X POST "http://127.0.0.1:8000"
-H 'Content-Type: application/json'
-d '{"prompt": "你好", "history": []}'

我们发布了更完整、不是机器翻译的中文数据

https://guanaco-model.github.io/
https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

A code comment error in 微调使用自己数据集成功方案.ipynb ?

There is a comment about "修改train_util.py的超参数" in 微调使用自己数据集成功方案.ipynb.
Should it be modified to"修改data_utils.py的超参数" according to this repository chatglm_finetuning

数据集错误集锦

感谢Contributors的无私奉献~ 今天下载数据集翻了翻，发现两个小问题！我觉得可以弄一层楼，专门给大家反馈英-中转换过程的错误，这样也许能更好的提升质量~ :p

alpaca_data-6382-9407-（jlh）中文-已完成.json
{
"instruction": "将给定的字符串更改为大写。",
"input": "你好世界。",
"output": "你好世界。"
},
{
"instruction": "找出给定单词的押韵词。",
"input": "有",
"output": "垫子、老鼠、蝙蝠、床、村庄、聊天。"
},
第一个问题，字符串大小写应该是针对英文，中文不存在这个转换？
第二个问题，押韵的词是不是英文原本押韵，但是翻译成中文后并不押韵？输入有，应该输出ou的韵对应词

发现README几处笔误

感谢博主整理的数据，已Star

第一个地方去掉第一“并”感觉通顺些。
第二个地方，似乎手抖打错了🤔

PS：就不提PR了，好好学习，争取提个有质量的PRヾ(◍°∇°◍)ﾉﾞ

loss一直不降低？怎么调参

数据标注

请问一下，对话模型的数据集一般是怎么获取的，有没有什么数据标注的软件

RuntimeError: expected scalar type Half but found Float 你们在训练的时候遇到过这样的情况吗？

运行data_uilts的时候出错

INFO:torch.distributed.nn.jit.instantiator:Created a temporary directory at /tmp/tmpg1hbjeku
INFO:torch.distributed.nn.jit.instantiator:Writing /tmp/tmpg1hbjeku/_remote_module_non_scriptable.py
INFO:lightning_fabric.utilities.seed:Global seed set to 42
Traceback (most recent call last):
File "/home/cike/zzp/alpaca/chatglm_finetuning/data_utils.py", line 272, in
tokenizer, config, , = dataHelper.load_tokenizer_and_config(tokenizer_class_name=ChatGLMTokenizer,config_class_name=ChatGLMConfig)
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/deep_training/data_helper/data_helper.py", line 257, in load_tokenizer_and_config
tokenizer = load_tokenizer(tokenizer_name=tokenizer_name or model_args.tokenizer_name,
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/deep_training/data_helper/data_module.py", line 29, in load_tokenizer
tokenizer = class_name.from_pretrained(tokenizer_name, **tokenizer_kwargs)
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/transformers/tokenization_utils_base.py", line 1804, in from_pretrained
return cls._from_pretrained(
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/transformers/tokenization_utils_base.py", line 1958, in _from_pretrained
tokenizer = cls(*init_inputs, **init_kwargs)
File "/home/cike/zzp/alpaca/chatglm_finetuning/tokenization_chatglm.py", line 211, in init
self.sp_tokenizer = SPTokenizer(vocab_file)
File "/home/cike/zzp/alpaca/chatglm_finetuning/tokenization_chatglm.py", line 32, in init
self.text_tokenizer = self._build_text_tokenizer(encode_special_tokens=False)
File "/home/cike/zzp/alpaca/chatglm_finetuning/tokenization_chatglm.py", line 65, in _build_text_tokenizer
self._configure_tokenizer(
File "/home/cike/zzp/alpaca/chatglm_finetuning/tokenization_chatglm.py", line 61, in _configure_tokenizer
text_tokenizer.refresh()
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/icetk/text_tokenizer.py", line 31, in refresh
self.sp.Load(model_proto=self.proto.SerializeToString())
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/sentencepiece/init.py", line 904, in Load
return self.LoadFromSerializedProto(model_proto)
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/site-packages/sentencepiece/init.py", line 250, in LoadFromSerializedProto
return _sentencepiece.SentencePieceProcessor_LoadFromSerializedProto(self, serialized)
RuntimeError: Internal: [MASK] is already defined.

you tried to log -1 which is currently not supported. Try a dict or a scalar/tensor.

请教这个问题怎么解决呢

微调chatglm后遗忘很严重

您好，我用8900个单轮聊天数据微调chatglm，模型遗忘很严重。轮次多了，所有的回答都往微调数据的领域扯。但轮次少了，微调数据学不到，应该如何解决呢？

我好奇你加了多少自己的信息让他改名的

如题，请教

感谢开源

看了readme，如果官方数据集能实现翻译 + 人工审核，那数据集的质量一定很高，再加上chatglm、文心一言、chatgpt的数据，想想都起飞，感谢辛苦开源，非常期待，大佬们加油

请问，如何评测微调后的模型效果？

除了输入“你是谁？”，或者数据集中特有一些问题，有没有别的量化方案可以评估训练完的模型性能提升或变差？
这边也是训练完了，想知道结果怎么样

2张A100,80G直接OOM

想问下博主显存占用情况

这个数据集是不是有点问题，使用merge.py的时候就会出问题

File "/home/cike/anaconda/envs/alpaca/lib/python3.9/json/init.py", line 293, in load
return loads(fp.read(),
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/json/init.py", line 346, in loads
return _default_decoder.decode(s)
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/json/decoder.py", line 337, in decode
obj, end = self.raw_decode(s, idx=_w(s, 0).end())
File "/home/cike/anaconda/envs/alpaca/lib/python3.9/json/decoder.py", line 355, in raw_decode
raise JSONDecodeError("Expecting value", s, err.value) from None
json.decoder.JSONDecodeError: Expecting value: line 112 column 1 (char 11779)

json.load() raise json.decoder.JSONDecodeError

https://github.com/hikariming/alpaca_chinese_dataset/blob/7cbf6919c804f041e39ed0267e43aebd82085baa/%E7%BF%BB%E8%AF%91%E5%90%8E%E7%9A%84%E4%B8%AD%E6%96%87%E6%95%B0%E6%8D%AE/alpaca_data-9407-12345-%E4%B8%AD%E6%96%87-%E6%9C%AA%E5%AE%8C%E6%88%90.json#L14006C6-L14006C6

第14006行多了一个","

有没有人出现灾难性遗忘问题？就是说，餐饮领域多轮对话数据微调后，其他通用领域回复不好？？

ValueError: Can't find config.json at './best_ckpt/'

您好,我在用您给的代码进行微调的时候,发现在最后调用模型,用 LoraArguments 读取 /best_ckpt/config.json 文件的时候,即使相关目录下面存在 config.json 文件,但是最终还是报"ValueError: Can't find config.json at './best_ckpt/'" 的错误:

lora_args = LoraArguments.from_pretrained('./best_ckpt/')
ValueError: Can't find config.json at './best_ckpt/'

不知道是什么原因导致,以下是 config.json 文件的内容,您遇到过这样的问题吗,或者您知道可能是什么原因导致的吗,期待您的回复.

{
"architectures": [
"ChatGLMModel"
],
"auto_map": {
"AutoConfig": "configuration_chatglm.ChatGLMConfig",
"AutoModel": "modeling_chatglm.ChatGLMForConditionalGeneration",
"AutoModelForSeq2SeqLM": "modeling_chatglm.ChatGLMForConditionalGeneration"
},
"bos_token_id": 150004,
"eos_token_id": 150005,
"hidden_size": 4096,
"initializer_range": 0.02,
"initializer_weight": false,
"inner_hidden_size": 16384,
"layernorm_epsilon": 1e-05,
"max_sequence_length": 2048,
"model_type": "chatglm",
"num_attention_heads": 32,
"num_layers": 28,
"pad_token_id": 20003,
"position_encoding_2d": true,
"pre_seq_len": null,
"precision": 16,
"prefix_projection": false,
"quantization_bit": 0,
"return_dict": false,
"task_specific_params": {
"learning_rate": 2e-05,
"learning_rate_for_task": 2e-05
},
"torch_dtype": "float16",
"transformers_version": "4.27.4",
"use_cache": true,
"vocab_size": 150528
}