datawhalechina / llm-universe Goto Github PK

View Code? Open in Web Editor NEW

2.9K 18.0 382.0 95.03 MB

本项目是一个面向小白开发者的大模型应用开发教程，在线阅读地址：https://datawhalechina.github.io/llm-universe/

Home Page: https://datawhalechina.github.io/llm-universe/

Jupyter Notebook 96.53% Python 3.47%

llm-universe's Introduction

动手学大模型应用开发

项目简介

本项目是一个面向小白开发者的大模型应用开发教程，旨在基于阿里云服务器，结合个人知识库助手项目，通过一个课程完成大模型开发的重点入门，主要内容包括：

大模型简介，何为大模型、大模型特点是什么、LangChain 是什么，如何开发一个 LLM 应用，针对小白开发者的简单介绍；
如何调用大模型 API，本节介绍了国内外知名大模型产品 API 的多种调用方式，包括调用原生 API、封装为 LangChain LLM、封装为 Fastapi 等调用方式，同时将包括百度文心、讯飞星火、智谱AI等多种大模型 API 进行了统一形式封装；
知识库搭建，不同类型知识库文档的加载、处理，向量数据库的搭建；
构建 RAG 应用，包括将 LLM 接入到 LangChain 构建检索问答链，使用 Streamlit 进行应用部署
验证迭代，大模型开发如何实现验证迭代，一般的评估方法有什么；

本项目主要包括三部分内容：

LLM 开发入门。V1 版本的简化版，旨在帮助初学者最快、最便捷地入门 LLM 开发，理解 LLM 开发的一般流程，可以搭建出一个简单的 Demo。
LLM 开发技巧。LLM 开发更进阶的技巧，包括但不限于：Prompt Engineering、多类型源数据的处理、优化检索、召回精排、Agent 框架等
LLM 应用实例。引入一些成功的开源案例，从本课程的角度出发，解析这些应用范例的 Idea、核心思路、实现框架，帮助初学者明白其可以通过 LLM 开发什么样的应用。

目前，第一部分已经完稿，欢迎大家阅读学习；第二、三部分正在创作中。

目录结构说明：

  requirements.txt：官方环境下的安装依赖
  notebook：Notebook 源代码文件
  docs：Markdown 文档文件
  figures：图片
  data_base：所使用的知识库源文件

项目意义

LLM 正逐步成为信息世界的新革命力量，其通过强大的自然语言理解、自然语言生成能力，为开发者提供了新的、更强大的应用开发选择。随着国内外井喷式的 LLM API 服务开放，如何基于 LLM API 快速、便捷地开发具备更强能力、集成 LLM 的应用，开始成为开发者的一项重要技能。

目前，关于 LLM 的介绍以及零散的 LLM 开发技能课程已有不少，但质量参差不齐，且没有很好地整合，开发者需要搜索大量教程并阅读大量相关性不强、必要性较低的内容，才能初步掌握大模型开发的必备技能，学习效率低，学习门槛也较高。

本项目从实践出发，结合最常见、通用的个人知识库助手项目，深入浅出逐步拆解 LLM 开发的一般流程、步骤，旨在帮助没有算法基础的小白通过一个课程完成大模型开发的基础入门。同时，我们也会加入 RAG 开发的进阶技巧以及一些成功的 LLM 应用案例的解读，帮助完成第一部分学习的读者进一步掌握更高阶的 RAG 开发技巧，并能够通过对已有成功项目的借鉴开发自己的、好玩的应用。

项目受众

所有具备基础 Python 能力，想要掌握 LLM 应用开发技能的开发者。

本项目对学习者的人工智能基础、算法基础没有任何要求，仅需要掌握基本 Python 语法、掌握初级 Python 开发技能即可。

考虑到环境搭建问题，本项目提供了阿里云服务器学生免费领取方式，学生读者可以免费领取阿里云服务器，并通过阿里云服务器完成本课程的学习；本项目同时也提供了个人电脑及非阿里云服务器的环境搭建指南；本项目对本地硬件基本没有要求，不需要 GPU 环境，个人电脑及服务器均可用于学习。

注：本项目主要使用各大模型厂商提供的 API 来进行应用开发，如果你想要学习部署应用本地开源 LLM，欢迎学习同样由 Datawhale 出品的 Self LLM ｜开源大模型食用指南，该项目将手把手教你如何速通开源 LLM 部署微调全链路！

注：考虑到学习难度，本项目主要面向初学者，介绍如何使用 LLM 来搭建应用。如果你想要进一步深入学习 LLM 的理论基础，并在理论的基础上进一步认识、应用 LLM，欢迎学习同样由 Datawhale 出品的 So Large LM | 大模型基础，该项目将为你提供全面而深入的 LLM 理论知识及实践方法！

项目亮点

充分面向实践，动手学习大模型开发。相较于其他从理论入手、与实践代差较大的类似教程，本教程基于具有通用性的个人知识库助手项目打造，将普适的大模型开发理念融合在项目实践中，帮助学习者通过动手搭建个人项目来掌握大模型开发技能。
从零开始，全面又简短的大模型教程。本项目针对个人知识库助手项目，对相关大模型开发理论、概念和基本技能进行了项目主导的重构，删去不需要理解的底层原理和算法细节，涵盖所有大模型开发的核心技能。教程整体时长在数小时之内，但学习完本教程，可以掌握基础大模型开发的所有核心技能。
兼具统一性与拓展性。本项目对 GPT、百度文心、讯飞星火、智谱GLM 等国内外主要 LLM API 进行了统一封装，支持一键调用不同的 LLM，帮助开发者将更多的精力放在学习应用与模型本身的优化上，而不需要花时间在繁琐的调用细节上；同时，本教程拟上线奇想星球 | AIGC共创社区平台，支持学习者自定义项目为本教程增加拓展内容，具备充分的拓展性。

在线阅读地址

https://datawhalechina.github.io/llm-universe/

PDF 地址

https://github.com/datawhalechina/llm-universe/releases/tag/v1

内容大纲

第一部分 LLM 开发入门

负责人：邹雨衡

LLM 介绍 @高立业
使用 LLM API 开发应用 @毛雨
1. 基本概念
2. 使用 LLM API
  - ChatGPT
  - 文心一言
  - 讯飞星火
  - 智谱 GLM
3. Prompt Engineering
搭建知识库 @娄天奥
构建 RAG 应用 @徐虎
1. 将 LLM 接入 LangChain
  - ChatGPT
  - 文心一言
  - 讯飞星火
  - 智谱 GLM
2. 基于 LangChain 搭建检索问答链
3. 基于 Streamlit 部署知识库助手
系统评估与优化 @邹雨衡

第二部分进阶 RAG 技巧（正在创作）

负责人：高立业

背景
1. 架构概览
2. 存在的问题
3. 解决方法
数据处理
1. 多类型文档处理
2. 分块优化
3. 向量模型的选择
4. 微调向量模型（进阶）
索引层面
1. 索引结构
2. 混合检索
3. 假设性问题
检索阶段
1. query 过滤
2. 对齐 query 和文档
3. 对齐检索和 LLM
生成阶段
1. 后处理
2. 微调 LLM（进阶）
3. 参考引用
增强阶段
1. 上下文增强
2. 增强流程
RAG 工程化评估

第三部分开源 LLM 应用解读

负责人：徐虎

ChatWithDatawhale——个人知识库助手解读
天机——人情世故大模型解读

致谢

核心贡献者

邹雨衡-项目负责人（Datawhale成员-对外经济贸易大学研究生）
高立业-第二部分负责人（DataWhale成员-算法工程师）
徐虎-第三部分负责人（Datawhale成员-算法工程师）

主要贡献者

毛雨-内容创作者（后端开发工程师）
娄天奥-内容创作者（Datawhale鲸英助教-**科学院大学研究生）
崔腾松-项目支持者（Datawhale成员-奇想星球联合发起人）
June-项目支持者（Datawhale成员-奇想星球联合发起人）

其他

特别感谢 @Sm1les、@LSGOMYP 对本项目的帮助与支持；
特别感谢奇想星球 | AIGC共创社区平台提供的支持，欢迎大家关注；
如果有任何想法可以联系我们 DataWhale 也欢迎大家多多提出 issue；
特别感谢以下为教程做出贡献的同学！

Made with contrib.rocks.

Star History

llm-universe's People

Contributors

Stargazers

Watchers

Forkers

2951121599 hanwenyuan0907 tongronghuang 0-yy-0 alexa2077 wechatwegpt hshc123 ironartisan wangwang318 ivan9394 plumpmole wangpengcufe jeffreyyzh goalers ydaiming weihong-liu mambalong edmondzerosui som-don sawyer-g wasd66666 hduhutao thmosxiong notlittleq zyle0 louhongyu xyihang greatvalley tianbingsheng ganchun1130 zhouxiaomao resscris2 yikunhan42 iszhuangsha username-yao summy4bobo qy513449931 songfei001 ruitonglyu fengyunzaidushi jeep-z zhangzhuobys yhchiu nangualin mercuryz zyz0000 superoldman96 jmaigc lianzhanbiao ai-mou sundogs8603 william-0 improvejin lijianshe02 dongtianqi1125 mlnethub carsonpan ambleryang x1481962098 axclouds huangweiboy2 cgx-avenue xuhu0115 chwwhut waynelearnscode yuuko-kurisu my1921 hemonn weiplanet shangbinbin zxyza wqy123wqy dalaogo denganliang g-roccy heterocat getyou123 ouyanghaixiong yiranleng giter915 aliuweizj sjy qinci woodx9 siruzhong yaowuxie liuxu-manifold ariasuxy davidhefan h2s1652 heshengjun811 zhangshen123 tony0807 sorros yfqingmu zuizui0605 giserlei123 huochaifeng zytbft mcdragon

llm-universe's Issues

构建向量库chroma章节报错

from langchain.vectorstores.chroma import Chroma

vectordb = Chroma.from_documents(
documents=split_docs[:20], # 为了速度，只选择前 20 个切分的 doc 进行生成；使用千帆时因QPS限制，建议选择前 5 个doc
embedding=embedding,
persist_directory=persist_directory # 允许我们将persist_directory目录保存到磁盘上
)

File ~/miniconda3/envs/llm-universe/lib/python3.10/site-packages/httpcore/_sync/connection_pool.py:196, in ConnectionPool.handle_request(self, request)
194 try:
195 # Send the request on the assigned connection.
--> 196 response = connection.handle_request(
197 pool_request.request
198 )
199 except ConnectionNotAvailable:
...
83 raise
85 message = str(exc)
---> 86 raise mapped_exc(message) from exc

ConnectError: [Errno 111] Connection refused

请问project项目怎么启动呢？

前端gradio启动了，后端还没启动。使用conda启动的

RAG 技巧部分有时间点吗

第二课第五小节“调用智谱API”部分模型名称变更

智谱 AI 开放平台目前已主推 chatglm_turbo 模型，且 pro、std、lite 模型将于2023年11月底下线。

建议将课程中涉及到模型名称的部分（如代码中的 model = "chatglm_std"）改为 chatglm_turbo。

如图：

Dimensionality of (1024) does not match index dimensionality (1536)

使用zhipuai，初始化知识库，点击chat db without history，提示Dimensionality of (1024) does not match index dimensionality (1536)

我知道zhipuai返回的向量维度是1024，在哪里修改chroma的维度？

embeding后维度不一致问题。

你好.我在做向量数据库时，采用了智普的大模型做embedding，在写入choram向量数据库时，因为向量化后的维度不一致导致无法写入。查了很久不知道怎么解决。请大神指点

默认版本的千帆模型不能准确检查2.1.3中给出的prompt是否满足条件

2.1.3中强制要求他总结的话可以总结成要求的格式,但是给他判断后就判断为不满足了,按照流程调用默认版本的智谱可以哈哈

zhipuai_embedding 包不存在，不能安装，也没说明去哪里获取

from zhipuai_embedding import ZhipuAIEmbeddings
想问一下 zhipuai_embedding 这个包在哪里获取啊，也没说怎么获取呀

请问，project启动后，为什么上传文档，点击向量化后显示ERROR?

是因为向量数据库未启动的原因吗？

使用langchain接入chatgpt输出没有内容

结果显示有tokens，却看不见具体内容
content='' response_metadata={'token_usage': {'completion_tokens': 41, 'prompt_tokens': 95, 'total_tokens': 136}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'content_filter', 'logprobs': None} id='run-28d73283-36c7-4a3e-afbc-d4652bed3bd2-0'

from langchain.prompts.chat import ChatPromptTemplate

template = "你是一个翻译助手，可以帮助我将 {input_language} 翻译成 {output_language}."
human_template = "{text}"

chat_prompt = ChatPromptTemplate.from_messages([
("system", template),
("human", human_template),
])

text = "我带着比身体重的行李，
游入尼罗河底，
经过几道闪电看到一堆光圈，
不确定是不是这里。
"
messages = chat_prompt.format_messages(input_language="中文", output_language="英文", text=text)
print(messages) # [SystemMessage(content='你是一个翻译助手，可以帮助我将中文翻译成英文.'), HumanMessage(content='我带着比身体重的行李，游入尼罗河底，经过几道闪电看到一堆光圈，不确定是不是这里。')]

output = llm.invoke(messages)

print(output)

请问，python版本和依赖版本都是按照requirements_windows.txt来着，但使用 LangChain 调用智谱 AI运行报错

运行这段
ai_model.generate(['你好'])
报错

Traceback (most recent call last):
File "F:\projects\LangChain_LLM\main.py", line 7, in
zhipuai_model.generate(['你好'])
File "E:\develop\miniconda3\envs\LangChain_LLM\lib\site-packages\langchain\llms\base.py", line 603, in generate
params = self.dict()
File "E:\develop\miniconda3\envs\LangChain_LLM\lib\site-packages\langchain\llms\base.py", line 929, in dict
starter_dict = dict(self._identifying_params)
File "F:\projects\LangChain_LLM\llm\zhipuai_llm.py", line 157, in _identifying_params
super()._identifying_params,
File "F:\projects\LangChain_LLM\llm\zhipuai_llm.py", line 85, in _identifying_params
return {{"model_name": self.model_name}, **self._default_params}
File "F:\projects\LangChain_LLM\llm\zhipuai_llm.py", line 175, in _default_params
return {**normal_params, **self.model_kwargs}
TypeError: 'FieldInfo' object is not a mapping

有大佬知道啥原因吗

依赖安装失败

在windows下运行
pip install -r requirements_windows.txt
或者
pip install -r requirements.txt
都不能成功安装依赖
前者会卡在找不到backports=1.0这个包

后者会卡在uviloop这个包不能适配windows系统

更新后的版本会有project吗

您好，非常感谢你们的项目，想请问一下更新后的版本会有project吗

第四课 “向量数据库” 部分的代码错误

在课程文档和 notebook 中 ChatGLM2 的模型 ID 有错误，应为

model_id = 'THUDM/chatglm2-6b'

在课程文档和 notebook 中参数 trust_remote_code 传入有错误，应为

model = AutoModel.from_pretrained(model_id, trust_remote_code=True).half().quantize(4).cuda()

另外，建议模型直接选择 chatglm2-6b-int4，可节省硬盘占用以及实时量化所需的运算资源。

from llm.call_llm import get_completion ModuleNotFoundError: No module named 'llm.call_llm'

运行project，运行不了，是哪里的问题呢？

项目烂尾了吗

好像挺久没更新了

在 6. 调用智谱 AI(ChatGLM)生成 embedding 中，调用API时报错：module ‘’zhipuai‘ has no attribute ‘model api’

各种bug报错，请维护好代码，首先文心一言、星火、智谱的接口都变了，其次project的包的导入各种错

请问project运行了，但是选择gpt3.5-turbo访问不了

之前notebook的gpt-3.5-turbo已经接入, 充值到OpenAI的帐号了, 可以正常访问

但是project中使用gpt-3.5模型出错:
1.开了vpn, project中的gradio一直等待
2.不开vpn, 则显示Error communicating with OpenAI: HTTPSConnectionPool(host='api.openai.com', port=443): Max retries exceeded with url: /v1/chat/completions (Caused by SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:1129)')))

请问怎么解决

openai 包更新 1.X 版后的代码兼容问题

11月7日 OpenAI 举办 OpenAI DevDay 并配套将 Python SDK openai 包更新到了 1.X 版本，包含了若干 breaking changes，例如对话补完API的新的调用方法就变为

openai.OpenAI().chat.completions.create(...)

此类变更并不向后兼容，即在 1.X 版本下，若使用旧版代码调用对话补完

openai.ChatCompletion.create(...)

则会报APIRemovedInV1异常：

You tried to access openai.ChatCompletion, but this is no longer supported in openai>=1.0.0 - see the README at https://github.com/openai/openai-python for the API.
You can run openai migrate to automatically upgrade your codebase to use the 1.0.0 interface.
Alternatively, you can pin your installation to the old version, e.g. pip install openai==0.28
A detailed migration guide is available here: openai/openai-python#742

即在11月7日后，学习此教程第二课 “调用ChatGPT” 部分，且安装了 1.X 版本openai 包的学习者将遇到代码运行错误的情况。
另外因为 /project/llm/call_llm.py 中也有调用 openai.ChatCompletion.create()，且此项目似乎并没有固定依赖包的版本，预计此项目也将受影响。

解决方案一：
在 notebook 和项目中固定 openai 包的版本为某个 0.X 版本，如最后一个 0.X 版本 0.28.1。

解决方案二：
参考上文中的迁移指南，手动或尝试使用 openai migarate 命令将现有代码更新为适应 1.X 版本的代码。

制作了 EPUB

动手学大模型应用开发.zip

智谱ai已经从2代升级到了ChatGLM-Turbo对应的zhipuai_llm.py脚本是不是需要升级一下

如题

我在使用LangChain调用智谱AI时报错，window的requirements_window.txt已经下载好了

from zhipuai_llm import ZhipuAILLM
TypeError: dataclass_transform() got an unexpected keyword argument 'field_specifiers'

streamlit version

May I ask the version of streamlit in the project? I installed 1.11.0; 1.12.0 and 1.10.0. I always meet problem like:
TypeError: radio() got an unexpected keyword argument 'captions' for the following codes
selected_method = st.radio(
"你想选择哪种模式进行对话？",
["None", "qa_chain", "chat_qa_chain"],
captions = ["不使用检索问答的普通模式", "不带历史记录的检索问答模式", "带历史记录的检索问答模式"])

TypeError: container() got an unexpected keyword argument 'height' for the following codes
messages = st.container(height=300)