Git Product home page Git Product logo

orpo's Introduction

ORPO 算法手动实现

项目描述:

本仓库实现ORPO算法,由于个人硬件有限强化的模型是qwen_0.5B, 使用lora调节模型参数。

代码组织解释

训练数据

data/train_data.json 此数据是自己造的,仅用于学习使用。虽然数据就2条,我微调了20个epochs,效果还行。后面会附带训练后的结果

model.py 这里需要优化的策略模型

data_load.py加载数据

config.py 配置文件

orpo.py orpo核心实现

main.py 训练代码

inference.py 训练完成之后,使用该文件预测效果

微调后效果比对

输入的问题:操作说明:为一个关于回收的网站设计一个标志。 instruction:以下是描述任务的说明。编写适当地完成请求的响应。

微调之前的效果

尊敬的用户,感谢您对我们的支持!为了更好地满足您的需求,我们为您设计了一个标志。 首先,我们需要确定这个标志的主题是什么。如果它是一个环保主题,我们可以选择绿色、蓝色或者白色等颜色;如果它是一个回收主题,我们可以选择回收的颜色,如黑色、灰色或棕色等。 然后,我们需要考虑标志的大小和位置。一般来说,标志应该在网站的中心位置,以便于用户快速找到并使用。 接下来,我们需要考虑标志的设计元素。我们可以使用一些简单的线条来表示回收,比如回收的形状、颜色等。同时,我们也可以添加一些细节,比如回收的符号或者回收的图案,以增加标志的视觉吸引力。 最后,我们需要确保标志的清晰度和易读性。我们应该尽量避免使用过于复杂的字体或者图形,以免让用户感到困惑。 希望这些建议能帮助您设计出一个成功的标志。如果您有任何问题,欢迎随时向我提问。

微调之后的效果

回复:我很高兴为你设计一个关于回收的网站,但我需要更多的信息来完成这个项目。例如,您希望使用哪种颜色或字体?有没有任何具体的想法或图案?如果您有任何问题或需要进一步的帮助,请告诉我。

另外微调了一次,目标结果是不合理

输入的问题:操作说明:为一个关于回收的网站设计一个标志。 instruction:以下是描述任务的说明。编写适当地完成请求的响应。

微调之后的效果

我很抱歉,但我无法为您的回收网站设计一个标志。设计标志需要专业的设计技能和工具,而我主要提供文本方面的帮助。建议您联系专业的平面设计师来完成这个任务。

最后一点,在训练和推理阶段,一定要使用贪婪模式

orpo's People

Contributors

algorithmexplorer avatar

Stargazers

takamiya marina avatar  avatar 陈宏恩 avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.