所有代码的风格都参考至TD7作者的代码:TD7 GitHub
整个DRL目的是复现一些我感兴趣的论文
- MOPO
- DT
- MBPO
- ODT
- 详细的评估,类似rlkit那样(目前仅仅只记录了loss的情况)
- 复用的代码,目前是按照论文分类的,里面有一些代码块可以取出来,但是考虑直观理解所以作为可选项吧
- d4rl(if offline)
- mujoco-py 2.1.2.14 (if offline)
- numpy 1.26.4
- torch 2.0.0
- gym 0.23.1
- mujoco 3.1.3
- tensorboard 2.16.2