其他
来自本科生的暴击:清华开源「天授」 纯PyTorch实现
点击上方“Github中文社区”,关注
看遍Github好玩的项目
来源:机器之心
大家好,我是hub哥
训练模型的极速,与 1500 行源代码的精简,清华大学新开源强化学习平台「天授」。值得注意的是,该项目的两位主要作者目前都是清华大学的本科生。
Policy Gradient (PG)
Deep Q-Network (DQN)
Double DQN (DDQN) with n-step returns
Advantage Actor-Critic (A2C)
Deep Deterministic Policy Gradient (DDPG)
Proximal Policy Optimization (PPO)
Twin Delayed DDPG (TD3)
Soft Actor-Critic (SAC)
result = collector.collect(n_step=n)
result = policy.learn(collector.sample(batch_size))
__init__:初始化策略
process_fn:从 replay buffer 中处理数据
__call__:给定环境观察结果计算对应行动
learn:给定批量数据学习策略
!git clone https://github.com/thu-ml/tianshou
!pip3 install tianshou
import os
os.chdir('tianshou')
!python test/discrete/test_pg.py
!python test/discrete/test_ppo.py
!python test/discrete/test_a2c.py
!python test/discrete/test_dqn.py
Prioritized replay buffer
RNN support
Imitation Learning
Multi-agent
Distributed training
历史分享
★ 用鸿蒙跑了个“hello world”!鸿蒙开发初体验★Java 程序员必须掌握的 10 款开源工具!★ 厉害了!哈工大硕士生实现11种数据降维算法,代码已开源!★ 零基础入门C++到进腾讯,你还差这份开源宝典★ 5个值得学习和练手的Java企业级开源项目,强烈推荐