MARL周报(5)

到此对于单智能体根据哔哩哔哩网课已经基本学完了，并且整理成了相应的笔记：分类: 强化学习 | 雨白的博客小屋 (ameshiro77.cn)。同时，参考一些博客，实现了DQN、PG等算法的代码。在学习多智能体的知识。

将环境选定为了Magent。面对多智能体，找到了关于这个环境的论文：1802.05438v4.pdf (arxiv.org)。这是一篇将平均场思想运用到多智能体环境的论文，目标在于解决大规模多智能体环境问题。这对于智能城市的项目会很有帮助。

在虚拟机上跑通了论文代码（用的版本是tf1..一开始用tf2改的心态崩了），之后要对论文进行解读，并且详细阅读代码。