深度强化学习

前面已经介绍过强化学习 (RL) 的基本概念了，这里着重介绍深度强化学习（DRL）。

在笔者浅薄的理解里，深度强化学习的本质还是一个强化学习的问题，只不过引入了深度学习里的深度神经网络用于拟合函数。在传统的强化学习中，我们有一张表格用于存储状态以及动作的值函数。

很显然，在状态和动作空间较少的情况下，无论是存储这张表格还是查找这张表格都是轻而易举的。但是在复杂的环境下，继续使用这种方法会出现维度灾难，我们不得不使用函数逼近的办法来估计值函数。

这时候深度学习便加入进来与强化学习相结合，可以利用深度学习能处理高维、非线性数据与具有强大的学习能力这两个特点来逼近这个值函数并且提取特征，从而处理复杂状态下的问题。

也正是基于此，笔者在后续不会刻意区分强化学习与深度强化学习，因为他们的目标是一致的。这也是为什么本内容会放在深度学习的大模块下，而不是另外单独起一个强化学习模块的原因。

4.3.1搜索

4.3.2知识推理

4.3.3不确定性问题

4.6.5计算机视觉（CV）

4.6.5.2CV中的数据预处理（torchvision）

4.6.5.3CV中的经典网络

4.6.5.4神经辐射场(NeRF)

4.6.5.5行人重识别(ReID)

4.6.6自然语言处理（NLP）

4.6.6.2推荐系统

4.6.6.2.2基于数据的角度，看待推荐系统的构造

4.6.7Transformer

4.6.8对比学习

4.6.9深度强化学习

推荐系统概述

推荐系统算法基础

经典召回模型

基于协同过滤的召回

item2vec召回系列

双塔召回

图召回

序列召回

树模型召回

经典排序模型

特征交叉

WideNDeep系列

序列模型

多任务学习

深度强化学习

4.6.5.2CV中的数据预处理（torchvision）

4.6.5.3CV中的经典网络

4.6.5.4神经辐射场(NeRF)

4.6.5.5行人重识别(ReID)

4.6.6.2推荐系统

4.6.6.2.2基于数据的角度，看待推荐系统的构造

经典召回模型

基于协同过滤的召回

item2vec召回系列

双塔召回

图召回

序列召回

树模型召回

经典排序模型

特征交叉

WideNDeep系列

序列模型

多任务学习

深度强化学习 ​

深度强化学习