On this page

CV 领域任务 (研究目标)

CV 领域的大任务

（a）Image classification 图像分类

识别这个图片整体所属的类别，解决的是 "what" 问题，给这个图片打上相应的标签，在 a 图内标签是 bottle，cup，cube ，其他类型的图片也都有它们自己的标签，然后把这些打上标签的图片带进网络结构里作为训练集训练。

（b）Object localization 目标检测（对象定位）

识别图片中各个物体所在的位置，解决的是 "where" 问题，此处还细分两个问题：
- 定位：检测出图片中的物体位置，一般只需要进行画框。
- 检测：不仅想要知道这些物体所属的类别，还想知道他们所在的具体位置，比如这张图片有 bottle，cup，cube ，我们不仅要检测出这些物体所在的位置，还要检测处在这个位置的物体所属的类别，这就是目标检测。
- 再看一个目标检测的例子（此处为 Roboflow - 数据集标注工具的示例）
  - 这张图我们需要标注两个类别 head（头）、helmet（头盔）

（c）Semantic segmentation 语义分割

语义分割需要进一步判断图像中哪些像素属于哪个目标（进阶目标检测）。
看图右下角两个 cube 是连在一块的并没有分出哪一部分是哪一个的 cube

（d）Instance segmentation 实例分割

实例分割需要区分出哪些像素属于第一个物体、哪些像素属于第二个物体，即目标检测 + 语义分割。
看图右下角两个 cube 是分开的

（e）Key Point 人体关键点检测

通过人体关键节点的组合和追踪来识别人的运动和行为，对于描述人体姿态，预测人体行为至关重要。

（f）Scene Text Recognition（STR）场景文字识别

很多照片中都有一些文字信息，这对理解图像有重要的作用。

场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下，将图像信息转化为文字序列的过程。

（g）Pattern Generation 图像生成

利用两张图片或者其他信息生成一张新的图片

利用左边两张小图生成右边的图片

（h）Super Resolution 超分辨率

将输入图片分辨率增加

当然还有一些新兴领域我们没有写入～