CV 领域任务 (研究目标)
CV 领域的大任务
(a)Image classification 图像分类
- 识别这个图片整体所属的类别,解决的是 "what" 问题,给这个图片打上相应的标签,在 a 图内标签是
bottle,cup,cube
,其他类型的图片也都有它们自己的标签,然后把这些打上标签的图片带进网络结构里作为训练集训练。
(b)Object localization 目标检测(对象定位)
识别图片中各个物体所在的位置,解决的是 "where" 问题,此处还细分两个问题:
定位:检测出图片中的物体位置,一般只需要进行画框。
检测:不仅想要知道这些物体所属的类别,还想知道他们所在的具体位置,比如这张图片有
bottle,cup,cube
,我们不仅要检测出这些物体所在的位置,还要检测处在这个位置的物体所属的类别,这就是目标检测。再看一个目标检测的例子(此处为 Roboflow - 数据集标注工具的示例)
- 这张图我们需要标注两个类别
head(头)、helmet(头盔)
- 这张图我们需要标注两个类别
(c)Semantic segmentation 语义分割
- 语义分割需要进一步判断图像中哪些像素属于哪个目标(进阶目标检测)。
- 看图右下角两个
cube
是连在一块的 并没有分出哪一部分是哪一个的cube
(d)Instance segmentation 实例分割
- 实例分割需要区分出哪些像素属于第一个物体、哪些像素属于第二个物体,即目标检测 + 语义分割。
- 看图右下角两个
cube
是分开的
(e)Key Point 人体关键点检测
通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要。
(f)Scene Text Recognition(STR)场景文字识别
很多照片中都有一些文字信息,这对理解图像有重要的作用。
场景文字识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程。
(g)Pattern Generation 图像生成
利用两张图片或者其他信息生成一张新的图片
利用左边两张小图生成右边的图片
(h)Super Resolution 超分辨率
将输入图片分辨率增加
当然还有一些新兴领域我们没有写入~