大纲:

  1. 什么是计算机视觉cv
  2. 应用范围
  3. 计算机视觉要解决哪些问题
  4. 近几年论文
  5. 本篇论文相较于以往提出哪些新的方法
  6. R-CNN的流程
  7. 思考
  8. 疑问

什么是计算机视觉cv

三个不同的教科书给出的定义:

  • “the construction of explicit, meaningful descriptions of physical objects from images” (Ballard & Brown, 1982)

  • “computing properties of the 3D world from one or more digital images” (Trucco & Verri, 1998)

  • “to make useful decisions about real physical objects and scenes based on sensed images” (Sockman & Shapiro, 2001)

应用范围

  • 人脸识别
  • 图像检索
  • 游戏和控制
  • 监控
  • 生物统计(指纹,虹膜,人脸匹配)
  • 智能驾驶

近几年论文


计算机视觉目前要解决哪些问题

  • 图像分类image classification
  • 目标检测 object detection
  • 语义分割 Semantic Segmentation
  • 实例分割 Instance Segmentation
  • 目标追踪 object tracking
  • 姿态估计 Attitude estimation
  • 等等

本篇论文相较于以往提出哪些新的方法

  • 使用了CNN网络来提取特征,区别于传统从经验驱动的人造特征范式HOG、SIFT到数据驱动的表示学习范式,提高特征对样本的表示能力
  • 采用大样本下有监督预训练+小样本微调的方式解决小样本难以训练甚至过拟合等问题。

R-CNN的流程

  • 输入一张多目标图像,采用selective search算法提取约2000个建议框。
  • 先在每个建议框周围加上16个像素值为建议框像素平均值的边框,再直接变形为227×227的大小。
  • 依次将每个227×227的建议框输入AlexNet CNN网络获取4096维的特征。
  • 将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘,获得2000×20维矩阵表示每个建议框是某个物体类别的得分。
  • 分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框,得到该列即该类中得分最高的一些建议框。
  • 分别用20个回归器对上述20个类别中剩余的建议框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。

思考

  1. 信号分类的一个角度:时域、空域、频域
  2. 卷积:现实生活中,给定一个短时刺激,产生的影响往往持续一段时间。
  3. 卷积神经网络 不应该是卷积,应该是互相关 参考:《数字图像处理》
  4. 先用小的滤波器,再用大的滤波器,由小到大
  5. 时间域上卷积:系统(或者是滤波器)输入一个脉冲信号(刺激)后,系统将输出一个具有长时间输出的相应,而非短时(瞬时)输出。
    空间域上卷积: 系统(数字滤波器或者核)输入一个脉冲信号(刺激)后,系统会在在某个空间域内做出相应,而非某一空间点上相应。
  6. 小卷积核识别出小视野的模型或者叫形状,把卷积后的图片叠加,形成更大的宏观图,然后在更大的图片上识别更宏观的形式,猜测:一个物体的真实标签即和微观的feature相关也和经过多次卷积运算后的feature也相关。
  7. 对于图像而言,离散卷积的计算过程是模板翻转,然后在原图像上滑动模板,把对应位置上的元素相乘后加起来,得到最终的结果。如果不考虑翻转,这个滑动-相乘-叠加的过程就是相关操作。事实上我也一直用相关来理解卷积。在时域内可以从两个角度来理解这样做的含义。一种是滤波,比如最简单的高斯模板,就是把模板内像素乘以不同的权值然后加起来作为模板的中心像素值,如果模板取值全为1,就是滑动平均;如果模板取值为高斯,就是加权滑动平均,权重是中间高,四周低,在频率上理解就是低通滤波器;如果模板取值为一些边缘检测的模板,结果就是模板左边的像素减右边的像素,或者右边的减左边的,得到的就是图像梯度,方向不同代表不同方向的边缘;另一种理解是投影,因为当前模板内部图像和模板的相乘累加操作就是图像局部patch和模板的内积操作,如果把patch和模板拉直,拉直的向量看成是向量空间中的向量,那么这个过程就是patch向模板方向上的投影,一幅图像和一个模板卷积,得到的结果就是图像各个patch在这个方向上的response map或者feature map;如果这样的模板有一组,我们可以把这一组看成一组基,得到的一组feature map就是原图像在这组基上的投影。常见的如用一组Garbor滤波器提取图像的特征,以及卷积神经网络中的第一层,图像在各个卷积核上的投影。 来自知乎https://www.zhihu.com/search?type=content&q=%E5%9B%BE%E5%83%8F%E5%8D%B7%E7%A7%AF%E6%A0%B8 took的回答
  8. https://qiyueliuhuo.github.io/2020/06/13/神经网络之反向传播算法/

疑问

  1. 现在计算机视觉方向cv是否需要花费大量时间去学习传统cv方向的知识和算法。