本系列是参考冈萨雷斯《数字图像处理》斯坦福CS131课程进行自我总结而成的数字图像处理基础知识。

数字图像表示

数学形式定义

f(s,t)表示连续图像函数,通过采样和量化可以将这幅连续图像转化成数字图像f(x,y),该图像有MN列,其中f(x,y)是离散坐标,函数f(x,y)的值表示灰度值。

计算集为了方便存储和处理通常将图像表示成矩阵形式,形式如下
(1)A=[a0,0a0,1a0,N1 a1,0a1,1a1,N1  aM1,0aM1,1aM1,N1]

许多图像显示器都是从左上角开始向右移动,每次扫描一行。习惯上将左上角作为矩阵的第一个元,这也符合笛卡尔坐标系。

f(x,y)函数的值L离散化后,通常称为灰度级数,一般取2的整数倍
(2)L=2k
L的取值在[0,L1]区间内,这个区域称作动态范围。

一幅数字图像存储所需要的比特数b可以表示为

(3)b=MNk

饱和度、噪声与对比度

饱和度

饱和度是指一个最大值,超过该值的所有灰度值都会被裁掉,图像显示则显示显示器所能显示的最大亮度

噪声

图像噪声是指存在于图像数据中的不必要的或多余的干扰信息。

图像噪声.jpg

对比度与反差比

对比度是指图像中最高和最低灰度级间的灰度差,反差比则是它们之间的比率

空间分辨率和灰度分辨率

空间分辨率

空间分辨率的单位是点数dpi,越大说明图像显示的原本信息更细腻

灰度分辨率

灰度分辨率是指灰度级中可分辨的最小变化,一般采用8比特,也有使用16、32比特,但是不常见。注:在16级灰度或者跟小的灰度等级中,会出现伪轮廓,类似地图中的等高线。

图像内插

内插通常在图像放大、缩小、旋转和几何校正等任务中使用。内插在放大缩小中使用重采样的方法,内插是用已知数据来估计未知位置的值的过程。

最邻近插值法

将原图像中最邻近的灰度赋给每一个新位置。将目标图像中的点,对应到原图像中后,找到最相邻的整数坐标点的像素值,作为该点的像素值输出。

最邻近插值法.jpg

这种方法虽然简单,但是容易失真。

双线性内插

双线性内插使用4个最近的灰度来计算给定位置的灰度。令(x,y)表示待赋值的灰度值的位置,v(x,y)表示灰度值,公式如下:

(4)v(x,y)=ax+by+cxy+d

4个系数可有点(x,y)的四个最近的点写出四个未知方程求出。

双三次内插

双线性内插使用16个最近的灰度来计算给定位置的灰度。令(x,y)表示待赋值的灰度值的位置,v(x,y)表示灰度值,公式如下:

(5)v(x,y)=i=03j=03aijxiyj

16个系数可有点(x,y)的16个最近的点写出16个未知方程求出。它是Adobe商业公司使用的标准内插法。

区别

图像的精细程度:双三次内插法>双线性内插>最邻近插值法

像素的基本关系

参考:
作者:Lemon雷
链接:https://www.jianshu.com/p/2aef925ed39e
来源:简书

相邻的定义

两个像素连通的两个条件是:

  1. 两个像素的位置是否相邻

  2. 两个像素的灰度值是否满足特定的相似性准则(同时满足某种条件,比如在某个集合内或者相等)

我们令V是用于定义连通性的灰度值集合。比如V={x|0<x<125} (x是指像素点的灰度值)。那么:

4连通

对于灰度值在V集合中的像素p和q,如果q在p的4邻域中(即N4(p)),那么称像素p和q是4连通的

4连通示意图

8连通

对于灰度值在V集合中的像素p和q,如果q在p的8邻域中(即N8(p)),那么称像素p和q是8连通的

8连通示意图

m连通(混合连通)

对于灰度值在V集合中的像素p和q,如果:

  1. q在p的4邻域中,或者

  2. q在p的D邻域中,并且p的4邻域与q的4邻域的交集是空的(即没有灰度值在V集合中的像素点)

那么称这两个像素是是m连通的,即4连通和D连通的混合连通。

m连通示意图

注:m连通(混合连通)是8连通的改进版,这个概念的提出就是为了消除8连通的二义性

距离测度

欧几里得距离

De(p,q)=[(xu)2+(yv)2]12

D4距离

D4(p,q)=|xu|+|yv|

D8距离

D8(p,q)=max(|xu|,|yv|)

加性图像降噪的数学原理

假设图像 f(x,y) 是被加性噪声η(x,y)污染后的图像,也即
(6)g(x,y)=f(x,y)+η(x,y)
其中η(x,y)噪声在每个坐标上是不相关的,并且均值为0。

若图像噪声满足上述关系,可以证明对K幅图像进行平均得到:
(7)g¯(x,y)=1Ki=1Kgi(x,y)
(8)Eg¯(x,y)=f(x,y)
(9)σg¯(x,y)2=1Kση(x,y)2

可知当K逐渐变大时,图像的噪声水平越低。

下面为加入了高斯白噪声的图片

噪声图片

使用如上原理去除噪声后

除噪后图片

图片来源:http://accu.cc/content/pil/agwn/

比较图像

相减方法

(10)g(x,y)=f(x,y)h(x,y)
f(x,y)为模板图像,h(x,y)为摄影图像

阴影校正

假设g(x,y)为采样得到的图像,f(x,y)为理想图像,h(x,y)为阴影
(11)g(x,y)=f(x,y)h(x,y)
通过乘以h(x,y)的反函数,即可获得理想图像。

作用

可以用来校正阴影和获得ROI。

运算公式

(12)gm=gmin(g)
(13)gs=K[gm/max(gm)]

几何运算

仿射变换可以完成图像的缩放、旋转、平移或剪切变换
(14)[x y 1]=T[x y 1]=[a1,1a1,2a1,3 a2,1a2,2a2,3 001][x y 1]

典型的仿射变换矩阵

变换名称|仿射矩阵T|
—|:–:|—:
恒等|[100\010\001] |
缩入\反射|[cx00\0cy0\001] |
关于原点旋转|[cosθsinθ0sinθcosθ0\001] |
平移|[10tx\01ty\001] |
垂直剪切|[1sv0\010\001] |
水平剪切|[100\sh10\001] |

注意使用区分:前向映射和后向映射

前向映射

后向映射

色彩空间

参考:百度百科、维基百科

色彩是人的眼睛对于不同频率的光线的不同感受,色彩既是客观存在的(不同频率的光)又是主观感知的,有认识差异。所以人类对于色彩的认识经历了极为漫长的过程,直到近代才逐步完善起来,但至今,人类仍不能说对色彩完全了解并准确表述了,许多概念不是那么容易理解。“色彩空间”一词源于西方的“Color Space”,又称作“色域”,色彩学中,人们建立了多种色彩模型,以一维、二维、三维甚至四维空间坐标来表示某一色彩,这种坐标系统所能定义的色彩范围即色彩空间。我们经常用到的色彩空间主要有RGB、CMYK、Lab等。

CIE 1931色彩空间

在CIE XYZ色彩空间中,三色刺激值并不是指人类眼睛对短、中和长波(S、M和L)的反应,而是一组称为X、Y和Z的值,约略对应于红色、绿色和蓝色(但要留意X、Y和Z值并不是真的看起来是红、绿和蓝色,而是从红色、绿色和蓝色导出来的参数),并使用CIE 1931 XYZ颜色匹配函数来计算。

CIE XYZ

(15)X(Red)+Y(Green)+Z(Blue)=1
知道其中两个值就可以根据[公式15]推算另外第三个值,所以色彩空间可以用二维坐标表示,上图圈起来的范围是人类肉眼可见的颜色范围。

非线性色彩空间HSV

参考:https://blog.csdn.net/weixin_43269204/article/details/94628987

HSV(Hue,Saturation,Value)是根据颜色的直观特性由A. R. Smith在1978年创建的一种颜色空间, 也称六角锥体模型,HSV即色相H(Hue)、饱和度S(Saturation)、明度V(Value)。色相是色彩的基本属性,就是平常说的颜色的名称,如红色、黄色等,H由绕V轴的旋转角给定,红色对应于角度0°,绿色对应于角度120°,蓝色对应于角度240°,每一种颜色和它的补色相差180°;饱和度(S)是指色彩的纯度,越高色彩越纯,低则逐渐变灰;明度(V),颜色明亮的程度,明度值与发光体的光亮度有关。圆锥的顶点处,V=0,代表黑色,圆锥的顶面中心处V=1,S=0,代表白色,其空间模型如图所示。

HSV

RBG颜色空间

RGB颜色空间以R(Red:红)、G(Green:绿)、B(Blue:蓝)三种基本色为基础,进行不同程度的叠加,产生丰富而广泛的颜色,所以俗称三基色模式。在大自然中有无穷多种不同的颜色,而人眼只能分辨有限种不同的颜色,RGB模式可表示一千六百多万种不同的颜色,在人眼看来它非常接近大自然的颜色,故又称为自然色彩模式。红绿蓝代表可见光谱中的三种基本颜色或称为三原色,每一种颜色按其亮度的不同分为256个等级。当色光三原色重叠时,由于不同的混色比例能产生各种中间色。

RGB

白平衡

白平衡是对感器接收的图像数据进行调整,以正确的渲染处理中性色(白色,灰色等)。此调整由数码相机自动执行(自定义设置为不同的光);胶片相机提供多种不同的滤镜和胶片类型,为不同的拍摄条件。

白平衡