计算机视觉中的卷积是什么
介绍
在机器学习中,计算机视觉是一个使用和分析图像数据集以执行与之相关的若干复杂任务的领域。这里使用了不同的算法和技术来处理和分析图像,以便使用数据并训练高性能模型。
卷积是一个非常重要的术语或现象,它发生在卷积神经网络的名义下,卷积神经网络是用于处理和处理机器学习中的图像数据集的最著名技术。在本文中,我们将讨论卷积、卷积运算是什么以及其他与之相关的重要内容。
所以在直接进入卷积之前,让我们先讨论一下计算机视觉。
什么是计算机视觉?
在深度学习中,计算机视觉是一个分支,涉及各种复杂的算法和技术,这些算法和技术用于加载、处理、预处理和分析图像数据集,这些数据集将用于训练最终模型。计算机视觉涉及多个著名的任务,例如目标检测、图像分割、人脸识别等。
对于计算机视觉,使用卷积神经网络,它是处理图像数据集的神经网络类型。它能够接受图像作为输入,加载它们,预处理它们,并应用不同的技术来提取其中的信息。
卷积神经网络从根本上与人工神经网络相同;只是这里,术语“人工”被“4 卷积”所取代,这直接意味着这些技术涉及卷积或卷积运算。
现在让我们讨论计算机视觉中的卷积运算。
卷积运算
众所周知,在机器学习和深度学习中,数据的质量和数量是影响模型性能的最重要和最有影响力的参数之一。因此,为了获得高性能和可靠的模型,数据的质量和数量应该保持良好。
但是,一旦我们拥有了大量高质量的数据,这并不意味着已经结束;主要的事情是从数据中获取有用的信息,以便使模型了解这些信息。为此,应用了各种数据清理和预处理技术,这些技术清理和预处理数据,并从数据中提取各种信息和特征。
与图像数据集相比,从普通文本或数值数据中提取特征或信息非常容易。在图像数据集的情况下,会应用不同的过滤器以及其他几个参数来预处理和分析图像。让我们讨论一下卷积运算如何在神经网络中进行。
卷积运算是如何执行的?
在计算机视觉中,我们知道卷积运算主要用于特征提取,这有助于从图像数据集中获取有用的信息。执行卷积运算时的主要参数是我们用于创建图像特征图的内核或过滤器。
假设我们有一个图像作为输入,并且我们想在同一个图像上训练一个模型。现在,此图像将首先传递到输入层。经过输入层后,图像将进入第一个卷积层或第一个隐藏层。这里,卷积层将有其自己的不同参数,如过滤器、内核大小、填充、步幅、激活函数等。
因此,当卷积网络的第一层接收输入图像时,它将获取图像并将内核或过滤器应用于同一个图像。这里的过滤器可以是任何大小,它基本上将放在原始图像上,并且根据我们想要执行的操作(例如求和、平均、最小或最大),我们将把原始图像的那些像素读数转换为低维像素读数。
因此,假设我们有一个大小为 64*64 的图像,并且我们应用了一个 3*3 的过滤器,那么图像在经过第一层后的最终大小将为 62*62。
以下公式可用于获取经过卷积层处理或预处理后的输出图像大小。
图像大小 = n - f + 2p/s + 1
其中 n 是图像的原始大小,f 是过滤器大小,p 是填充,s 是我们在特定卷积层中使用的步幅。
这里要注意的是,卷积层指的是卷积运算的单层,而完整的卷积层可以有多个卷积层,每个卷积层都有自己的设定模式。可以根据模型的性能调整这些参数,并且还可以考虑模型的性能和复杂性来调整我们使用的层数。
我们越深入卷积网络,模型就会从图像中检测到非常复杂和更小的东西,而卷积网络的初始层或内核执行更简单的任务,例如边缘检测、较大对象检测等。
卷积层参数
过滤器数量:这表示我们想要应用于图像以预处理并从中提取特征的过滤器数量。
内核大小:此参数表示我们想要应用于图像以提取特征的过滤器的形状大小。
激活函数:此参数表示我们想要在特定卷积层中使用的激活函数。这里我们可以使用任何适合模型的激活函数,如 relu、softmax、sigmoid、tanh 等。
填充:填充指的是我们想要添加到图像中的额外像素层数,以避免丢失任何信息或图像的大小。
步幅:步幅指的是过滤器在对原始图像执行卷积运算时采取的卷积步骤 tanh。
结论
在本文中,我们讨论了卷积、卷积运算是什么、它们是如何执行的以及一些相关的参数。本文将帮助人们更好地理解卷积运算,并帮助人们在执行相同操作时应用理解。