加入收藏 | 设为首页 | 会员中心 | 我要投稿 济南站长网 (https://www.0531zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

没有足够多的数据怎么办?计算机视觉数据增强方法概括

发布时间:2021-08-13 13:34:38 所属栏目:大数据 来源:互联网
导读:当没有足够多的数据量时该怎么办?学者们针对这一问题已经研发看各种巧妙的解决方案,以避在深度学习模型中数据少的问题。近来,在做活体检测和打 Kaggle 比赛过程中查找了很多相关文献和资料,现整理后与大家分享。一般有以下几种方法解决的数据量少的问题
当没有足够多的数据量时该怎么办?学者们针对这一问题已经研发看各种巧妙的解决方案,以避在深度学习模型中数据少的问题。近来,在做活体检测和打 Kaggle 比赛过程中查找了很多相关文献和资料,现整理后与大家分享。一般有以下几种方法解决的数据量少的问题:
Transfer learning: 其的工作原理是在大型数据集(如 ImageNet)上训练网络,然后将这些权重用作新的分类任务中的初始权重。通常,仅复制卷积层中的权重,而不复制包括完全连接的层的整个网络。这是非常有效的,因为许多图像数据集共享低级空间特征,而大数据可更好地学习这些特征。
Self/Semi Supervised learning: 传统上,要么选择有监督的路线,然后只对带有标签的数据进行学习;要么将选择无监督的路径并丢弃标签,以进行 Self Supervised learning,而 Semi Supervised learning 这类方法就是训练模型的时候,仅需要使用少量标签和大量未标签的数据。
Few/One-shot and Zero-shot learning: Few/One-Shot Learning 目的在于从每个类别中的少量样本/一个样本中学习有关对象的特征,而 Zero-Shot Learning 的核心目标在于用训练好的模型对训练集中没有出现过的类别进行相应的预测。近些年 Few/One-Shot Learning 和 Zero-Shot Learning 技术发展迅速,模型的性能得到了大幅度的提升。
Regularization technique: 如 dropout、batch normalization 等等正则化方法也能够缓解数据量过少带来的过拟合现象。
Data Augmentation: 数据增强是根据已有的数据生成新的数据。与上述技术相反,数据增强从问题的根源(训练数据集)着手解决问题。使用数据增强方法扩展数据集不仅有助于利用有限的数据,还可以增加训练集的多样性,减少过度拟合并提高模型的泛化能力。
在本文中,我们将重点关注 Data Augmentation,因为计算机视觉是当前研究领域中最活跃的领域之一,所以,本文更聚焦于图像增强,但是其中很多技术技术都可以应用于其他领域。我们把图像的数据增强分为以下 4 类:
Basic Image
Geometric Transformations
Color Space Transformations
RandomRrase/GridMask
Mixup/Cutmix
Mosaic
Feature space augmentation
MoEx
GAN-based Data Augmentation
NAS
AutoAugment
Fast AutoAugment
DADA
Other
UDA
 
基本图像处理的扩增
常见的就是对图像进行几何变换,图像翻转,裁剪,旋转和平移等等,还可以使用对比度,锐化,白平衡,色彩抖动,随机色彩处理和许多其他技术来更改图像的色彩空间。
此外,还可以使用遮挡类的方法,如 CutOut、RandomRrase、GridMask。Cutmix 就是将一部分区域 cut 掉但不填充 0 像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配,CutMix 的操作使得模型能够从一幅图像上的局部视图上识别出两个目标,提高训练的效率。
而 Mosaic 数据增强方法是 YOLOV4 论文中提出来的,主要思想是将四张图片进行随机裁剪,再拼接到一张图上作为训练数据,这样做的好处是丰富了图片的背景。
基础的图形扩增方法在很多深度学习框架中都有实现,例如:torchvision。还有一些更加全面丰富的数据扩增库,如 albumentations 等等。
 
特征空间扩增
 
 
在上面的示例中,我们在图像空间上进行变换,此外,还可以在特征空间中变换。借助神经网络,我们可以非常有效地以低维或高维的形式表示图像,这样,中间的潜在张量包含有关数据集的所有信息,并且可以提取出来做各种事情,包括数据增强。MoEx 这篇文章作者在特征空间进行增强的尝试。具体做法如下图所示:
 
1. 对 hA 做 normalization 的到 hˆA,然后计算 hB 的 µB,σB
2. 接着对 hˆA 反归一化如下:
 
3. 使用新的损失函数计算 loss:
 
MoEx 的实验包括:ImageNet、Speech Commands、IWSLT 2014、ModelNet40 等。可以说涵盖了图像、NLP、语音三大领域,可见其优点很明显,由于是在特征空间做数据增强,所以不受输入数据类型的限制,对于图像、音频以及文本等数据具有通用性。
 
GAN-based Data Augmentation
生成建模是当前最火的技术之一,生成模型学习数据的分布,而不是数据之间的边界,因此,可以生成全新的图像。
GAN 由两个网络组成:生成器和鉴别器。生成器的工作是生成仅具有噪声作为输入的伪造数据。鉴别器接收真实图像和伪图像(由发生器产生)作为输入,并学会识别图像是伪图像还是真实图像。
随着两个网络相互竞争,在对抗训练的过程中,生成器在生成图像方面变得越来越好,因为其最终目标是欺骗鉴别器,而鉴别器在区分伪造品和真实图像方面变得越来越好,因为它的目标是不被欺骗,最终生成器生成了令人难以置信的真实伪数据。
需要说明的是,GAN 生成的数据是要因地制宜。据说在这篇文章右下角 double click 的同学会有奇效(哈哈)。
 
 
 
本文在情绪识别验证了 GAN 做数据扩增的有效性。情绪识别数据集 FER2013 包含了7种不同的情绪:愤怒,厌恶,恐惧,快乐,悲伤,惊奇和中立。,这些类是不平衡的。而本文使用 CycleGAN 将其他几类的图像转换为少数类的样本,使得模型准确性提高了 5-10%。

(编辑:济南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!