环球关注：如何利用小数据集改进深度学习模型？

众所周知，深度学习模型对数据的需求量很大。为深度学习模型提供的数据越多，它们的表现就越好。遗憾的是，在大多数实际情形下，这是不可能的。您可能没有足够的数据，或者数据过于昂贵而无法收集。本文将讨论在不用更多数据的情况下改进深度学习模型的三种方法。

为什么深度学习需要这么多数据？

深度学习模型之所以引人注目，是由于它们可以学习了解复杂的关系。深度学习模型包含多个层。每一层都学习了解复杂性逐步递增的数据表示。第一层可能学习检测简单的模式，比如边缘。第二层可能学习查看这些边缘的模式，比如形状。第三层可能学习识别由这些形状组成的对象，依此类推。

(相关资料图)

每层由一系列神经元组成，它们又连接到前一层中的每个神经元。所有这些层和神经元意味着有大量参数需要优化。所以好的方面是深度学习模型拥有强大的功能。但不好的方面意味着它们容易过拟合。过拟合是指模型在训练数据中捕捉到过多的干扰信号，无法适用于新数据。

有了足够的数据，深度学习模型可以学习检测非常复杂的关系。不过，如果您没有足够的数据，深度学习模型将无法理解这些复杂的关系。我们必须有足够的数据，那样深度学习模型才能学习。但是如果不太可能收集更多的数据，我们有几种技术可以克服：

1、迁移学习有助于用小数据集训练深度学习模型。

迁移学习是一种机器学习技术，您可以拿来针对一个问题训练的模型，将其用作解决相关的不同问题的起点。

比如说，您可以拿来针对庞大狗图像数据集训练的模型，并将其用作训练模型以识别狗品种的起点。

但愿第一个模型学到的特征可以被重用，从而节省时间和资源。至于两种应用有多大不同，没有相应的经验法则。但是，即使原始数据集和新数据集大不相同，照样可以使用迁移学习。

比如说，您可以拿来针对猫图像训练的模型，并将其用作训练模型以识别骆驼类型的起点。但愿在第一个模型中找出四条腿的功能可能有助于识别骆驼。

2、尝试数据增强

数据增强是一种技术，您可以拿现有数据生成新的合成数据。

比如说，如果您有一个狗图像数据集，可以使用数据增强来生成新的狗图片。您可以通过随机裁剪图像、水平翻转、添加噪点及其他几种技术做到这一点。

如果您有一个小数据集，数据增强大有益处。通过生成新数据，可以人为地增加数据集的大小，为您的深度学习模型提供更多可使用的数据。

3、使用自动编码器

自动编码器是一种用于学习低维度数据表示的深度学习模型。

当您有一个小数据集时，自动编码器很有用，因为它们可以学习将您的数据压缩到低维度空间中。

有许多不同类型的自动编码器。变分自动编码器（VAE）是一种流行的自动编码器。VAE是一种生成式模型，这意味着它们可以生成新数据。这大有帮助，因为您可以使用VAE生成类似于训练数据的新数据点。这是增加数据集大小而无需实际收集更多数据的好方法。