来源:机器之心

作者:思源

知乎:

公众号:

如同物理大时代寻求统一的量子力学,深度学习也许也需要一个统一的理论框架。

如果能有一种理论告诉我们什么样的模型架构、运算方式能最好地表示某种数据,什么样的损失函数、迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意外情况。那么,这样的深度学习,乃至机器学习,才是理论基础圆润的大学科。

令人惊喜的是,我们可以看到近来很多前沿研究都越来越系统,越来越有洞见。最明显的是近年举行的 AI 顶会,我们可以看到很多获奖论文都尝试从更基础、更深刻的角度为 DL 打下地基。本文将从 2019 年人工智能顶会的获奖论文出发,为你介绍深度学习的理论基础到底是什么样的,当前又有哪些新发现。

数学基础 ≠ 理论基础

在入门深度学习的过程中,我们经常会听到各种数学名词,线性代数和矩阵微分、概率论与随机过程,似乎要想理解各种模型,首先必须理解这些数学概念。那么这些数学描述不正是深度学习的「理论基础」吗?

这里我们需要明确的是,数学是一种语言、一种工具,使用它描述深度学习并不一定等于构建 DL 的理论基础。这是一种数学基础,而不是整理领域的理论基础。很多深度模型确实都是从数学推导出发,然后得出某些很好的性质,但这只能说明模型是有理论保证的,它们并不能组成深度学习的理论基础。

比如说图卷积网络或变分自编码器,它们最开始都是从数学的角度推导某些性质,后来才根据这样的性质构建整个模型。我们可以说这些模型的理论基础非常坚实,如果我们需要理解它们,同样也需要对应的数学基础。此外,在实际建模时,我们并不一定完全遵循理论推导,可以稍微修改以获得更强的计算效果。

在深度学习中,有很多模型的数学推导都非常优美。也有很多模型从实验与直观概念出发,描述整个学习过程的数学表达。它们都非常重要,但并不能解决深度学习最基本的疑问:为什么深度模型能够高效学习?为什么深度模型要比浅层模型的性质好?为什么深度学习泛化性也不错?

就像上个世纪初发现各种量子现象与解释,物理大时代艰难地寻求统一的「量子力学」。现在深度学习也有各种非常高效的模型,各种惊艳的结构,我们也许也需要一种统一的底层理论框架。

DL 的理论基础知多少

谈到深度学习的理论基础,可能读者首先想到的就是通用近似定理(Universal approximation theorem),其表示拥有无限神经元的单层前馈网络能逼近紧致实数子集上的任意连续函数。通俗来说,只要神经元足够多,单层前馈神经网络「有潜力」逼近任意复杂的连续函数。

在 1989 年提出通用近似定理以来,至少我们有了最基本的一个理论基础,即神经网络有潜力解决各种复杂的现实问题。

MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度学习理论研究可以分为三大类:

表征问题(Representation):为什么深层网络比浅层网络的表达能力更好?最优化问题(Optimization):为什么梯度下降能找到很好的极小值解,好的极小值有什么特点?泛化问题(Generalization):为什么过参数化仍然能拥有比较好的泛化性,不过拟合?

对于表征问题,我们

Leave a Reply

Your email address will not be published. Required fields are marked *