非线性的世界
我们的世界是一个非线性的世界,我们能否让机器来学习现实中很多复杂的问题呢?从人类大脑结构中受到的启发,人们开始在一定程度上模拟大脑的结构。既然大脑能够理解这个世界,那人工神经网络应该也是可以的。
timg
神经网络
简单的感知机属于线性模型,而通过嵌套多个神经网络层和增加神经元就可以解决很多复杂的问题。
整个神经网络模型包含了三要素:线性变换、非线性变换和线性决策。线性与非线性变换实际上就是坐标变换,将信息聚合到其他空间中。从线性到非线性属于特征变换,将某种特征转成另外一种特征。而多层神经网络就是做表征学习。
从数学上看,神经网络的嵌套就是多个函数嵌套,通过复杂的函数嵌套关系来描述特征关系。
image
学习复杂关系
现实中存在很多复杂关系的事物,于是需要构建复杂的边界才能描述它们。那么要怎么来学习这些边界呢?我们可以把每个神经元看成一个简单边界描述,通过引入一个隐层,很多神经元就能描述很复杂的边界,即取很多神经元边界的交集。
timg ()
超大浅层网络
既然引入一个隐层就能描述任意复杂的连续边界,那么是不是我们就可以说对任何复杂关系都只需要使用浅层网络就行呢?不管多复杂的关系,我增加神经元便是了,最终构建一个超大浅层网络来描述任意复杂关系。
深度网络
超大浅层网络看似无敌,但它会引入维度灾难。超大浅层网络其实是将低纬度的特征表征到超高维度空间中,这样做将需要足够大的数据量才能进行学习。除此之外,还将会导致过拟合问题。
所以可以朝深度方向改进,将网络拆成更多层数,这样每一层都抽象不同的特征,也就是每一层抽象的程度都不相同。越往后的信息越抽象,就像人类对信息的处理,越靠近感官的信息越具体。比如看到一本书,眼睛最初看到的是书名和书的大小颜色等信息。往后处理,可能思考的是这本书的主题之类的信息。
总的来说,我们希望得到一个低纬度却能很好表示复杂关系的网络。