第一章-全连接神经网络

在深度学习领域里，我们接触的第一个基础模型就是全连接神经网络，它具有层层传递的网状结构，通过一步步精密的传递运算来得到一个综合性的结果，下面我们来介绍一下全连接神经网络的构成与相关的函数用法。

前言#

在正式开始之前，我们先要明确一个概念：在众多深度学习的内容当中，我们要把我们所要得的结果看作一个高维空间里的向量，在大模型的语义检索环境里，构建词义之间的关系常常是通过向量的偏移来完成的，例如说：对于“男人”和“女人”的语义相关度，我们得到的向量偏移到哪“皇帝”和“皇后”这两个词之间，我们可以发现他们竟然惊人的相似，这也启发了我们：在某种层面上，我们可以通过分类和复用这些向量，来达到大大节省算力并训练模型这一目的。同时，这也侧面表明了一点：向量在高维空间里面存在的的时候，我们进行运算的载体必然是矩阵，同时，我们必须认识到，这些向量在高维空间里面也就说明了他们对应了多元未知数的方程，我们要做的就是在这个高维空间里面构建一个人类思维与语义体系，并且让其函数图像尽量吻合它在我们生活中的地位。那么，我们可以总结一个简单的概念：通常的，我们可以把这些向量看作由一个个基础函数拼接而成的高级高次函数，本质上是用概率论知识来做一个曲线拟合，只是说我们常用的元变成了矩阵来处理而已。

（PS:在计算机的存储中，图片的信息也是拟合为数字标注的深浅不一程度的颜色组成的矩阵：代表性的有单通道的灰度【只有一层】，和三通道的RGB【通过深浅不一的红黄蓝三原色来模拟电脑各种图案】）

全连接神经网络原理#

好啦，在介绍完这些基础概念后，我们来正式讲解全连接网络的构建：

如图所示，这是一个经典的全连接神经网络图，左侧输入端（五个神经元的上一层）是输入层，右侧五个神经元的下一步是输出层，而中间的六层神经网络则是隐藏层。我们常常把图片抽象化为矩阵来放入输入层，通过隐藏层的层层逻辑运算，输出一个预测的结果。

正如前言介绍概念所以说，神经网络是由不同权重的简单函数求和一层层累加而来的结果，每一个神经元都是代表一个特殊的和为1的权重部分，同时，在训练的时候，难免会产生宏观层面上的偏移来使结果偏离我们的预测值，这个时候，我们就需要一个偏置来帮助我们将结果拉回正轨：

在预测结果求和之后，我们可以看到，在神经网络中我们又引入了“激活函数“这一全新概念：这是因为，正如我们所讲，神经网络类似链式结构，层层相扣如网一般，这样代表着我们需要严密且大量的计算才能让多个简单的线性函数**达到一个稳定的且符合预测的值，而随着神经网络层数堆砌的深入，会出现过拟合的现象，导致我们的结果还没有训练到可控误差范围内，而高维向量已经经过极点向其他方向发生偏移，所以我们需要加入一个合适的“激活函数”（非线性）帮助我们缩小训练层数，更快更好的输出结果。下面，我将介绍几种主流的激活函数：