第一章-全连接神经网络

1635 字
8 分钟
第一章-全连接神经网络

在深度学习领域里,我们接触的第一个基础模型就是全连接神经网络,它具有层层传递的网状结构,通过一步步精密的传递运算来得到一个综合性的结果,下面我们来介绍一下全连接神经网络的构成与相关的函数用法。

前言#

在正式开始之前,我们先要明确一个概念:在众多深度学习的内容当中,我们要把我们所要得的结果看作一个高维空间里的向量,在大模型的语义检索环境里,构建词义之间的关系常常是通过向量的偏移来完成的,例如说:对于“男人”和“女人”的语义相关度,我们得到的向量偏移到哪“皇帝”和“皇后”这两个词之间,我们可以发现他们竟然惊人的相似,这也启发了我们:在某种层面上,我们可以通过分类和复用这些向量,来达到大大节省算力并训练模型这一目的。同时,这也侧面表明了一点:向量在高维空间里面存在的的时候,我们进行运算的载体必然是矩阵,同时,我们必须认识到,这些向量在高维空间里面也就说明了他们对应了多元未知数的方程,我们要做的就是在这个高维空间里面构建一个人类思维与语义体系,并且让其函数图像尽量吻合它在我们生活中的地位。那么,我们可以总结一个简单的概念:通常的,我们可以把这些向量看作由一个个基础函数拼接而成的高级高次函数,本质上是用概率论知识来做一个曲线拟合,只是说我们常用的元变成了矩阵来处理而已。

(PS:在计算机的存储中,图片的信息也是拟合为数字标注的深浅不一程度的颜色组成的矩阵:代表性的有单通道的灰度【只有一层】,和三通道的RGB【通过深浅不一的红黄蓝三原色来模拟电脑各种图案】)

全连接神经网络原理#

好啦,在介绍完这些基础概念后,我们来正式讲解全连接网络的构建:

如图所示,这是一个经典的全连接神经网络图,左侧输入端(五个神经元的上一层)是输入层,右侧五个神经元的下一步是输出层,而中间的六层神经网络则是隐藏层。我们常常把图片抽象化为矩阵来放入输入层,通过隐藏层的层层逻辑运算,输出一个预测的结果。

正如前言介绍概念所以说,神经网络是由不同权重的简单函数求和一层层累加而来的结果,每一个神经元都是代表一个特殊的和为1的权重部分,同时,在训练的时候,难免会产生宏观层面上的偏移来使结果偏离我们的预测值,这个时候,我们就需要一个偏置来帮助我们将结果拉回正轨:

在预测结果求和之后,我们可以看到,在神经网络中我们又引入了“激活函数“这一全新概念:这是因为,正如我们所讲,神经网络类似链式结构,层层相扣如网一般,这样代表着我们需要严密且大量的计算才能让多个简单的线性函数**达到一个稳定的且符合预测的值,而随着神经网络层数堆砌的深入,会出现过拟合的现象,导致我们的结果还没有训练到可控误差范围内,而高维向量已经经过极点向其他方向发生偏移,所以我们需要加入一个合适的“激活函数”(非线性)帮助我们缩小训练层数,更快更好的输出结果。下面,我将介绍几种主流的激活函数:

激活函数#

Sigmod函数:#

Sigmod函数是最基础的激活函数,但是由于其导数峰值小,仅存在一个象限中,同时这导致的增速慢训练量大的问题同时也体现了优化调整费时费力的缺陷。同时在反向传播的时候求导,平缓的波形部分会更加平缓,多次反向传播后变化率近似于0.

Tanh函数#

Tanh函数相比于Sigmod函数峰值更高而且对称分布,可以有效显示更大范围的数据,同时导数图峰值跟高,更易训练。

ReLU函数#

ReLU函数变化率在一定范围内是一个定值,故不存在梯度消失的风险。但是一旦离开这个范围,变化率趋于0,若出现训练偏移,易造成神经元死亡

Leaky ReLU函数#

Leaky ReLU函数通过运用不同变化率去除了神经元死亡的风险,但是同时也带来了正负输出值难以区别辨认的问题。

除此之外,还有许多种类的“激活函数”,每种函数都有其特殊的优缺点,我们应该因地制宜的去灵活使用他们。

前向传播#

在神经网络中一层层计算并向前传递求值的过程叫做前向传播。在其中我们可以每层用不同的合适的激活函数来拟合。

**损失函数#

损失函数更像是一种概率论的概念,求得一个相对准确的拟合位置。在这里要特别强调一点:公式开头除以的2是为了后驱反向传播求导更加简单完成设立的,其本质上模拟状态,是统计学知识。

梯度下降法#

如故事所言,梯度下降法就是找一条最快的还原“来时路”的一条求导路径。

这个公式在w(权重)和b(偏置)上都有运用,a是学习率(最优步长)。

通过反向传播,输出值比第一次更加接近理想值/真实值。

以上就是第一章全连接神经网络的基本概况,欢迎交流!

支持与分享

如果这篇文章对你有帮助,欢迎分享给更多人或打赏支持!

打赏
第一章-全连接神经网络
https://firefly.cuteleaf.cn/posts/knowledge/第一章-全连接神经网络/
作者
Firefly
发布于
2026-06-21
许可协议
CC BY-NC-SA 4.0
相关文章 智能推荐
1
第三章--卷积神经网络下
深度学习 在上一章中,我们介绍了卷积神经网络的图像识别原理,通道构成和计算方式,这一张我们接着上一讲的内容,继续讲解相关知识:填充,特征图计算公式,池化和多通道运算。 填充操作 在介绍填充操作之前,我们先回顾一下上一章最后的内容:步幅。步幅是卷积核在特征图中的移动“速度”。那么,在多次卷积运算过后,我们...
2
第二章卷积神经网络上
深度学习 这一章,我们将要介绍卷积神经网络。在深度学习领域里,相比于全连接神经网络,卷积神经网络是一种更加高效的形式呢,同时在结构上卷积神经网络更加适用于图像的识别,区别于全连接神经网络每次只能操一维向量,卷积神经网络可以一次性传入图片(经卷积核优化计算),更加适用于图片领域。 图像的认识 图片的构成...
3
ResNet学习心得
深度学习 在上一章节,我们着重介绍了有关卷积神经网络的计算原理与优化方法,这一章,我们将介绍ResNet这一个里程碑式的神经网络,它解决了朴实神经网络在训练中的层数增加导致的深度神经网络训练中的梯度消失/爆炸问题和网络深度增加时准确度饱和甚至下降的现象(退化问题) ResNet被发明于2015年,它的优化方...
4
多进程编程总结
Linux编程 本章记录笔者在多进程编程中的实验心得与感受。 1、多进程的相关概念: 1进程是程序一次执行的过程,有一定的生命周期,分为:创建态,就绪态,执行态,挂起态和死亡态。 2进程是计算机资源分配的基本单位,系统会给每个进程分配04G的虚拟内存,其中03G是用户空 间,34G是内核空间 3其中多个进程...
5
拓展单向循环链表
数据结构 —————————————本文旨在讨论计算机知识欢迎指正——————————————— 书接上回:我们已经了解了链表如何编写与前置节点和头指针两种表示方式,下面,我们来了解进阶写法———如何实现单向循环链表。 下面,我们来梳理一下循环链表的实现方式: 这是朴素的链表实现形式: 这是我们理想中的循环...
随机文章 随机推荐
Profile Image of the Author
Firefly
Hello, I'm Firefly.
公告
欢迎来到我的博客!这是一则示例公告。
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
33
分类
7
标签
25
总字数
56,127
运行时长
0
最后活动
0 天前
站点信息
构建平台
Vercel
博客版本
Firefly v6.12.3
文章许可
CC BY-NC-SA 4.0

文章目录