LSTM(长短时记忆网络)

RNN:实际上就是一个带有 记忆的时间序列的预测模型

缺点:梯度消失和梯度爆炸

LSTM:LSTM(长短时记忆网络)是一种常用于处理序列数据的深度学习模型,与传统的 RNN(循环神经网络)相比,LSTM引入了三个门( 输入门、遗忘门、输出门)和一个 细胞状态(cell state),

使得LSTM能够更好地处理序列中的长期依赖关系。

遗忘门:通过x和ht的操作,并经过sigmoid函数,得到0,1的向量,0对应的就代表之前的记忆某一部分要忘记,1对应的就代表之前的记忆需要留下的部分 ===>代表复习上一门线性代数所包含的记忆,通过遗忘门,忘记掉和下一门高等数学无关的内容(比如矩阵的秩)

输入门:通过将之前的需要留下的信息和现在需要记住的信息相加,也就是得到了新的记忆状态。===>代表复习下一门科目高等数学的时候输入的一些记忆(比如洛必达法则等等),那么已经线性代数残余且和高数相关的部分(比如数学运算)+高数的知识=新的记忆状态

输出门:整合,得到一个输出===>代表高数所需要的记忆,但是在实际的考试不一定全都发挥出来考到100分。因此,则代表实际的考试分数

LSTM确实是可以在一定程度上解决梯度消失和梯度爆炸的问题

ResNet(残差神经网络)

残差神经网络的主要贡献是发现了“退化现象(Degradation)”,并针对退化现象发明了 “直连边/短连接(Shortcut connection)”

简单地增加深度,会导致梯度弥散或梯度爆炸。

ResNet论文提出通过数据的预处理以及在网络中使用 BN(Batch Normalization)层来解决

为了解决深层网络中的退化问题,可以人为地让神经网络某些层跳过下一层神经元的连接,隔层相连,弱化每层之间的强联系。这种神经网络被称为残差网络 (ResNets)

U-net

语义分割的目的是判断每个像素点的类别,进行精确的分割

eg自动驾驶中的分割任务的分割结果,可以从一张图片中有效的识别出汽车(深蓝色),行人(红色),红绿灯(黄色),道路(浅紫色)等

编码器中的卷积逐步提取特征(深度增加),maxpool降低空间分辨率(高宽减少)

解码器通过上采样(反卷积)高宽加倍,深度减半;通过卷积降低拼接特征的深度

UNet的关键创新是在解码器中引入了跳跃连接(Skip Connection),即将编码器中的特征图

与解码器中对应的特征图进行连接。这种跳跃连接可以帮助解码器更好地利用不同层次的特征信息,从而提高图像分割的准确性和细节保留能力

GAN(生成对抗网络)

生成对抗网络其实是两个网络的组合:生成网络(Generator)负责生成模拟数据;判别网络(Discriminator)负责判断输入的数据是真实的还是生成的。生成网络要不断优化自己生成的数据让判别网络判断不出来,判别网络也要优化自己让自己判断得更准确。二者关系形成对抗,因此叫对抗网络。

*G是一个生成图片的网络 它接收一个随机的噪声z,通过这个噪声生成图片 叫做G(z)

*D是一个判别网络 判别一张图片是不是真实的 它的输入参数是x x代表一张图片 输出D(x)代表x为真实图片的概率 如果为1 那就代表100%是真实的图片 如果输出为0 那就代表不可能是真实的图片

在训练过程中 将随机噪声输入生成网络G,得到生成的图片; 判别器接收生成的图片和真实的图片 并尽量将两者区分开来 在这个计算过程中 能否正确区分生成的图片和真实的图片将作为判别器的损失 而能否生成近似真实的图片并使得判别器将生成的个图片判定为真将作为生成器的损失

生成器的损失是通过判别器的输出来计算的 而判别器的输出是一个概率值


本站由 QD 使用 Stellar 1.29.1 主题创建。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。