Day 17: 人工神经网路初探 损失函数(下)

损失函数 Loss function

Multiclass Classification Loss Function

  • Multiclass cross-entropy loss
    这是Multiclass Classification问题的预设损失函数,此函数优於其他函数。
    Cross-entropy计算了实数与预测第一类别机率分布的平均总和数,分数是被最小化的,且最好的值设定为零。
    何时使用: 当目标数值是在一个集合如{0,1,3,5,…,n},每个类别都被指派了特别的整数数值。

  • Sparse multiclass cross-entropy loss
    Sparse cross-entropy执行相同的误差cross-entropy计算,无须在训练之前将目标变数进行one-hot encoded。
    何时使用: 当你有大量的目标类别,像是预测字典的字。

  • Kullback-Leibler divergence (KLD) loss
    KLD衡量一种概率分布与基准分布有什麽不同。KL分散损失为0表示分布相同。他能够确定如果预测概率分布被用於近似的期望目标概率分布时,有多少资讯损失。
    何时使用: 使用於解决复杂的问题,像是学习广度特徵的自动编码器,假如他被使用於多元分类,运作会像是multiclass cross-entropy。

Regularization

假设有一个权重的其中一个特徵值大於其他所有特徵值时,这个特徵值会得到较高的权重且会明显影响整个模型的预测。正则化(Regularization)便是一种控制个或多个较大值权重的方式。
正则化参数将会惩罚那些较大权重值,从而减少其对模组的影响。

Stochastic Gradient Descent

梯度下降法计算每个步骤每个轮回的整体训练范例的梯度,这是相当大的计算量,并且需要时间去收敛。
依照训练集的大小,由於整个资料集都需要存在memory之中,这样在单部电脑上运行可能会造成机器极大的负担。并且这个处理过程无法进行平行运算。
而随机梯度下降法(Stochastic Gradient Descent)解决了这个问题。SGD计算一个能容纳於memory的小集合训练集梯度。

  1. 随机选择输入数据并消除差异。
  2. 计算随机选择的数据集梯度(可能是一项或一小集合)。
  3. 使用方法 weight = weight – alpha *delta来更新权重。

<<:  9 结束这回合

>>:  Day 11. Money money Vue的$$哪里来-数据和方法

前两次题目的结论 | ML#Day10

接下来跟大家分享我们的入门命题,其实是第三次的题目了,就这点而言,感谢团队拥有这样的弹性,并愿意一同...

12 - Metrics - 观察系统的健康指标 (6/6) - 使用 Metricbeat 掌握 Infrastructure 的健康状态 AWS 篇

Metrics - 观察系统的健康指标 系列文章 (1/6) - Metrics 与 Metricb...

第21天 - 来试着做一个简易购物系统(5),统计购物车价格

延续昨天的构想,今天来试试看能否成功。 昨天的构想好像有点错误,因为购物车只会有1台,且纪录是暂时的...

Day 16:108. Convert Sorted Array to Binary Search Tree

今日题目 题目连结:108. Convert Sorted Array to Binary Sear...

第十六天:在 TeamCity 上执行静态分析

昨天我们在专案里导入了 detekt 静态分析套件,只要执行 $ gradle detekt 就可以...