Multiclass cross-entropy loss
这是Multiclass Classification问题的预设损失函数,此函数优於其他函数。
Cross-entropy计算了实数与预测第一类别机率分布的平均总和数,分数是被最小化的,且最好的值设定为零。
何时使用: 当目标数值是在一个集合如{0,1,3,5,…,n},每个类别都被指派了特别的整数数值。
Sparse multiclass cross-entropy loss
Sparse cross-entropy执行相同的误差cross-entropy计算,无须在训练之前将目标变数进行one-hot encoded。
何时使用: 当你有大量的目标类别,像是预测字典的字。
Kullback-Leibler divergence (KLD) loss
KLD衡量一种概率分布与基准分布有什麽不同。KL分散损失为0表示分布相同。他能够确定如果预测概率分布被用於近似的期望目标概率分布时,有多少资讯损失。
何时使用: 使用於解决复杂的问题,像是学习广度特徵的自动编码器,假如他被使用於多元分类,运作会像是multiclass cross-entropy。
假设有一个权重的其中一个特徵值大於其他所有特徵值时,这个特徵值会得到较高的权重且会明显影响整个模型的预测。正则化(Regularization)便是一种控制个或多个较大值权重的方式。
正则化参数将会惩罚那些较大权重值,从而减少其对模组的影响。
梯度下降法计算每个步骤每个轮回的整体训练范例的梯度,这是相当大的计算量,并且需要时间去收敛。
依照训练集的大小,由於整个资料集都需要存在memory之中,这样在单部电脑上运行可能会造成机器极大的负担。并且这个处理过程无法进行平行运算。
而随机梯度下降法(Stochastic Gradient Descent)解决了这个问题。SGD计算一个能容纳於memory的小集合训练集梯度。
>>: Day 11. Money money Vue的$$哪里来-数据和方法
接下来跟大家分享我们的入门命题,其实是第三次的题目了,就这点而言,感谢团队拥有这样的弹性,并愿意一同...
Metrics - 观察系统的健康指标 系列文章 (1/6) - Metrics 与 Metricb...
延续昨天的构想,今天来试试看能否成功。 昨天的构想好像有点错误,因为购物车只会有1台,且纪录是暂时的...
今日题目 题目连结:108. Convert Sorted Array to Binary Sear...
昨天我们在专案里导入了 detekt 静态分析套件,只要执行 $ gradle detekt 就可以...