I used to be an adventurer like you, then I took an arrow in the knee. — Lots of NPC guards (The Elder Scrolls V: Skyrim)
在前面的文章中一直反覆提到 Data/Concept drift 等关於资料变化会引起问题的概念,但除了在 [Day 04] 部署模型的挑战 — 资料也懂超级变变变!? 做了名词解释以外,并没有更深入的讨论,所以今天就让我们来详细的谈谈产品应用时会遇到的资料问题吧。
另外,今天的标题其实是想取 "色色" 跟 "变态" 之间的关系,搭配生物学上 "变态" 那种改变的概念来形容资料的变化哦,然後今天的 quote 是守卫的名台词,太牵强了,连自己都觉得不得不解释哈哈哈
在产品应用时会遇到的资料问题主要有两种:
其实这个真的蛮直白的,所以这边再把前面的定义精简提一下就好了。
当模型训练好之後,必须持续地监控与评估输入的资料才能侦测到上述的各种改变。
下图为侦测变化的工作流程:
*图片来源:MLEP — TensorFlow Data Validation
在实务上我们可以使用 TensorFlow Data Validation (TFDV) 作为验证资料的工具。
它的功能如下:
而实际的作法为比较类别型特徵的 L-infinity distance、数值型特徵的近似 Jensen-Shannon divergence。
其中 L-infinity distance 又称为 Chebyshev distance,简单来说就是各个座标轴之差的最大值,例如 2D 就代表在 x 轴的差与 y 轴的差取最大值:
*图片来源:Wikipedia — Chebyshev distance
TFDV 为具扩缩性的描述性统计且搭配 Facets interface 可视化,除了用在训练 Pipeline 中,它还有以下用途:
而关於怎麽使用 TFDV 请参考官方教学 Get started with Tensorflow Data Validation 即可。
以上就是今天的内容啦,明天见罗!
<<: Day 23 - 将 Yacht Manager 後台储存资料提取後,送至前台渲染首页 Home 页面 (下) - 新闻图卡区 - ASP.NET Web Forms C#
关於 Deno Deno 上一次调整後,为了效能问题,将核心模块从 Typescript 改回 J...
Ruby 里面有个很奇怪的东西,叫做符号 Symbol ,他的写法是 :hello ,字串前面加上...
目前MyButton有3个[Parameter],如果再增加的话,又要再定义新的[Parameter...
说到了 controller 就不得不说一下 API,简单来说就是负责建立客户所需的内容和产生所需回...
在前一些日子的铁人赛中,我曾经写过关於Docker in Azure的文章,今天我们接续昨天的Git...