MLOps在金融产业:模型的可解释性与公平性

有一些模型像是逻辑回归和决策树,背後运作的原因相当简单明了,容易解释模型是如何得出其输出的。但随着更多特徵的添加或更复杂的机器学习模型的使用,可解释性变得更加困难。

在使用与金融服务决策相关的算法预测时,了解模型考虑或未考虑哪些特徵很重要,在某些情况下,在采取行动之前对此类预测进行适当的人工审查可能很重要。在金融服务中,模型用户可能需要了解每个模型的局限性、意图和输出,包括了解影响模型结果的因素。

有多种不同的方法可以帮助解释机器学习模型:部分依赖图、在全局或本地构建代理模型、定量输入影响、LIME、Explanation 和 SHAP 等等。神经网路模型的可解释性仍然是一个活跃的研究主题。

虽然机器学习中的可解释性仍然是一个活跃的研究主题,但 SHAP 已成为一种流行的提取特徵重要性的统一方法,并在我们的数据集上下文中进行了详细说明。 SHAP 的目标是透过生成两个模型来计算每个特徵对预测的贡献来解释预测:一个包含特徵,另一个包含特徵隐瞒。给定样本的预测差异与特徵的重要性有关。SHAP 值透过对特徵添加到模型的顺序的所有排列进行平均来考虑特徵的相互依赖性,将这一想法扩展到线性模型或局部独立特徵之外。

在SageMaker中输出SHAP值

在 Amazon SageMaker 也能够让你获得相关的SHAP 值(例如 LightGBM、XGBoost 或简单的深度学习模型)。我们首先需要确保在我们本地的 Jupyter 工作环境中预先安装了 SHAP 套件。该套件可以从一开始就透过由资料科学家提供生命周期配置的程序码。

如果资料科学家用於模型训练和开发的开发 VPC 配置为无法访问互联网,则可以从本地 PyPI 服务器或使用来自启用了互联网访问的单独 VPC 的 pip 镜像下载该库例如共享服务帐户。导入後,可以将经过训练的模型对像从 Amazon S3 复制到本地环境中。以下函数可以调用 SageMaker Experiments Trail 并解压缩制模型对象。在这里,我们的训练容器将经过训练的 XGBoost 模型对象存储为一个名为 xgboost.pkl。

一旦模型对像被提取出来,我们就可以使用 SHAP 库来计算和绘制整个训练数据集或数据集子集的特徵重要性。 虽然前一种方法在整个数据集中获得全局特徵重要性,但也可以推导出局部重要性,然後可以将其作为风险管理和模型治理的详细报告的一部分发布。

例如,如果模型预测客户可能会拖欠信用卡付款,您可能需要通过识别导致决策的特徵来逆转模型的决策,并在必要时采取纠正措施。

除了手动使用 SHAP 值在训练後识别特徵重要性之外,SageMaker 最近还推出了 Amazon SageMaker Debugger,这是一项完全托管的服务,用於在训练期间通过可视化深度学习模型的向量、张亮来调试模型,以及评估内置和自定义规则以检查培训工作并帮助发现错误。SageMaker Debugger 使客户能够在模型训练迭代期间记录特徵重要性和 SHAP 值,然後可以在 Amazon SageMaker Studio 中进行可视化。

可解释性领域还处於起步阶段并处於发展阶段,诸如 SHAP 之类的模型在可解释性方面的功效仍然存在争议。也因此这些套件都仅是提供这些功能供使用者参考。

模型公平性

除了可解释性之外,公平和安全的考虑也很重要。

公平性是一个非常复杂和广泛的话题,如果要讲细节的话会包含到非常广的层面。而这边我们只讨论如何找出可能的偏差,以及知道可能有哪些因素会影响模型的公正。

从资料收集的时候,就应该去看资料及里面是否存在什麽样的偏见、偏差。并定期的针对资料的偏见,能够有政策上的修正、资料上能够找出这些指标,让後续的资料搜集和建模能改善这个状况。

一些常见的偏差像是:

抽样偏差
当训练资料集不能准确代表真实世界场景时发生。通过在所有潜在场景中训练模型,可以减少或消除样本偏差。

排除偏差
通常是在清理资料时,从资料集当中排除某些特徵而发生的。这是由於基於开发人员对数据的理解删除了特徵而发生的。排除偏差可以通过在消除特徵之前进行适当的研究来减少或消除,也可以通过获得领域专家 (SME) 对计划消除的特徵的共识来减少或消除。

文化偏见/刻板印象偏见
与外貌、社会阶层、地位和性别等问题相关的偏见。通过理解和避免文化和刻板印象偏见的结果,可以减少某些类型的偏见。这可能包括忽略职业和性别之间的统计关系。关键的缓解因素包括使用受过教育并了解这些问题的不同团队,并使用适当的资料集训练模型,以最大限度地减少文化和刻板印象偏见。

测量偏差
当用於观察或测量的设备出现问题时会发生这种情况。由於设备问题,会出现系统值失真。通过利用多个设备来避免设备失真,并结合人工或 Amazon Mechanical Turk 的数据检查来比较设备输出,可以减少或消除测量偏差。

基於以上几点,会建议大家尽量与风险、法律和合规团队合作,评估构建和使用 ML 系统的法律、道德、监管和合规要求及其影响。毕竟整个系统可能包含:使用资料或模型的合法权利、涉及资料使用的生物识别、反歧视和特别金融产业案例的法律适用性等等。

Reference
[1]. Machine learning in finance


<<:  Day 0xA - WebHook Api 建立( part 2 )

>>:  Day 5 : 案例分享(1.3) B2C经典流程 电子商务、POS + 进销存 + 会计(应收付) +制造(产品组合、产品转换)

[Day 30]-【STM32系列终章之不负责任地说再见】

开头就是要先放个大大的LOGO才爽!(误XD 终於完赛啦!这是第一次成功完赛,能成功完赛真的是高兴...

[D06] placeholder

写在前面 test for placeholder test for placeholder tes...

EP 3: Use Shell to layout TopStore App

Hello, 各位 iT邦帮忙 的粉丝们大家好~~~ 本篇是 Re: 从零开始用 Xamarin 技...

day 8 - 程序码也要断舍离

生活要断舍离, 程序码也要喔。 写Go只要一支main.go就可以开始写了, 想写多长就写多长, 要...

【面试】与 HR Phone screening

今天是轻松的一篇,稍微谈一下可能是第一个面试的 hr phone screening。 虽然每间公司...