找回密碼
 立即註冊
搜索
查看: 66|回復: 0

机器学习在公司的应用

[複製鏈接]

1

主題

0

回帖

5

積分

新手上路

積分
5
元寶
0
收聽
0
聽眾
0
在線時間
0 小時
發表於 2024-1-16 13:01:16 | 顯示全部樓層 |閱讀模式

机器学习技术越来越多地被证明在不同的企业和部门中有用。然而,在组织中应用它们不仅仅包括开发和培训模型,还必须采取一系列与用例 和目标的定义、投入生产后的监控以及相关考虑因素相关的前期和后续步骤。它的可解释性和可能的​​偏见。 艾琳·罗德里格斯 Openbank 首席数据科学家Irene Rodríguez在UAM-IIC 数据科学和机器学习主席的上一次研讨会上介绍了公司机器学习项目的整个生命周期:机器学习的实际应用,他们直接围绕该研讨会继续进行100人。 Irene 谈到了机器学习在现实环境中的应用、每个阶段所面临的挑战以及机器学习模型在银行业应用的一些特殊性。 机器学习的工业化、可追溯性和可验证性 首先,Irene Rodríguez 的出发点是,在实施机器学习模型时,特别是在银行业,“我们需要模型可追溯、可复制和可验证”,以及可工业化。 这种工业化使我们能够标准化所有机器学习项目中通常发生的流程,在保证上述三个方面的同时保持敏捷,并降低维护模型的成本。

程序员这位专家举了一个例子:“在银行,我们必须 塞内加尔电话号码表 能够回答为什么一个人被拒绝贷款,追踪从数据到模型发出的分数的路径。” 为此,您必须知道正在生产的模型版本以及使用了哪些数据或存储预测的位置,因此,为了涵盖可追溯性和可重复性部分,通常会保存与模型关联的多个版本的数据. 始终处于生产状态。 另一方面,可验证性由涉及银行不同领域(模型所有者、风险、法律等)的委员会处理。如果没有得到委员会的批准,机器学习模型就不能投入生产。此外,还做出其他业务决策:决策阈值、何时启动或何时重新训练模型。 在#MachineLearning 项目中,我们必须确保模型符合目标,并且可以在不忽视法律或道德问题的情况下进行推广以提高效率。 点击发推文 机器学习模型的分析与设计 正如 Irene Rodríguez 所解释的那样,机器学习模型的设计和开发受到一系列要求的约束:简单、可监控、可解释、无偏见、输入变量符合规定并根据需要进行调整。使用和操作限制的情况。 机器学习课程所有这一切意味着要考虑一些方面并解决流程不同阶段的一些挑战: 用例的定义,其中涉及不同的领域。模型开发的几个基本问​​题得到了解答:可以使用哪些变量和哪些样本,是否存在限制模型使用的法律限制,模型是否以批处理模式或实时工作,以及为此所必需的技术。



据专家介绍,目标人群分析是最耗时的阶段之一。首先,您必须决定模型将在哪些人群上进行训练以及将应用于哪些人群,并且有可能历史上没有对其进行过处理。然后,研究变量的可用性并定义目标,目标必须在标准等方面与业务和风险保持一致。 数据分割或将数据划分为训练集、测试集和验证集。决定如何进行切割(临时、分组或分层),始终考虑到它们是兼容的。 可能的变量预选。虽然变量的选择仍然是在训练数据上完成,但是可以尝试做分布式预选来减少数据量。 模型训练和预测。Openbank 拥有自己灵活的 Auto-ML 工具,可以适应所处理的各种用例。这里你必须知道如何调整参数来保证前面提到的可追溯性和可重复性,避免黑箱。 可解释性,为此他们也有自己的工具。一旦模型经过训练,就会尝试做出回应并解释,例如,为什么为客户分配了某个分数。此外,这个相同的工具可以应用于尚未实现的模型。 监控有两种类型:经典的一种是利用其 KPI 来标准地监控业务的改进,或者从更技术的角度来看,旨在衡量所谓的数据转移。 可能存在偏见。专家表示,他们不能再开发有偏见的模型,并认为有必要从公司的政策出发,定义他们想要实现何种类型的公平,利用各种策略在限制下实现利润最大化。 正如我们所看到的,公司的机器学习项目不能仅限于开发和训练有用的模型。在此过程之前和过程中必须考虑一系列因素:例如,模型是否符合目标,但它们也可以推广以提高效率,或者不要忽视法律或道德问题。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|女主臺灣論壇

GMT+8, 2024-11-22 14:16 , Processed in 0.071797 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表