企业数据的科学

PNC金融服务公司如何利用蟒蛇来实现公司的数据科学和机器学习能力

2018年8月29日
蟒蛇团队
PNC标志

作为一家对数据科学、机器学习和预测分析的现实实践充满热情的人工智能软件公司,我们非常高兴听到我们的客户使用我们的产品以鼓舞人心的创新方式推动他们的业务向前发展,并改变他们周围的世界。

今年早些时候,我们举办了第二届AnacondaCON数据科学和人工智能会议(将您的日历标记为AnacondaCON 2019!),在那里我们看到了几个我们最喜欢的客户分享他们的经验,并称赞Anaconda企业AI实现平台的优点。我们不会对你撒谎,亲爱的读者们——观察到他们对我们的工作富有感染力的热情,感觉非常好。

PNC就是这样一个客户,这是一家在19个州运营的银行和金融服务公司。数据经理安·曼切拉和数据科学家吉姆·奥格尔享受了AnacondaCON他们如何着手建立一个数据科学“能力中心”,以实现整个公司的数据科学和机器学习能力。(剧透:他们使用了“蟒蛇企业”。)

让Python成为一流公民

早在2015年,PNC就创建了一个新的企业数据管理团队,主要依赖于专有的数据科学平台。基于他们的经验,团队承担起了说服管理层转向开源分析的责任,并使Python成为他们分析环境中的一等公民。

当时的主要论点是,使用开源的Python和R来代替SAS和其他商业替代方案当然会大大降低软件成本。但还有其他令人信服的理由支持他们的观点。

该团队发现,Python允许更容易的调试,减少开发时间,并提高性能。Python近年来的爆炸性增长意味着有更大的人才库来招募新人才,有强大的用户基础来提供在线社区支持,以及容易获得的廉价培训。此外,Python和R包括大量的库——用于从机器学习到可视化的一切——这些库支持完整的分析生命周期。

选择Anaconda Enterprise作为PNC的AI实现平台

接下来,团队需要选择一个AI平台来支持他们的开源抱负,同时提供企业IT所需的安全和治理。他们与Anaconda和其他两家供应商一起开发了一个概念验证,使用各种各样的房地产住宅数据,并加载到他们的Hadoop环境中。研究小组很快发现了这一点蟒蛇企业为他们的分析师提供了他们想要的强大的开源工具,同时使他们能够轻松地访问Hadoop集群上的数据。

Anaconda Enterprise的核心是Python和R中的核心AI/ML工具集合,数据科学家使用这些工具来构建模型。这些工具是通过蟒蛇分布是世界上最流行的Python和R的开源数据科学发行版。Anaconda Distribution为全球超过600万的数据科学家和开发人员带来了强大的开源软件包,使他们能够轻松地在笔记本电脑上构建和训练模型。

该团队发现,Anaconda Enterprise是将SAS代码移植到Python、培训新的数据科学家、构建、培训和部署模型以及存储包的理想平台。因此,团队选择Anaconda Enterprise作为PNC的核心Python平台。

建立分析能力中心(ACC)

2017年,团队开始建立分析能力中心(ACC),在整个公司实现数据科学和机器学习能力。行政协调会包括五个主要部分:社区、培训、帮助/支持、增强和包维护。通过Anaconda企业平台,ACC能够建立企业级的数据科学和机器学习能力,使PNC内部的各个部门能够访问工具,管理包,构建模型,并从一个地方接受培训。PNC的用户基础呈爆炸式增长,银行的各个部门都急切地利用ACC的许多有价值的服务。

其他PNC部门很快开始利用ACC来制作预测损失、保护银行和设定价格的模型,管理信息系统组也开始用Python制作帮助银行操作的应用程序。然后市场营销部带着他们的市场篮子和定价分析进来了,甚至人力资源部也有他们想要处理和报告给利益相关者的指标。ACC肯定会让模型风险管理部门参与进来,以帮助影响如何发展ACC环境,并在严格的监管社区内验证其开源模型。整个银行的各个部门都加入了进来。

改进传统建模方法

有了Anaconda, ACC现在可以从银行进行所有的建模活动,包括机器学习模型、违约概率、给定违约损失、违约风险、利率/价格预测、记分卡和PPNR。

他们甚至能够改进传统的蒙特卡洛方法,后者经常用于银行应用。ACC首先对各个输入集执行确定性计算,将它们发送到Hadoop集群并让它们运行,然后聚合结果。他们从历史损失中提取事件级数据,并通过传统的蒙特卡洛技术创建了一个总体损失分布。该团队注意到,影响性能的两个因素是模拟的数量和数据集的大小。因此,他们在PySpark中实现了模拟,并通过改变这两个因素,将他们的PySpark实现与现有的SAS实现进行比较。

他们的分析表明,通过使用Python和Hadoop,他们可以将运行时间从几个小时减少到几分钟,使他们的数据科学家更快、更有效率。

展望未来

PNC的团队期待着迁移到Anaconda Enterprise 5.2。根据Ann的说法,ACC对平台的简单、一键式部署特别兴奋,因为如果一个模型不能部署到生产中,它还有什么用呢?Anaconda Enterprise可以轻松调度或实时部署笔记本、仪表板和机器学习模型,并只需单击一个按钮就可以将任何项目发布到生产环境中。

作为一个跨越多个州的银行,PNC还需要能够与其他用户协作和共享,同时确保安全性和治理。开发人员需要能够在集中的代码库上一起工作,但是从不同的位置。根据安和吉姆的说法,蟒蛇对他们的成功起到了很大的作用,ACC希望迁移到蟒蛇5.2会让这一切变得更容易。

在Anaconda,我们很喜欢听到PNC在整个公司提供数据科学和机器学习能力的过程,迫不及待地想看看他们接下来会有什么!如果您想了解更多关于蟒蛇企业可以为您的组织做什么,我们建议您观看我们最近的网络研讨会,大规模部署AI,或联系我们随时安排演示。

本网站使用cookie确保您在我们的网站上获得最佳体验。隐私政策
接受
Baidu
map