###好好好好##知识图谱在金融风控领域的应用现状

2024-05-07 13:38

本文主要是介绍###好好好好##知识图谱在金融风控领域的应用现状,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2020年是个人触碰知识图谱时间最多的一年,技术知识的重新梳理和学习,相关项目的参与,几乎从年初持续到年末。一直想总结知识图谱在金融领域的应用现状,但总是挣不脱一个字:乱。最直观的“乱象”是不同机构对这项技术的称呼五花八门——关联网络、关系图谱、复杂网络、知识图谱。严格来讲它们彼此之间紧密相连又有所区别,本文并不打算严谨地去论证它们的区别和联系,请允许我偷懒采用图谱这个名称来泛指这项技术,就是各位所想的——节点-关系网络。

图谱之乱远不止此。

金融风控技术演进路线是规则-模型-图谱,对应的技术分别是数据分析、机器学习、知识图谱,所需要和处理的数据维度可以抽象成从点到线再到面。在风控人员对模型尚未能完全理解的时候,又期望知识图谱技术能够让风控提升至一个崭新的水平。知识图谱在风控领域的最典型应用场景是利用图谱识别欺诈团伙。从理论(PPT)角度而言,图谱识别欺诈团伙优势万千,比如数据间的天然关联、图谱强大的路径分析功能、各式社区发现算法、风险传播算法等等。从理论到实际,中间隔着一条马里亚纳大海沟。为了满足业务需求,现在普遍的做法如下:

梳理数据->设计图谱->构建图谱->社区划分->社群定性->团伙输出

这里有几个值得深入思考的问题:

  1. 图谱的设计是同构图还是异构图
  2. 如果是异构图应该包含哪些实体,如果是同构图,如何定义节点之间的关系
  3. 依赖算法的社区划分,能否得到真实的符合业务需要的社群
  4. 如何进行社群定性 ,定性是否合理
  5. 新数据进来后,如何更新图谱,如何判断新数据的标签结果

除了团伙识别外,知识图谱应用于金融风控的另一个方向是图指标计算。这里体现出图谱应用的又一个乱象:图指标和图的分离。图指标表面看起来和图紧密相关,实际上图指标通常通过大数据平台(hive, spark)而并非利用图数据库计算而来。导致的问题是图指标的结果和图谱的结果不一致。

举例:

假设我们的图谱结构如下:

图指标举例:该账户1度关联账户平均开户天数、该账户2度关联账户平均交易金额、该账户度中心性

上述的指标计算主体都是账户,按照SQL计算的指标结果和图库计算结果是一致的,因为都是以账户为中心关联到其他节点。

但是,业务又提出需求想计算其他主体的图指标,比如:该设备1度关联的IP数量,该设备1度关联账户交易次数等等。现在指标计算主体已经不是账户,如果我们还是按照原来的图谱结构来计算指标,会发现设备1度根本关联不到IP,但是利用SQL从交易流水数据却能算出结果。同一条数据,SQL可以以任意字段group by,然后count其他字段。一种解决的办法是重新设计图谱结构,如下:

理论上这种结构更符合实际情况,账户只有通过设备才能和IP发生联系,但是不论哪种结构都无法完全满足多维度主体的图指标计算,最后的做法只能是图谱归图谱,指标是指标,图谱和指标相割裂。

更为实际的情况远比这棘手,业务需要的指标通常都带有时间窗口的限制,比如过去3天账户1度关联账户交易平均金额、过去7天账户1度关联账户平均交易金额等等,图谱在处理时间窗口数据问题上又显得捉襟见肘。

也许是业界过于神化人工智能的“智能”忽略了“人工”,也对知识图谱自动输出给予非常高的期待而忽视了其最本质最重要的可视化分析功能。此前一次项目交流中,有位业务人员说“你们的图谱产品也就是做了数据可视化,指标计算我用一般的数据库也能算出来呀”。说者无心听者有意,这反映了不少人对图谱最基本的数据展示功能嗤之以鼻,PPT上宣传的那么厉害的技术,当然要更高端大气上档次,怎么能只用它做数据可视化呢。这是图谱认知之乱。图谱将关系数据库中一条条“线状”的数据提升至“面状”或“网状”数据,数据展示形式的变化带来的是获取信息的视角变化,信息丰富度的变化。就像二维空间的蚂蚁永远想象不到三维空间的风景。基于图谱数据可视化,可以做更多关联关系的分析,然而这个分析过程是没有定论,没有约束,没有标准的,智者见智仁者见仁。图谱分析技术(图查询语言)的不统一严重限制了图谱可视化分析功能的普及,没有标准的分析方法也制约了人们正确认知图谱。

那么图谱可视化分析在实际业务场景能做什么?个人经验之谈,最重要的一点:案件排查。信贷场景、交易反欺诈等场景银行端的数据量和数据维度非常充足,构建的图谱自然是十分庞大复杂。图谱的分析首先得找到切入点,通常是有风险的客户、账户,进而关联出对应的公司、电话、家庭地址、设备等其他实体。通过从案件节点入手,利用图谱研究欺诈分子间的关联关系,顺藤摸瓜识别出其他可疑分子。利用图谱进行案件排查还有可能发现风险群体之间的特殊关联模式,典型的有传销账户金字塔结构,洗钱账户金字塔和倒金字塔结构。还有一些非常见的模式,如下图所示,两个客户(黄色节点)通过联系人(绿色节点)和联系电话(粉色节点)形成了交叉匹配关联,利用传统数据分析很难发现这种没有任何直接共同节点关联的联系。图谱可视化分析对解释团伙关联风险,理解作案手法起到巨大作用。遗憾的是就目前而言,这个过程无法实现自动化,非常依赖分析人员的技术和业务水平,有着一定的使用门槛。风控业务人员关心的是技术产出的结果,花钱采购了一个宣传得NBHH产品,然而还要求自己学习新技术才能使用,不能够自动产出风险名单,这种赔了夫人又折兵吃力不讨好的事甲方可不干。

机器学习模型已经越来成为金融风控必要工具,图谱也逐渐在各个业务场景中崭露头角。图技术的快速演进急切地渴望从学术界的成功转移到工业界的应用。图谱分析、团伙挖掘这些还没玩明白的时候,图嵌入、图神经网络正款款走来。尽管目前还未遇到过必须用图神经网络技术的实际需求,但是图谱方案规划已然走在前列,相信不久的将来此类需求定铺天盖地而来。从解决方案层面,图谱的全应用流程如下:

图谱应用目前的重点是上述流程图的前四个部分,第五部分列举了两种图谱和机器学习相结合的方式,分别是利用图谱构建机器学习特征和利用图谱构建图神经网络。如前所述,走过前四步,尽管还未走得踏实,第五步终将很快到来。

“不识庐山真面目,只缘身在此山中”,图谱在金融风控中的作用毋庸置疑,但是现实项目里总是会被各类问题缠绕不开。暗流涌动之下,图谱目前的乱象是技术从学术应用到工业必经之路,既是机遇,也是挑战。关于图谱技术及应用更多的细节无法用一篇文章完全阐述,后续会用图谱专题做深入探讨。

这篇关于###好好好好##知识图谱在金融风控领域的应用现状的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967509

相关文章

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参

Spring Boot中的YML配置列表及应用小结

《SpringBoot中的YML配置列表及应用小结》在SpringBoot中使用YAML进行列表的配置不仅简洁明了,还能提高代码的可读性和可维护性,:本文主要介绍SpringBoot中的YML配... 目录YAML列表的基础语法在Spring Boot中的应用从YAML读取列表列表中的复杂对象其他注意事项总

电脑系统Hosts文件原理和应用分享

《电脑系统Hosts文件原理和应用分享》Hosts是一个没有扩展名的系统文件,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应... Hosts是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应

CSS 样式表的四种应用方式及css注释的应用小结

《CSS样式表的四种应用方式及css注释的应用小结》:本文主要介绍了CSS样式表的四种应用方式及css注释的应用小结,本文通过实例代码给大家介绍的非常详细,详细内容请阅读本文,希望能对你有所帮助... 一、外部 css(推荐方式)定义:将 CSS 代码保存为独立的 .css 文件,通过 <link> 标签

Python使用Reflex构建现代Web应用的完全指南

《Python使用Reflex构建现代Web应用的完全指南》这篇文章为大家深入介绍了Reflex框架的设计理念,技术特性,项目结构,核心API,实际开发流程以及与其他框架的对比和部署建议,感兴趣的小伙... 目录什么是 ReFlex?为什么选择 Reflex?安装与环境配置构建你的第一个应用核心概念解析组件

C#通过进程调用外部应用的实现示例

《C#通过进程调用外部应用的实现示例》本文主要介绍了C#通过进程调用外部应用的实现示例,以WINFORM应用程序为例,在C#应用程序中调用PYTHON程序,具有一定的参考价值,感兴趣的可以了解一下... 目录窗口程序类进程信息类 系统设置类 以WINFORM应用程序为例,在C#应用程序中调用python程序

Java应用如何防止恶意文件上传

《Java应用如何防止恶意文件上传》恶意文件上传可能导致服务器被入侵,数据泄露甚至服务瘫痪,因此我们必须采取全面且有效的防范措施来保护Java应用的安全,下面我们就来看看具体的实现方法吧... 目录恶意文件上传的潜在风险常见的恶意文件上传手段防范恶意文件上传的关键策略严格验证文件类型检查文件内容控制文件存储

CSS3 布局样式及其应用举例

《CSS3布局样式及其应用举例》CSS3的布局特性为前端开发者提供了无限可能,无论是Flexbox的一维布局还是Grid的二维布局,它们都能够帮助开发者以更清晰、简洁的方式实现复杂的网页布局,本文给... 目录深入探讨 css3 布局样式及其应用引言一、CSS布局的历史与发展1.1 早期布局的局限性1.2