###好好好好##知识图谱在金融风控领域的应用现状

2024-05-07 13:38

本文主要是介绍###好好好好##知识图谱在金融风控领域的应用现状,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2020年是个人触碰知识图谱时间最多的一年,技术知识的重新梳理和学习,相关项目的参与,几乎从年初持续到年末。一直想总结知识图谱在金融领域的应用现状,但总是挣不脱一个字:乱。最直观的“乱象”是不同机构对这项技术的称呼五花八门——关联网络、关系图谱、复杂网络、知识图谱。严格来讲它们彼此之间紧密相连又有所区别,本文并不打算严谨地去论证它们的区别和联系,请允许我偷懒采用图谱这个名称来泛指这项技术,就是各位所想的——节点-关系网络。

图谱之乱远不止此。

金融风控技术演进路线是规则-模型-图谱,对应的技术分别是数据分析、机器学习、知识图谱,所需要和处理的数据维度可以抽象成从点到线再到面。在风控人员对模型尚未能完全理解的时候,又期望知识图谱技术能够让风控提升至一个崭新的水平。知识图谱在风控领域的最典型应用场景是利用图谱识别欺诈团伙。从理论(PPT)角度而言,图谱识别欺诈团伙优势万千,比如数据间的天然关联、图谱强大的路径分析功能、各式社区发现算法、风险传播算法等等。从理论到实际,中间隔着一条马里亚纳大海沟。为了满足业务需求,现在普遍的做法如下:

梳理数据->设计图谱->构建图谱->社区划分->社群定性->团伙输出

这里有几个值得深入思考的问题:

  1. 图谱的设计是同构图还是异构图
  2. 如果是异构图应该包含哪些实体,如果是同构图,如何定义节点之间的关系
  3. 依赖算法的社区划分,能否得到真实的符合业务需要的社群
  4. 如何进行社群定性 ,定性是否合理
  5. 新数据进来后,如何更新图谱,如何判断新数据的标签结果

除了团伙识别外,知识图谱应用于金融风控的另一个方向是图指标计算。这里体现出图谱应用的又一个乱象:图指标和图的分离。图指标表面看起来和图紧密相关,实际上图指标通常通过大数据平台(hive, spark)而并非利用图数据库计算而来。导致的问题是图指标的结果和图谱的结果不一致。

举例:

假设我们的图谱结构如下:

图指标举例:该账户1度关联账户平均开户天数、该账户2度关联账户平均交易金额、该账户度中心性

上述的指标计算主体都是账户,按照SQL计算的指标结果和图库计算结果是一致的,因为都是以账户为中心关联到其他节点。

但是,业务又提出需求想计算其他主体的图指标,比如:该设备1度关联的IP数量,该设备1度关联账户交易次数等等。现在指标计算主体已经不是账户,如果我们还是按照原来的图谱结构来计算指标,会发现设备1度根本关联不到IP,但是利用SQL从交易流水数据却能算出结果。同一条数据,SQL可以以任意字段group by,然后count其他字段。一种解决的办法是重新设计图谱结构,如下:

理论上这种结构更符合实际情况,账户只有通过设备才能和IP发生联系,但是不论哪种结构都无法完全满足多维度主体的图指标计算,最后的做法只能是图谱归图谱,指标是指标,图谱和指标相割裂。

更为实际的情况远比这棘手,业务需要的指标通常都带有时间窗口的限制,比如过去3天账户1度关联账户交易平均金额、过去7天账户1度关联账户平均交易金额等等,图谱在处理时间窗口数据问题上又显得捉襟见肘。

也许是业界过于神化人工智能的“智能”忽略了“人工”,也对知识图谱自动输出给予非常高的期待而忽视了其最本质最重要的可视化分析功能。此前一次项目交流中,有位业务人员说“你们的图谱产品也就是做了数据可视化,指标计算我用一般的数据库也能算出来呀”。说者无心听者有意,这反映了不少人对图谱最基本的数据展示功能嗤之以鼻,PPT上宣传的那么厉害的技术,当然要更高端大气上档次,怎么能只用它做数据可视化呢。这是图谱认知之乱。图谱将关系数据库中一条条“线状”的数据提升至“面状”或“网状”数据,数据展示形式的变化带来的是获取信息的视角变化,信息丰富度的变化。就像二维空间的蚂蚁永远想象不到三维空间的风景。基于图谱数据可视化,可以做更多关联关系的分析,然而这个分析过程是没有定论,没有约束,没有标准的,智者见智仁者见仁。图谱分析技术(图查询语言)的不统一严重限制了图谱可视化分析功能的普及,没有标准的分析方法也制约了人们正确认知图谱。

那么图谱可视化分析在实际业务场景能做什么?个人经验之谈,最重要的一点:案件排查。信贷场景、交易反欺诈等场景银行端的数据量和数据维度非常充足,构建的图谱自然是十分庞大复杂。图谱的分析首先得找到切入点,通常是有风险的客户、账户,进而关联出对应的公司、电话、家庭地址、设备等其他实体。通过从案件节点入手,利用图谱研究欺诈分子间的关联关系,顺藤摸瓜识别出其他可疑分子。利用图谱进行案件排查还有可能发现风险群体之间的特殊关联模式,典型的有传销账户金字塔结构,洗钱账户金字塔和倒金字塔结构。还有一些非常见的模式,如下图所示,两个客户(黄色节点)通过联系人(绿色节点)和联系电话(粉色节点)形成了交叉匹配关联,利用传统数据分析很难发现这种没有任何直接共同节点关联的联系。图谱可视化分析对解释团伙关联风险,理解作案手法起到巨大作用。遗憾的是就目前而言,这个过程无法实现自动化,非常依赖分析人员的技术和业务水平,有着一定的使用门槛。风控业务人员关心的是技术产出的结果,花钱采购了一个宣传得NBHH产品,然而还要求自己学习新技术才能使用,不能够自动产出风险名单,这种赔了夫人又折兵吃力不讨好的事甲方可不干。

机器学习模型已经越来成为金融风控必要工具,图谱也逐渐在各个业务场景中崭露头角。图技术的快速演进急切地渴望从学术界的成功转移到工业界的应用。图谱分析、团伙挖掘这些还没玩明白的时候,图嵌入、图神经网络正款款走来。尽管目前还未遇到过必须用图神经网络技术的实际需求,但是图谱方案规划已然走在前列,相信不久的将来此类需求定铺天盖地而来。从解决方案层面,图谱的全应用流程如下:

图谱应用目前的重点是上述流程图的前四个部分,第五部分列举了两种图谱和机器学习相结合的方式,分别是利用图谱构建机器学习特征和利用图谱构建图神经网络。如前所述,走过前四步,尽管还未走得踏实,第五步终将很快到来。

“不识庐山真面目,只缘身在此山中”,图谱在金融风控中的作用毋庸置疑,但是现实项目里总是会被各类问题缠绕不开。暗流涌动之下,图谱目前的乱象是技术从学术应用到工业必经之路,既是机遇,也是挑战。关于图谱技术及应用更多的细节无法用一篇文章完全阐述,后续会用图谱专题做深入探讨。

这篇关于###好好好好##知识图谱在金融风控领域的应用现状的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/967509

相关文章

Spring Boot Actuator应用监控与管理的详细步骤

《SpringBootActuator应用监控与管理的详细步骤》SpringBootActuator是SpringBoot的监控工具,提供健康检查、性能指标、日志管理等核心功能,支持自定义和扩展端... 目录一、 Spring Boot Actuator 概述二、 集成 Spring Boot Actuat

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

《PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例》词嵌入解决NLP维度灾难,捕捉语义关系,PyTorch的nn.Embedding模块提供灵活实现,支持参数配置、预训练及变长... 目录一、词嵌入(Word Embedding)简介为什么需要词嵌入?二、PyTorch中的nn.Em

Spring Boot3.0新特性全面解析与应用实战

《SpringBoot3.0新特性全面解析与应用实战》SpringBoot3.0作为Spring生态系统的一个重要里程碑,带来了众多令人兴奋的新特性和改进,本文将深入解析SpringBoot3.0的... 目录核心变化概览Java版本要求提升迁移至Jakarta EE重要新特性详解1. Native Ima

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

JSONArray在Java中的应用操作实例

《JSONArray在Java中的应用操作实例》JSONArray是org.json库用于处理JSON数组的类,可将Java对象(Map/List)转换为JSON格式,提供增删改查等操作,适用于前后端... 目录1. jsONArray定义与功能1.1 JSONArray概念阐释1.1.1 什么是JSONA

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析,结合实际应

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比

《CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比》CSS中的position属性用于控制元素的定位方式,不同的定位方式会影响元素在页面中的布... css 中的 position 属性用于控制元素的定位方式,不同的定位方式会影响元素在页面中的布局和层叠关