VOLVO
作者VOLVO联盟成员·2018-12-14 14:50
项目经理·省农信社

知识图谱在农信社风控领域的应用难点问题解析

字数 2174阅读 4629评论 0赞 2

一方面随着近年来通信技术的不断发展,黑产大行其道,银行业外部监管压力日益增加,内部风控要求也不断加强。另一方面,银行账务交易数据呈现爆发式的增长,这对数据的处理和分析能力提出了更高的要求。在这种新形势下,要求银行必须积极探索和使用新的理论技术解决新问题。

在金融交易越来越便利的背景下,仅从某个客户、某个账号或者某笔交易本身很难发现问题,必须对客户的关联人及其资金交易进行统一分析。但传统的关系型数据库在进行关系分析或资金流追踪时,受限于其设计模式,模型的开发难度和运行效率都较差。在涉及2度以上的关系分析时,难以在合理的时间内给出结果。导致大量潜在问题没有被发掘出来,给银行的资金安全和日常经营带来了较大的风险。

知识图谱是现实世界的个体和个体间关系的真实反映,提供了从“关系”的角度去分析问题的能力。将知识图谱理论、图挖掘算法、图数据库技术应用于信贷风控领域,能够很好的解决已有分析手段效率低下的问题,极大提升银行贷前、贷中、贷后的风险防控水平。常见的应用场景有担保圈分析、受托支付排查、内外利益输送排查、冒名贷款识别等。

为了帮助大家了解如何在风控领域使用知识图谱,我撰写了一篇最佳实践文章《知识图谱在农信社风控领域的应用》,并作为线上答疑活动“知识图谱在农信社风控领域的应用线上答疑”答疑嘉宾为大家解答了一些疑惑。活动结束后,我从问题中抽取了几个比较重要的难点问题,供大家参考。

问题一:知识图谱系统的建设核心是什么?该如何选型?

解答:
建设核心是图数据的存储和分析方法。不同的核心,外围使用的方法也不同。
以titan为例,它是集成在hadoop上的。数据的分析加工主要在使用sparksql和graphx,结果会存放在titan中,数量较多的明细流水会放在hbase中,常用的查询关键字,姓名、手机号码等会放在elasticsearch中,三者通过key相互关联。
如果换一种图数据库,比如neo4j,整个外围都会跟着调整。所以图数据库的选型不能进场图数据本身考虑,而应该结合整体规划,建设成本,多系统间的关联关系层面进行统筹考虑,甚至可能会为了大局牺牲一些效率。

问题二:知识图谱系统的关键特性有哪些?

解答:
1.当然是可视化展示,知识图谱的魅力之一就是让人直观的看到多实体之间的关系,能用图标示的就不要哔哔
2.多种服务提供方式,有些服务使用方,不需要图,那么可能通过api或者批量文件的方式比较合适。所以从系统建设角度来看,最好能提供多样的服务对接方式,满足前端服务使用方的不同需要,发挥系统价值,是值得考虑的地方。
3.查询速度,在用户进行图操作,例如实体查询、关系推演扩展时,系统响应时间应该较低,避免大并发情况下用户体验的降低。
数据建模、批量时间相对来说,外界感知不到,因此不那么重要。

问题三:为满足关键特性系统的架构或组件选择是怎样的?(主要针对hadoop架构)

解答:
1.可视化需要开发一个专门的知识图谱展示界面,将知识图谱中的实体、关系属性等以美观已操作的方式展示出来,因为颜值即正义。可以借用当前比较流行的bootstrap等前端开发语言。
2.为满足快速查询,可以将部分索引关键字放在索引es中,索引命中后在使用key去titian中查询。
3.多种服务方式,需要从设计时就进行考虑,至少满足三种api、可视化界面、批量文件。批量文件主要从hive中进行导出,而api接口则需要开发一个服务层,将所有图数据库的命令行操作转换为对应的api接口,轻量级的开发一个java服务放在tomcat中,有条件的可以使用微服务框架。

问题四:知识图谱适用场景有哪些?

解答:
主要涉及关系分析的场景,利用账户、自然人或者资金交易形成的关系来判定结果是否可用时,比如担保圈、分析实际控制人、实际受益人、识别冒名贷款。而且通常,数据分析的深度在3度到5度,才能体现出优势。
分析深度小于3度,与传统关系型数据库没有太大差别,大于5度有可能引入较多的噪音数据。当然不排除某些场景下分析5度以上数据的可能性。

问题五:知识图谱的建设都有哪些重要的环节,需要注意什么?

解答:
从自身项目实施来看,有三个地方:
1.建模时多系统数据的融合,比如客户的信息存在多个系统中,核心、信贷、理财等,因为系统建设时间不一、多次升级等问题,导致数据不一致,数据质量较差,这样就需要花费很大精力去处理数据质量问题,还可能导致程序返工。
2.模型开发过中,选择那些业务场景也很重要,知识图谱不是万金油,有些场景比较费力。应该选择那些跟关联关系分析相关的,有明确结果,业务人员能够明确正确与否的应用场景,便于展示这个工具的优越性。
3.交付前的测试也很重要。因为知识图谱基本上都是需要融合各个业务系统的数据,涉及面较广。因此要给测试过程留够时间,便于测试人员发现一些数据处理上的遗漏。

问题六:脏数据的处理机制是什么?

解答:
知识图谱作为下游系统其实没有好的办法处理脏数据,基本上有两种策略:
第一:确定一个优先级,某个属性以哪个系统为准,当两个系统不一致时,不管对错永远以某个系统为准。
第二:前一种方法不适用的,就将这些数据打入“冷宫”,放到一张表里,定期拿出来,找原系统进行数据修正,这是一个比较漫长的过程。
不过好在,80%以上的数据是正常的,脏数据多数由于客户长期未发生业务,渠道无法强制客户更新数据

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广