知识图谱在农信社风控领域的应用难点问题解析

字数 2174阅读 4629评论 0赞 2

一方面随着近年来通信技术的不断发展，黑产大行其道，银行业外部监管压力日益增加，内部风控要求也不断加强。另一方面，银行账务交易数据呈现爆发式的增长，这对数据的处理和分析能力提出了更高的要求。在这种新形势下，要求银行必须积极探索和使用新的理论技术解决新问题。

在金融交易越来越便利的背景下，仅从某个客户、某个账号或者某笔交易本身很难发现问题，必须对客户的关联人及其资金交易进行统一分析。但传统的关系型数据库在进行关系分析或资金流追踪时，受限于其设计模式，模型的开发难度和运行效率都较差。在涉及2度以上的关系分析时，难以在合理的时间内给出结果。导致大量潜在问题没有被发掘出来，给银行的资金安全和日常经营带来了较大的风险。

知识图谱是现实世界的个体和个体间关系的真实反映，提供了从“关系”的角度去分析问题的能力。将知识图谱理论、图挖掘算法、图数据库技术应用于信贷风控领域，能够很好的解决已有分析手段效率低下的问题，极大提升银行贷前、贷中、贷后的风险防控水平。常见的应用场景有担保圈分析、受托支付排查、内外利益输送排查、冒名贷款识别等。

为了帮助大家了解如何在风控领域使用知识图谱，我撰写了一篇最佳实践文章《知识图谱在农信社风控领域的应用》，并作为线上答疑活动“知识图谱在农信社风控领域的应用线上答疑”答疑嘉宾为大家解答了一些疑惑。活动结束后，我从问题中抽取了几个比较重要的难点问题，供大家参考。

问题一：知识图谱系统的建设核心是什么？该如何选型?

解答：
建设核心是图数据的存储和分析方法。不同的核心，外围使用的方法也不同。
以titan为例，它是集成在hadoop上的。数据的分析加工主要在使用sparksql和graphx，结果会存放在titan中，数量较多的明细流水会放在hbase中，常用的查询关键字，姓名、手机号码等会放在elasticsearch中，三者通过key相互关联。
如果换一种图数据库，比如neo4j，整个外围都会跟着调整。所以图数据库的选型不能进场图数据本身考虑，而应该结合整体规划，建设成本，多系统间的关联关系层面进行统筹考虑，甚至可能会为了大局牺牲一些效率。

问题二：知识图谱系统的关键特性有哪些？

解答：
1.当然是可视化展示，知识图谱的魅力之一就是让人直观的看到多实体之间的关系，能用图标示的就不要哔哔
2.多种服务提供方式，有些服务使用方，不需要图，那么可能通过api或者批量文件的方式比较合适。所以从系统建设角度来看，最好能提供多样的服务对接方式，满足前端服务使用方的不同需要，发挥系统价值，是值得考虑的地方。
3.查询速度，在用户进行图操作，例如实体查询、关系推演扩展时，系统响应时间应该较低，避免大并发情况下用户体验的降低。
数据建模、批量时间相对来说，外界感知不到，因此不那么重要。

问题三：为满足关键特性系统的架构或组件选择是怎样的？（主要针对hadoop架构）

解答：
1.可视化需要开发一个专门的知识图谱展示界面，将知识图谱中的实体、关系属性等以美观已操作的方式展示出来，因为颜值即正义。可以借用当前比较流行的bootstrap等前端开发语言。
2.为满足快速查询，可以将部分索引关键字放在索引es中，索引命中后在使用key去titian中查询。
3.多种服务方式，需要从设计时就进行考虑，至少满足三种api、可视化界面、批量文件。批量文件主要从hive中进行导出，而api接口则需要开发一个服务层，将所有图数据库的命令行操作转换为对应的api接口，轻量级的开发一个java服务放在tomcat中，有条件的可以使用微服务框架。

问题四：知识图谱适用场景有哪些？

解答：
主要涉及关系分析的场景，利用账户、自然人或者资金交易形成的关系来判定结果是否可用时，比如担保圈、分析实际控制人、实际受益人、识别冒名贷款。而且通常，数据分析的深度在3度到5度，才能体现出优势。
分析深度小于3度，与传统关系型数据库没有太大差别，大于5度有可能引入较多的噪音数据。当然不排除某些场景下分析5度以上数据的可能性。

问题五：知识图谱的建设都有哪些重要的环节，需要注意什么？

解答：
从自身项目实施来看，有三个地方：
1.建模时多系统数据的融合，比如客户的信息存在多个系统中，核心、信贷、理财等，因为系统建设时间不一、多次升级等问题，导致数据不一致，数据质量较差，这样就需要花费很大精力去处理数据质量问题，还可能导致程序返工。
2.模型开发过中，选择那些业务场景也很重要，知识图谱不是万金油，有些场景比较费力。应该选择那些跟关联关系分析相关的，有明确结果，业务人员能够明确正确与否的应用场景，便于展示这个工具的优越性。
3.交付前的测试也很重要。因为知识图谱基本上都是需要融合各个业务系统的数据，涉及面较广。因此要给测试过程留够时间，便于测试人员发现一些数据处理上的遗漏。

问题六：脏数据的处理机制是什么？

解答：
知识图谱作为下游系统其实没有好的办法处理脏数据，基本上有两种策略：
第一：确定一个优先级，某个属性以哪个系统为准，当两个系统不一致时，不管对错永远以某个系统为准。
第二：前一种方法不适用的，就将这些数据打入“冷宫”，放到一张表里，定期拿出来，找原系统进行数据修正，这是一个比较漫长的过程。
不过好在，80%以上的数据是正常的，脏数据多数由于客户长期未发生业务，渠道无法强制客户更新数据

风控知识图谱农信社大数据

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

知识图谱在农信社风控领域的应用难点问题解析

问题一：知识图谱系统的建设核心是什么？该如何选型?

问题二：知识图谱系统的关键特性有哪些？

问题三：为满足关键特性系统的架构或组件选择是怎样的？（主要针对hadoop架构）

问题四：知识图谱适用场景有哪些？

问题五：知识图谱的建设都有哪些重要的环节，需要注意什么？

问题六：脏数据的处理机制是什么？

添加新评论0 条评论

本文隶属于专栏

作者其他文章

相关文章

相关问题

相关资料