30亿的数据量不算太大,用spark就可以搞定清洗,加工和必要一些特征工程的的工作了。从建模的角度来说,如果对分布式有要求pyspark挺好的。否则,直接用python灵活度会更高。
说说我们在数据提取方面的安全管控做法吧。 一,入口统一。我们将生产环境的结构化数据提取入口进行统一。 二,自动识别数据安全等级,并并调用脱敏工具进行脱敏。 三,统一交接。数据落地直接通过数据容器进行交接。 四,销毁
数据的安全防护,前提在于数据的分级分类。不同类别,不同安全等级的数据,防护手段和要求也是不尽相同的。 在我单位这边,我们用了很多精力做数据的分级分类,在数据的产生环节严控数据的打标,并将这些打标结果用在数据脱敏、
这个问题太大了。 但总的来说,国外银行的交易风控相比于国内银行是处于领先地位的。最典型的就是visa和万事达的交易风控。理论文章我关注的少,这个不好说啥,建议知网或者社区找下。
这个 是世纪难题了。 模型的可解释性的认可度,需要在模型训练及验证过程完成,并且通过投产后的AB Test取得最终共识。只要确定了模型达标,那么在往后的日常中就不需要再为模型解释性折腾了。 而且,模型是否可解释也取决
这个取决于如何取得业务的信任,即使在数据没有问题的情况下,取得业务信任也是关键。 在数据有缺陷的情况下,还是需要通过一定的验证机制来对风控引擎的实际成效进行评定,可以采用AB Test的方法,而且,一定要拉上业务 一起
银行交易反欺诈 的实现方法 无非几种。要么基于专家规则或者评分表实现,要么基于实时模型来实现,也可以基于两者的结合来做。 但是无论如何,要实现银行交易实时反欺诈,业务经验是一定要具备的,因为涉及到正式投产后的业
1、模型与规则的组合是通过将模型评分作为规则的一部分 来实现的。如原来的规则是“条件A>10“,和模型评分组合后,则变成“条件A>10 且 评分 > 某个阈值”。当然,每一个规则中的模型评分阈值
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30