lxue
作者lxue2020-03-06 16:05
数据库管理员, 某互联网公司

运用深度学习技术处理投行项目富文档的探索与实践

字数 5346阅读 5232评论 0赞 2

摘要:

本文根据光大证券在金融文档智慧服务平台中的建设经验,阐述对于深度学习技术的研究认知及处理富格式文档的探索实践经验。该平台利用海量的数据信息,建立平台“数据标注-模型训练-模型评估”周期迭代方式,在模型自主学习改善复核效果的基础上,将人工审核与机器审核相结合,以提高金融数据质量监控的效率和准确度。同时,基于平台的主动周期性迭代方式,保证平台有较强的动态适应性与灵活性。
关键词:深度学习、投行项目富格式文档、智能复核深度学习

一、概述

证券行业在高速的成长发展过程中,各个业务板块都积累了非常多的信息文档,形成的文档类型和文档版本也是不尽相同。如何让计算机自动或半自动地理解自然语言文本,深度挖掘金融文档的潜藏价值,切实提升证券业员工在面临浩瀚文档资料时的工作处置效率,已成为公司内部管理方面的重要研究课题。而投行作为典型的文档密集型业务板块,涉及到的文档类型复杂、多样,且多为富文档,即包括但不限于文件扫描件、跨平台文件格式(PDF文档、Word文档等)和网页等,它们是标题、文字章节和段落、表格和图像等组成成分的复合有机排版。本文将阐述如何运用深度学习的技术对投行富文档进行格式化的处理,将以银行流水识别系统与投行文档智能审核系统两个运用场景出发,对其中涉及的技术做出深度剖析。

二、国内外文献综述

深度学习是近年来机器学习领域发展最为迅速的领域之一,它是基于深层神经网络的机器学习方法的别称。事实上,深度学习并不是一个全新的概念,深度学习最早可以追溯到1943年由神经科学家沃伦麦卡洛克和数学家沃特皮兹提出的人工神经网络[1]。随后在20世纪50年代,感知机和自适应线性单元的提出对神经网络发展起到极大促进作用,使得神经网络的研究进入第一个发展热潮。然而这一阶段的神经网络模型为线性模型,它无法表示异或函数,这也导致了神经网络的研究热潮逐渐消退。在1980-1995 年间,随着联结主义(connectionism)方法的流行,人工神经网络进入一个全新的发展阶段。联结主义的基本思想是:如果将大量简单的计算单元连接在一起,神经网络便会更加智能[2]。基于这一思想神经网络在这一阶段涌现许多优秀的成果,使得神经网络进入新的研究阶段。
在以上研究的基础上,深度学习的概念在2006年被正式提出,它以Geoffrey Hinton [3]提出的深度信念网络为开端。自此以后,得益于更强大的计算机、更大的数据集和能够训练更深网络的技术,深度学习的研究进入爆发阶段,在这一阶段研究人员能够训练以前难以训练的较为深层的神经网络,同时也在理论上说明深度的重要性。经过10年左右的发展,深度学习迅速席卷计算机视觉、语音识别和自然语言处理等领域,取得了举世瞩目的成就[2]。

三、投行项目富格式文档的格式化处理在光大证券的运用

(一)项目背景

光大证券金融文档智慧服务平台是结合光大证券内部人工智能平台的统一建设要求,以“促进相关业务,营建智能平台”为目标,结合热点需求,在解决业务痛点的基础上,向公司内部提供简便、高效的文档综合处理平台,为公司不同部门、不同业务阶段的文档提供智能化处理工具,以利于提升工作效率,改善文档质量,规范工作流程,实现工作文档全环链向电子化方向发展。本平台选取投行业务领域的文档审核场景作为试点并积累项目建经验,优先满足标准化程度较高且使用频繁的“债券募集说明书”、“IPO招股说明书”审核需求,后续将视平台运营以及业务发展情况,逐步扩展平台的文档审核范围。

(二)日常工作及业务现状

根据对投行板块人员的日常工作调研,发现存在大量的人工审阅工作。以债券募集说明书为例,项目人员依靠发行人和主承销商提供的材料,按照协会公布的文件报备格式要求编写募集说明书,这其中涉及的各类文件内容繁杂,极易出现像笔误、财务数据填写错误,财务指标公式编写错误等问题;而专职负责文档审查的员工则需要全文通读项目人员制作的项目文档及工作底稿,从几百页的文章中检查其中可能存在的笔误及各式逻辑错误;同时还需要检查多个文档之间针对相同内容的表述是否一致。上述重复且巨量的工作任务对员工是个非常大的考验,不但投入的人力时间较多,而且一旦工作状态下降,文档的审查质量也会急剧下降。

(三)建设方案介绍

1、项目建设内容

根据本期项目规划(如图表1所示),项目建设范围主要包括如下三个方面:
• 构建面向债券募集说明书、IPO招股说明书的智能审核应用;配套提供智能提取、智能比对的共享工具应用。
• 搭建底层完整的智能训练及计算框架。
• 对外发布文档智能服务能力接口;支持与现有投行相关系统、协同办公等系统的对接。

2、主要采用的技术路线及创新亮点

日常工作中人们最常见、容易获取的就是文本信息,文本格式多种多样,Word、PDF、Excel、JPG图片等等,不仅内容多样且内在格式复杂,我们称之为“富文本”。由于自身格式、内容具有高度复杂性且数据来源复杂,计算机在识别上具有很大的难度。
在Word文档转换为PDF文本之前,Word文档中存储了内容及格式信息,我们可以通过这些信息,进行Word文档的编辑修改;转换为PDF,PDF文本是不可编辑文本,转换过程中抹除了原始格式信息,取而代之的是位置信息,即字符和字符的位置信息,与之前Word文档内储存的信息大不相同,我们需要将单纯的文字及文字对应位置信息,转换成机器可读懂的结构化信息,即将PDF转换成Word文档,这个过程就叫做文档结构处理。
金融文档智慧服务平台底层计算基础框架,利用深度学习及自然语言处理技术,针对富文本,进行结构化处理:
1)、文档的结构处理:
利用模型对文档进行结构化处理:
(1)切分段落和表格、画表格内线:
输入需要处理的文档输入系统,进行内容元素块识别,指将文档内容包括正文、图表、表格进行给定精确位置,一般是用矩形来划分,即使用左上角坐标及长宽。
运用模型将文档中每个段落及表格进行切分;针对每个表格,结合视觉及NLP自然语言处理技术,对每个单元格进行划分,从而将文档切分为各个元素快。如图表2所示,识别出了文段、表格的精确位置。

(2)目录结构识别:
通过文档结构化处理,将生成的一个一个的元素块内的内容,进行语义理解,例如元素块中存在“第一章”,即一级目录,模型会将第一章及第一章下的元素快作为同一级目录元素快,并打上第一级目录标签。
运用上述目录识别模型进行文档内各级标题的识别,自动生成文档目录,如图表3。

综上,文档结构识别输入为富格式文档,包含的各种类型的内容元素块的序列作为输出,并保持正确的阅读顺序。

2)、语义理解
基于上述对富文档的结构识别,针对切分出的不同元素块中的数据,运用模型抽取出我们所需要的信息。
(1)二维表格
根据文档结构识别出的表格内外线划分出的单元格,进行信息抽取,每个单元格为一个数据,抽取该数据对应的行、列信息,作为表格“三元组”,从而确定该单元格数值所对应值的意义。

(2)文本段落
识别出的文本段落,将段落中需要抽取数值的定语、属性进行对应抽取,组成一个完整的三元组。

综上所述,通过语义理解抽取出的信息,都是基于文档结构识别,正确的信息抽取都是基于准确的元素块进行划分。
3)、实践应用
(1)文档智能提取工具
文档智能提取工具可提供文件上传模块,针对已上传的文件进行分析,提取内部的表格对象,而用户可对提取的表格进行复制等操作。同时,该工具的提取能力应通过API接口的方式暴露出来,供其他系统调用。
复杂排版的表格内容语义提取任务主要分为如下几个步骤:
• 根据文档页面内容,找出每一个表格区域。
• 根据表格区域,识别出表格内部的结构信息,即单元格的排布顺序以及单元格内部的具体内容。
• 根据表格的结构信息,抽取出单元格之间的函数关系和语义关系。
在银行水单的识别应用方面,通过 OCR 技术,系统可以智能识别银行流水单扫描件中的数字以及所属类目,并进行自动分类和整理,配合“水单异常交易识别”引擎,可以自动化的识别、提示异常交易。
在通用单层PDF识别应用方面,通过OCR技术,可以将扫描或拍照的 PDF 转化为 docx、txt、双层 pdf 等格式。将识别后的文字导出后,可用于复制、检索等后续用途。

(2)文档智能审核应用
用户可上传Word或PDF格式的《XXX债券募集说明书》和《XXXIPO招股说明书》,文档传输至后台运行的系统中,基于文档结构处理及信息抽取后,经过Guru-Doc人工智能模型网络和通用型语料库交互处理,自动锁定文档中可能存在的错误和冲突,逐条列出供市场参与者检验复核。在复核各个错误和冲突后,通过点击按钮“确认完成,生成待批注的文档”,将所有“批注到文档”的错误和冲突,以Word的修订批注方式,自动添加到已上传的文档。市场参与者通过点击按钮“下载文档”,即可获得带有批注的Word文档,支持标注后的文件导出到本地。
该功能极大程度地运用Guru-Doc人工智能模型网络和通用型语料库对文档内容进行检验。处理流程包括但不限于对文档中的数据和金融术语进行抽取和处理;对文档中笔误、财务数据填写错误,财务指标公式编写错误、数据前后对应关系等问题开展智能识别、智能溯源与智能甄别;并对文档检验中的数据进行深度结构化处理,通过对比和可视化展示,实现能够以直观的形式向用户提供展示和复核的功能,最终形成可导出的带批注文档。
系统提供错误反馈功能,用户在使用文档复核功能的过程中,可以对误报为错误的情况进行反馈,经过一定周期的累积,该数据可以用于优化模型训练,提高检查的质量。

四)项目推广及运营

项目上线后,为帮助投行板块员工尽快熟悉系统功能及具体操作步骤,逐步适应文档智能审查推出后的全新工作方式,项目建设小组采取了一系列的推广运营举措:
1、在系统首页模块中内置使用说明,帮助内容包括文档及视频形式,方便用户在线观看学习。
2、邀请中科院计算技术研究所副教授兼庖丁科技联合创始人罗平博士来到现场就系统使用方法、行业发展动态、未来演进方向开展培训交流。
3、组建微信即时聊天交流群,通过实时答疑、应用技巧小贴士等形式,帮助解决业务人员在日常使用中遇到的问题。
另外,项目建设小组十分重视用户的实际使用感觉,在系统内设计了报错机制,允许用户上报系统或者业务错误;维护人员则主动收集用户上报反馈,定期开展问题诊断,同时在即时聊天交流群当中及时反馈上报问题的处理计划,让用户更加放心地使用系统;后续则通过针对性的标注及训练过程,持续优化模型,实现版本的迭代升级。

四、实践总结及展望

总结本次项目实践活动,文档智能提取应用及智能审核助手,均从文档结构识别开始,先将文档进行结构化,再通过深度学习模型提取文段表格三元组。依据三元组模型、表格识别模型、文档目录结构识别模型等模型抽取的结果,结合关联模型及算法进行相同含义的数值关联,去找出勾稽关系、一致性等冲突问题。由此可见,模型的及时迭代更新将对系统保证高准确率及召回率起到重要作用。
当前,金融文档智慧服务平台中的文档智能审核助手主要用于缓解业务部门针对募集说明书及招股说明书的一些人工审核工作量,帮助找出其中可能存在的错别字和笔误、标点及格式问题、数据勾稽问题、比例计算问题、财务指标计算问题及底稿一致性问题等;而文档智能提取工具主要针对银行流水进行表格抽取及识别,将PDF格式的表格扫描件,转化为可复制的表格,并支持导出相应的表格Excel文档,方便投行同事审核及使用。
未来,金融文档智慧服务平台审查范围将不仅限于财务方面,也会逐步增加一些行业及业务规则方面的审核;同时扩展支持更多的文档类型,成为一套更为智能、更为全面的系统。

五、参考文献

[1]. Warren S. McCulloch and Walter Pitts. 1943. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, pages: 115-133.
[2]. Lecun Y, Bengio Y, and Hinton G. 2015. Deep learning. Nature. 521(7553):436.
[3]. Hinton, G., Osindero, S., and Teh, Y. 2006. A fast learning algorithm for deep belief nets.Neural Computation, 18, pages: 1527–1554.

本文转自微信公众号:上交所技术服务
作者:
陈贇yunchen@ebscn.com
光大证券晏强yanqiang@ebscn.com
周朝阳zhouzhaoyang@ebscn.com
吴波wubo@ebscn.com
庖丁科技罗平Lp@paodingai.com

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广