一年的人工“粗”审,跨越到12秒查重2000+复杂科研长文档,竹间智能解决了大型石油国企的难题!

竹间智能 | 2020-09-20

某大型石油国有企业在近期的科技转型中遇到了一个难题,难的不是科技项目研究本身,关键是如何避免与已有的2000多个科研项目重复立项而导致研究经费的浪费。靠员工的记忆?还是靠人工一篇篇的查看?
 
竹间智能通过Gemini平台赋能该企业,建立一套科技管理智能信息处理及查重服务,秒级间完成新文档与2000多份的历史项目文档的对比解决了全量查重的问题,避免企业项目重复立项,充分利用科研经费。

 

 

单靠人工查重真不靠谱

这家企业在原有的查重模式是通过员工的记忆加上人工查看的模式对已研或在研科技项目(2000多份的历史资料)进行科技项目查重,每年还会以400—500的数量增加,而对科技项目查重的工作要求也逐年提高。平均一份项目文档有25页,近2万字,这样一份文档的查重至少需要一天的时间,每年500份的新增项目文档需要2个人花一整年的时间才能完成比对查重!如此的工作模式费时费力,查重遗漏和错误率都非常高。

 

通过竹间Gemini平台如何完成?

首先要将历史的2000多份文档整理入“库”进行标注和抽取,进行统一管理。对于新上传的项目书通过文档抽取工具完成文本转换及抽取,将文档抽取的转换的文本入查重库,对待查文档及历史文档进行语义分析、词句分析,计算相似结果。将查重结果汇总,供用户浏览或下载。
 
这一系列看似复杂的流程,而通过竹间智能的Gemini认知知识推理平台即可进行可视化操作。现在该企业进行新文档查重平均仅需12s,效率至少提高上千倍。对于员工来说只需进行一步操作——上传文档,即可查看详细查重结果。结果可精细至比对到哪些段落语义上有重复,相似率具体为多少。

image.png

竹间通过擅长的NLP技术,可对长文本进行自动实体识别抽取,实体发现,实体识别和比对。对文档的语义相似度进行匹配判断,而非简单的关键字对比。支持PDF、Word中字词句段章表格等各种非结构化文档的关键信息提取。待提取的文档类型、关键信息点可根据用户实际业务场景进行自定义配置。有别于直接将文档通过算法进行对比,平台操作化简单,结果可视拓展性也更强。

 

一个平台即可解决企业数据应用难题

竹间自研的一套全新模型语言——Gemini Script,内嵌可扩展的NLP深度学习模型,同时支持文档特征和语义特征识别,能够处理章节定位、抽取信息、计算、段落提炼。客户通过Gemini平台可以自主训练模型,根据客户的实际业务需求,结合竹间积累的行业数据,模型冷启动只需对3-5篇文章进行标注既可生成。并且通过自学习能力帮助文档抽取任务越变越准确,越来越聪明。客户通过Gemini平台可自主完成模型创建-训练-赋能生产的整个过程。

 

竹间的Gemini认知知识推理平台不仅可以进行文本的抽取和比对,还可以自动化构建知识图谱,处理大量非结构化数据,例如:产品文档、法规文档、财务报表等等,同时还可以持续不断地从数据挖掘、NLP和智能自动化中学习,从而帮助企业处理海量数据,帮助企业解决整个数据价值难题。