Bot Factory 22
对话式AI平台
认知智能大爆发,谁愿拒绝知识图谱呢?
竹间智能 | 2021-11-26
再炫酷的AI技术,如果不能落地,那就如同一场幻梦,无法兑现价值。因此,竹间智能始终致力于AI的规模化、商业化、创新化落地,并明确将认知智能和情感智能作为落地的两大重要推手,使其融合进旗下核心产品,形成关键驱动力。
Bot Factory对话式AI平台,便结合了认知计算与情感计算,可以识别文本及语音中的情绪,为每一次人机交互都注入温度。
另一旗舰产品Gemini知识工程平台则主要基于认知计算建成,具备认知能力,可打造企业级的知识工厂Knowledge Factory,将重要的文档资料进行结构化处理,进而自动构建知识图谱,建立智能化知识管理系统,最大化解锁尘封的知识资产,并将其应用到产品研发、生产、营销、运营、服务等各大业务环节。
▲点击视频了解Gemini平台为何与众不同
在抵达认知智能这一高级阶段的路上,知识图谱的重要性已毋庸讳言。在商业落地方面,它同样是一大重器。
虽然现在可为企业打造知识图谱的AI厂商不在少数,然而拥有自动构建知识图谱能力的,却是凤毛麟角。Gemini知识工程平台不仅可以实现这一点,还能与竹间其他平台无缝对接,从原始文档自动生成知识图谱,到对话机器人自动回答,仅需一小时。
凭借该平台,竹间为各行业企业提供解决方案,涵盖智能搜索、竞品分析、贷款申请表审核、反欺诈、论文查重、实时舆情分析等场景。
说到这,很多人不免好奇:Gemini究竟如何将千头万绪的数据“编织”成一幅井然有序的知识图谱?今天我们就为大家简明扼要地科普一下核心构建流程,聊一聊原始数据怎样转化为知识图谱,而后知识图谱又可以催生哪些美妙的应用。在步入正题之前,我们最好先从企业面对浩繁数据时的无力感说起。
被严重浪费的知识资产
企业在日常运营中会逐步囤积起海量的多源异构数据,仅以制造业为例,就包括仪器检修手册、仪器采购标准、仪器运行数据记录、产品销售与退回记录、消费者反馈等等。
而且,这些数据往往散落各方,可能存在企业SaaS云平台上,或者位于各分支部门的数据库中,或者被业务人员放进自己的文档共享云里,真如恒河沙粒,数不胜数。
一位来竹间智能咨询的跨国集团中层人士诉苦道:
“
我们的产品在分发给渠道商之后,只知道退回率,却完全不知道退回动作背后的原因是什么,向渠道商问出来的结果总是模糊的,我想看到真实、确切的数据分析,这样才能知道我们到底需要怎样改进。
另一位来自医疗器械公司的管理者提出:
“
海外销售往往需要销售助理下单,在SAP里完成订单流转发给物流负责人,在这个流转的过程里,往往有人工换算造成的错误,甚至有临近交付却发现漏单的情况。用技术免除可能存在的人为错误,以及实时的数据跟进与自动提醒,是我们的紧迫需要。
在过去,多数公司都是手动录入数据到数据库,等需要的时候再用SQL去查询,或者用表格+SAP的方式维护关键信息。
这样的“二维表”模式,造成了数据的大量重复存储。而不同业务部门的数据存储呈割裂之势,也导致了数据的孤立,不能让管理者和设计者及时发现数据背后的规律与发生模式。
对此,竹间智能在Gemini知识工程平台中,引入了数据转化工具、数据仓库、图谱文本抽取(NER与关系抽取)、知识建模本体Ontology、图谱可视化搜索与图算法分析,汇总呈现所有数据,让其作为点和边组成一张庞大的知识语义网络,打通了从数据中抽取知识、利用知识到挖掘价值的整条链路。
知识图谱构建四部曲
定义数据处理流
为了清洗转化及合并各类数据,竹间自建了一个结合数据转化工具与数据仓库的数据挖掘平台。而传统数据转化工具主要实现的是数据拆分、合并、清洗等功能,担当的是“数据专家”的角色。
为了降低使用门槛,我们在数据转化工具画布中预定义了众多参数,方便非专业人士快速创建自己的“数据流”以进行预处理。
▲零/低代码创建文本工作流,直观展现流程
此外,在Gemini平台的数据转化工具中,我们加入了带着竹间最强基因的多种NLP 算法,例如聚类、字段抽取、自然语言数据自动增强等等,让算法模型触手可及。如此一来,操作人员不用具备开发背景,只需把算法节点拖进画布,连接数据源,就可以运行了。
定义业务模型
接下来,就得由业务专家在知识建模本体Ontology画布中定义业务模型了。
想建立业务模型,应重点考虑四个元素——概念、事件、属性、关系。对具体业务,可以将其转变成抽象概念,这样就可以用概念的属性来代表业务的属性了。业务概念与业务概念之间,需通过定义关系来进行连接。
举个例子,在电商场景中,用户购买了某个产品,这个动作就可以形成一个微型的业务模型,“用户”是一个概念节点,“产品”是一个概念节点,“购买”这个动作是连接他们的关系,而“购买”本身也会有属性,比如“ 购买时间”、“购买动机”等等。
▲对消费品企业融资新闻报道的抽取
定义好业务模型之后,我们就可以把上一步数据处理流的“最终产物”,即处理妥当的数据池,连接到业务模型,如此便促成了从数据库到图谱的数据流动。
NER结合业务模型,将数据化零为整
数据导入图谱之后,该轮到NER(命名实体识别)发力了。Gemini平台的NER模块已经储备了相当一部分常识性概念,如中国城市、中国手机号码、中国大学、银行卡号等等。
但是我们发现,在不一样的语境中,很多看似相同的指称可能有着截然不同的意义,比如“NLP”一词,在计算机科学中表示“自然语言处理”,但是在心理学中却意味着“心理疗法”。
所以,我们允许用户在建立业务模型后,基于模型内的概念,对实际数据开展标注训练,然后用模型在文档中跑一遍,就可以把其中所有符合模型的实体都识别并抽取出来,存入图谱,形成众多节点,进而聚集成知识树。
▲NER序列标注模型
提炼关系,连接实体,使数据互联
若想掌握知识之间的关系,或者说实体之间的关系,那必须要做好关系抽取。
在长文本处理过程中,用NER搭配关系抽取,能够细粒度地拆解数据,方便后期迅速且精准地对知识进行推理和搜索。比如,我们来看下面这句话:
米拉出生于1997年,就职于竹间智能
Gemini平台“读”过这句话后,可识别出“米拉”是人名,“1997年”是时间-年份,“竹间智能”是机构名称,再运行关系抽取算法,可拆解出“米拉”和“1997年”之间的关系是“出生于”,“米拉”和“竹间智能”之间的关系是“就职于”。
知识图谱经典应用:
语义搜索与图算法探索分析
经过上述四个步骤,知识图谱的“初稿”就火热出炉了,现在已可以在数据管理界面查看成功实现结构化的全部数据。这不光是看起来炫酷,有了这些结构化数据作为基础,便能衍生出众多神奇应用,特别是在知识搜索和推理这两个方面,图谱都表现出惊人的能力与潜力。
▲基于图神经网络的知识推理
依托语义搜索,开启流畅问答
传统的搜索根据关键词来分解问题,然后从后台链接里找到匹配关键字的内容。但是,基于Gemini平台的知识图谱搜索可以更进一步。
使用者除了输入关键词,也能输入句子,就像日常对话一样,用自然的方式提问,对此,系统不仅会显示所有相关文档,还能直接反馈准确的答案,更可举一反三,围绕当前答案给出拓展信息,让使用者获得更多关联性知识。
▲智能搜索有助于追溯重大事件的起因
一键运行图算法,揪出罪魁祸首
图算法指的是利用特制的线条算图求得答案的一种算法。我们对一些在反欺诈和反洗钱领域常用的图算法,如Page rank、Tarjan、Kosaraju,实行了逻辑封装,由此,使用者只需要在知识图谱中框定某个范围,针对这部分特定的数据,设置相关参数,再运行对应的图算法,即可看穿草蛇灰线,洞察洗钱路径或犯罪团伙成员等重大隐秘信息,帮企业大大降低风险,更可为社会、经济安全筑起一道保护墙。
▲揭开洗钱团伙真面目的模型
实际案例:
能源互联网企业安全管控
背景:一提起“事故”,所有的企业肯定都避之不及,而由于人员操作不当所引发的人祸型事故,更堪称是企业的心腹之患。正因此,某家大型能源互联网企业与竹间智能合作,希望借AI之势,将风险与损失降到最低。
痛点:原本,该企业有心将散落在不同系统中的安全类数据及资料,包括作业计划、违章记录、事故案例、安全规程等,进行统一采集和汇编,深层次挖掘其价值,无奈的是,缺乏相应的技术手段,光靠人力远远达不到理想效果,成本还贵得离谱。
解法:竹间利用Gemini平台打造的方案赢得了对方的青睐。它可从巨量非结构化数据中自动采编、解析、抽取关键信息,构建安全管控的知识图谱,为违章判别、事故原因分析、风险隐患关联等工作提供辅助决策支持。同时,它还能建起知识门户,统一完成智能搜索、管理和应用,实现事前预警、事中处置、事后总结的端到端闭环,化危机为转机。
迄今为止,无论企业客户还是研究机构,对于Gemini平台都给出了不俗评价。就在九月份,点评网站“字母点评”根据企业各级使用者的真实反馈,将Gemini选入“2021·最佳知识图谱平台TOP10”榜单。同期,在中国社会科学院信息化研究中心、中国科学院《互联网周刊》、eNet研究院等单位主办的论坛上,Gemini又赢得了“2021认知智能创新产品奖”。奖项接踵而至,源于千锤百炼的实力。(详情请见下方“精彩推荐”中《荣誉墙 | 双榜提名!Gemini知识工程平台获赞!》一文)