想拥有电影《Her》中萨曼莎一样的机器人,她起码得知道你现在想哭还是想笑

竹间智能 | 2017-08-23

电影《Her》中的萨曼莎,几乎是如今人工智能科学家们最推崇的对话式人工智能。

对于如何打造一个既有温度又很靠谱的AI助手,她甚至可以代表所有想象中的对话式人工智能的最好状态。

萨曼莎有多么的美好?这样的问题已经不是只有我在这样说了,我在百度活动上听DuerOS的负责人说过,在很多音箱初创公司听他们的老板们说过。那天我在和竹间智能的创始人兼CEO简仁贤聊天的时候,他又跟我说了一次。

创立竹间智能之前,简仁贤的身份是微软(亚洲)互联网工程院的副院长,在任期内,他主要负责领导微软小冰和小娜的研发。

2015年8月,他离开了工作了20年之久的微软,创办了竹间智能科技

他自己总结自己在微软的那段经历——“我自己是从大公司出来的,我在大公司干了二十年,就是他们规模化慢。小公司是很容易规模化,因为我们很专精,我们马上就规模化,标准化。大公司要做标准化,小公司如果说花一年,大公司要花三到五年才有办法标准化。”

竹间智能的英文名是Emotibot,其实就是Emotion和Bot的缩写,可以理解为有情感的机器人。在创立之初,竹间智能的愿景是建立一个有温度、靠谱的人工智能,就像《Her》中的萨曼莎一样,但这种情感计算的机器人不是简单的通过文字的自然语言理解,而是通过图像识别面部表情、语音的音调以及最基础的文字自然语言处理

这看起来更像是一个正常人判别别人情绪的思路——察言观色听声调,而不是简简单单的通过文字分析

这不是我第一次和简仁贤见面,去年PingWest品玩举办年度活动HAY!大会期间,我正好也负责对接竹间智能。那次是我第一次看到竹间智能所展示的基于图像、语音以及文字的情感识别系统——通过大屏幕上的视频,它的机器人准确分辨出了美国大选辩论中“两个表情包式”的竞选人的面部情绪:

“他们是中性情绪,还是高兴,还是悲伤,还是生气、或是困惑?一切都在瞬时中完成对于视频内容的判断。”

简仁贤和我这次见面的时候,他已经创业两年。这次见面有一个契机——就是在一个非常苛刻的大客户面前,他们客户测试的竹间开放平台所提供的情绪识别能力已经超过了Google Cloud API。

这代表着两重意义:一方面简仁贤认为竹间智能所做的东西已经有了很大进展,希望和大家有一个分享;另一方面他们的技术已经越过了产品转化线,公司策略发生了调整,现在他希望他们的产品被更多的人知道。

忙碌的情感计算

简仁贤说,他们下半年会更忙碌。

“我们的技术方面都已经没问题了,剩下的是如何把技术和产品应用到合作伙伴里去,所以会跟着它把这个东西落地,会帮它落地。”

竹间智能的团队大概在150人左右。在过去两年,竹间智能一直在做图像标注以及数据方面的积累。

主要是因为在全球范围内,基本没有多少能拿出来就能用的多模态情感计算相关的训练数据,所以做多模态情感计算识别方面的公司也并没有几家。

竹间智能的方式是通过自己制造、标注积累这方面的数据,竹间智能的标注点大概上千万,全部都是由人工进行标注。这些工作交由外包团队来做,但竹间智能要做训练和引导,不一定是每个人标注的都能用。这方面竹间智能累积了两年,有超过100万张精确标注过的人脸情绪图片,打造了一个多模态情感数据库。

“数据的累积,数据集的累积,训练集的累积,测试集的累积跟合作伙伴使用的反馈的累积,再加上我们算法的迭代,两年内我们提升的比较多。就是在情绪情感的部分,这是我们的一个核心项目。也是最底层。”

多模态情感计算的融合

让机器读懂人的情绪?传统的方法是将人的面部表情做一个分区分解,然后分配权重,基于不同部位的表现计算出一个可能的表情。

比如嘴唇上扬,笑得权重就会变高;眼睛瞪大惊讶的指数就会变高;根据一定的权衡算法,比对出一个差不多的结果。

但理论上一个做出笑的表情的人并不一定在笑;一个看起来在哭的人其实也可能是笑哭了。如果要论结果精度,实际上还是存在一定的偏差的。

竹间智能基本上也用到了不同部分分配权重的这种基于规则式的办法,另一方面就是加入了深度学习的方法进行识别,比如学习动作变化的概率。

简仁贤介绍到,竹间智能对人脸识别进行情绪情感的辨识和决策依赖于9种情绪和22种属性,9种情绪是开心(Happy)、生气(Angry)、哀伤(Sad)、惊讶(Surprise)、害怕(Fear)、反感(Disgust)、轻视(Cotempt)、困惑(Confused)、中性(Neutral);22种属性包括性别、眼镜与否、头发、胡子样式、肤色、年龄等。

之所以说在测试结果方面超越Google,一方面是指——竹间智能提供了9种情绪的识别,而开放出来的Google Cloud API只能识别4种。

简仁贤提到,在他们这位客户严格的测试环境下,他们提供的能力所表现出来的结果是全面碾压Google的。

竹间智能的客户使用香港中文大学发布的Expression in- the-Wild (ExpW) Dataset 数据库作为测试集,对比过竹间与Google表情识别技术。最后,竹间智能可以识别9种情绪高于Google(4种);人脸识别检出率达到96.68%,高于Google(81.52% );表情识别的准确率达到81.57%,高于Google(70.84%)。

“这些都是基于公开发布的API接口进行测试的结果,而且严格比对的话竹间的能力、精度是比竞品要高很多的。”

不能直接成为萨曼莎,现在要边商业化边进行多模态的融合

综合语音、语义以及图像三种来判断一个人的情绪,最终完成《Her》萨曼莎的场景,这是简仁贤一直就在做的事情。

在两年前离开微软的时候,或许简仁贤就已经想好了。

虽然目前的微软小冰也提出过情感计算框架这件事儿,但在简仁贤的20年大公司经验哲学里,他认为大小公司做事儿的基因从来就不同——“在AI的领域里,只有靠小公司才有办法在特定领域里做出来一些场景。因为大公司不可能为其它的公司需要AI场景的做定制化服务。比如说Google,就有一个API,你来用吧。”

“其实我们碰到的竞争对手全部没有大公司的,没有BAT,也没有微软和其它大公司。为什么?因为很多的这些大公司,它要做AI的时候不会找这些大公司帮它服务,因为这些大公司内部还没有准备好呢,只是还在喊口号。它的产品根本还没有到规模化。”

而当记者谈到“国内百度还是属于一个人工智能的标杆性的企业”时,简仁贤先是愣了大概有十秒,最后勉强回答了个“恩,是吧……”

然后补了一句——“好吧,我只能说我们碰到的很多合作伙伴里,我们的竞品名单根本没有百度。”

简仁贤开始创业的时候,其实是想直奔萨曼莎那样的最终场景,在明年启动商业化。后来发现光是做技术是达不到那样的场景的,竹间智能改变策略到行业里做应用——“只有进入到行业里才能拿到真实的用户数据,才能对模式进行精进。”

竹间智能最先进入的领域是电商。他们的机器人不同于传统的智能回复机器人——在你提出一个关键词问题后,给你推出一二三四五个选项——“根据您的问题,您是不是在找这个?”

而是通过判断你的情绪和意图让回复更有人性,比如用户在对话框里打了一大长串字“我昨天xxx时候买的xxx订单的什么东西,打开就是坏的,根本不能用,什么玩意儿啊”,竹间智能的方法是——第一个先判别情绪,如果用户情绪是极端不满的,根本不用理解你讲什么,先给你安抚道歉;之后再去判别用户的意图,用户的意图是要退货,我就不用管那么多了,直接转业务对接退货。

从电商行业里学到一些实践经验后,竹间智能发现金融行业也有类似的需求。

“就像刚才提的例子,很多金融的客户会想到要用情感识别来决定如何跟用户对话。这对我来讲比原来想象的还要快。我原来定的是做两年以后再开始落地,但是发现现在市场上的需求增多了,包括我们这周谈的三个大客户也是一样,都是奔着情感来找我。”

以后这些算法也可以跑到手机上、跑到平板上,甚至在摄像头的模组里都可以直接使用,到时候就会触达更多的手机客户。

“大公司的数据是个迷思”

竹间智能为了实现一个“萨曼莎”那样的场景,要分别对语音、图像及文字的情感识别进行研究。

不管是从技术上,还是人员规模上、资金上,任何初创公司和大公司都不可同日而语。

不过,简仁贤反而对大公司从不担忧。一方面是上文提到的大公司在AI方面的规模化的问题,第二方面简仁贤认为——“大公司的数据从来就是个迷思。”

大公司很多搜索的数据,不一定能用在真正精准的商业化落地场景的模型上,它不能精进,不能被称之为高质量的数据。

而且对于视觉、语音、语义的三者融合,是不能通过三个集成商然后最后再组合的——“集成和融合是不一样的,融合更好。”

而坚持这样做,同样是认为这样的一个交互界面会成为一门大生意。

“我原来的计划是三者融合的交互界面应该是在五年的时间——三年的时间先要把技术打磨好,所以我当初融的第一笔资金至少可以活三年,三年打磨,两年来落地。可是我当初的这个计划改变了,我们做了一年多之后,发现可以落地了,所以我们提早落地了。我现在觉得图像、语音、文字的人机交互融合,可能在未来的两年就可以实现。”