让AI读懂人的喜怒哀乐?百度都没敢做的事情,这家创业公司已经有了成果

竹间智能 | 2017-08-15

2013年上映的美国电影《Her》知名度不算太高,但在近两年人工智能的热潮下,它被提及的次数越来越多。

在很多投身人机交互研究的工程师和研究员心中,这部电影描绘了他们心中的理想:拥有迷人声线、温柔体贴而又幽默风趣的人工智能系统OS1萨曼莎除了能提供如日程提醒、播放音乐等功能外,还能与用户对话谈心。在情感、智商方面,萨曼莎已与人类无异。

简仁贤是《Her》的影迷之一,2015年8月创业之前,他供职于微软(亚洲)互联网工程院,任副院长一职,负责领导微软小冰及小娜的产品技术开发,在人工智能、搜索引擎、机器学习、深度学习以及大数据方面都有涉猎并经验丰富。

职业经理人的道路本可稳当地走下去,但简仁贤却选择离开创业,他的目标是将“萨曼莎”变为现实。为此,他选择自己成立公司,力图将图像、语音、文字的人机交互融合,专注情感情绪识别,打造一家基于情感人工智能的人机交互公司。

于是,2015年下半年,竹间智能成立了。

根据简仁贤原本的设想,三者融合的界面应该在创业五年之后能做好,其中三年时间打磨技术,两年时间落地,因此,第一笔融资至少要支撑公司运转三年。

但现在,简仁贤的计划必须要做出改变了。

被改变的计划

与深网见面的那天,简仁贤迟到了,他的上一个约会是与投资人会面。约定时间过后二十分钟,简仁贤端着一杯美式咖啡走进会议室。接下来,他要接受包括深网在内的四家媒体两个小时的采访。

忙碌的状态在今年会一直持续。

“下半年会很忙,会提供很多解决方案。我们每周、每个月都会有很多新的大型用户来找我们合作,所以下半年会更加着重在商务的拓展,还有解决方案和应用的落地这两件事情上。”

按照简仁贤原本的规划,商业拓展本应在2018年才会启动,但客户及技术发展的需求让简仁贤决定加速。

改变发生于去年年底。

“我刚开始只是一股脑非常想要完成电影《Her》那样的场景。后来发现我们光做技术达不到那样的效果,一定要到行业里去应用。因为只有到行业里去应用,才能够拿到真实的用户使用数据,对你的模型才能做更进一步的精进。”

第一个被验证可以落地的垂直行业是电商,由第一个案例总结出的经验,随后被应用到金融行业中。与金融行业打上交道只是缘于巧合,但在与金融行业打交道的过程中,简仁贤发现了金融机构对于人机交互的强烈需求。

“传统的金融机构备受压力,所以他们想要用我们一开始开发的对话及情绪情感技术,让他们的用户更能够贴近他们。”

依赖基于图像、语音和文字的情绪情感识别技术,竹间智能打造的人机交互系统与传统问答系统相比具有明显的特点和优势。

传统问答系统本质上需要依赖模板维护,系统通过识别用户问题中的关键词给出选项,并未真正实现人机对话,体验不佳,且维护成本高昂。竹间智能研发的交互系统则能够基于语义理解、语音和图像的情绪理解,真正理解用户的意图,快速给出准确的回应,并根据用户当前情绪,适当予以疏导。

简单地说,竹间智能的人机对话系统更像一个真正的人。虽然要达到《Her》中的情景仍有很长的路要走,但相较传统问答系统,竹间智能的成果已往前一步。

三位一体攻克情绪识别

竹间智能团队目前语音、图像、语言三个方向的团队人数正在趋于平均,语义理解和情绪识别是团队攻克的两大技术方向,其中,简仁贤尤其喜欢提及竹间智能基于图像的情绪情感识别技术。

如何让机器辨别出人的喜怒哀乐?传统的方法是将人的表情分解成不同的部分,基于不同部位的表现计算出一个可能的表情,竹间智能则是利用深度学习的方法进行识别。

竹间已经能够对包括开心(Happy)、生气(Angry)、哀伤(Sad)、惊讶(Surprise)、害怕(Fear)、反感(Disgust)、轻视(Cotempt)、困惑(Confused)、中性(Neutral)在内的9种人脸表情情绪进行准确识别。此外还有22种人脸的相关属性,包括性别、是否佩戴眼镜、头发长度、胡子样式、肤色、发色、年龄以及皮肤质量等。语音的情绪识别则是基于音频、声波,结合深度学习的方法进行。再结合对文本的22种情绪识别,就构成了完整的对人类的多模态情感情绪识别判断。

同时对语音、图像及文字的情绪情感识别进行攻坚,对于一家人数在150人左右的创业公司而言,并不是一个容易达成的目标。但简仁贤认为这是必须要做的事情。

选择这条路径,是基于简仁贤对人机交互未来发展趋势的判断。

“为什么竹间要做的是人脸情绪情感,再加上语义的部分合起来做。我个人坚信,在未来的2到3年,在人机交互里面会成功的公司,一定是具有三个人机交互的能力的,就是视觉,语音的情绪,还有语言。三个要同时具备,如果只是一个集成商,要把这三个技术集成是做不到的。即使做到,也是很碎片的。”

设想是好的,但现实瞬息万变。

两年前简仁贤创业时,人工智能还没有今天这么热。现在,人机交互是当前人工智能热潮中的热门方向,巨头如BAT均已有所布局,赛道上的创业公司也为数不少。

竹间智能面临的已经是一个竞争激烈的市场。

蚂蚁与大象

竹间智能北京办公室位于五道口的一个写字楼内,距离简仁贤上份工作的地点不到三公里。而人工智能也是一个巨头与创业公司近距离搏杀的领域,在技术、人才等各方面,创业公司的资源均不占优,巨头们均重金投入人工智能的背景下,如何以小博大,是摆在竹间智能面前的问题。

从巨头出来的简仁贤对此倒有些不以为意,因为在他看来,大公司AI技术规模化会非常非常慢。

“我自己是在大公司出来的,我在大公司干了二十年,就是他们规模化慢。小公司是很容易规模化,因为我们很专精,我们马上就规模化,标准化。大公司要做标准化,小公司如果说花一年,大公司要花三到五年才有办法标准化。”

人工智能是一个需要长期投入研究,并极依赖数据量的行业。在资金储备上,竹间智能已经完成B轮融资,而在数据量上,简仁贤认为,“大公司有数据是个迷思”,因为“在解决AI问题的时候,(关键在)有没有适当的、合适的、高质量的、能学习的数据。这个数据如果不是能学习的,你再多也没用。”

为了做图像情感情绪识别,竹间智能通过购买、收集等方式积累了百万级的图像数据量,并通过外包团队对其进行了精细的标记。而在应用层,通过与垂直行业客户合作,其可以获得特定领域的准确数据。因此,简仁贤认为,身为创业公司的竹间智能在数据上并没有劣势。

竹间智能目前着力的落地场景是金融、电商及IoT,《Her》激励着研究人机交互的工程师和研究员,激励着简仁贤。不过现在,竹间智能真正同时落地三种识别技术的场景不多,技术的进步空间很大,尤其在语义理解上,竹间智能接下来会投入更多人力。

面对可以预见的激烈竞争,简仁贤颇有自信。在他看来,人工智能的热潮里,创业公司的机会很大。

因为“大公司不可能为其它需要AI场景的公司做定制化服务,在AI的领域里,只有靠小公司才有办法在特定领域里做出来一些场景。”