拿什么拯救你,智能家居的未来?

竹间智能 | 2016-12-01

人机围棋大战虽早已落下帷幕,但人工智能依然是人们的热议话题。而最近热播的美剧《西部世界》又将人工智能话题带到了一个新的高度——剧中人工智能技术已经发展到了前所未有的成熟地步:人类不仅造出了外观跟人类一模一样的机器人,而且人类可以与机器人采用自然语言的方式进行对话、沟通情感等等,全程人机的对话非常自然、毫无违和感。

虽然现在的人工智能还没有剧中这么成熟,但“高逼格”的人工智能,其实早就在某些感知能力方面超越了人类,比如语音识别和图像识别等。它还在某些行业领域产生了颠覆性的影响,比如Google采用人工智能算法RankBrain 提高了搜索的准确率;滴滴出行采用人工智能算法, 动态规划车辆, 进行调度;科大讯飞采用人工智能算法对发音标准进行检测,机器对学生的英文和中文发音效果检测准确率甚至超越了专业的老师;IBM 的Watson 已经在美国安德森癌症中心(M.D.Anderson Cancer Center) 上岗,被誉为“未来最好的癌症专家”和“医神”……

但看似无所不能的人工智能技术,也曾在若干行业中屡屡碰壁。比如Siri等语音助手的激活率和使用率并不高,Google Glass 等智能穿戴设备并未掀起新一波的移动设备浪潮等。造成这一局面的原因是什么呢?

有句话说得好:“场景不对,努力白费”。在天生为触控而生的手机平台上,人工智能技术是被限制的,语音交互并不符合用户的心智模型;在可穿戴设备上,没有强大的计算平台,而且可穿戴设备大多依附于手机移动终端,导致人工智能技术的效果大打折扣。那么什么使用场景才是比较适合人工智能的呢?或许Echo给我们指出了一条新的方向,那就是智能家居。

传统的智能家居仅是实现了联网化, _并没有达到“智能”,所采取的用手机app 控制家居的方式,只是将多个遥控器或者开关变成了多个app。想象一下你家里的卧室和卫生间装了飞利浦的灯泡,装一个app;装某智能插座,又要装一个app。你半夜起来上厕所,想要开灯,还要摸手机,探索着打开app,判断哪个才是控制卫生间的,半睡半醒中一不小心还会打错开关,影响家人的睡眠,这真的是智能家居“急人所急想人所想”,还是让用户更“急”呢?

怎样才能打破这种尴尬局面呢?将人工智能技术与智能家居结合起来,或许会是一条不错的路径。人工智能与智能家居的结合,带来的巨大变革主要有两个:一个是新的交互方式,一个是新的感知形式。新的交互方式——人机对话,是人工智能给智能家居行业注入的最大活力。

人们可以通过自然语言的方式完成与智能家居进行对话、表达需求、实现功能的过程。这一交互模式大大提升了用户的操作效率,使用户摆脱了物理层面的约束,可以更加自由地操控家居。而智能家居无屏或者小屏的形态,也有助于用户养成新的交互习惯。同时,在家庭这种封闭、干扰较少的场景下,语音、图像等信号被硬件捕捉后,可以达到最好的识别效果。此外,在这种私密性较高的场景下,用户不容易受外界干扰,会用自然语言真实地表达自己的需求。

人工智能给智能家居带来的另外一个变革是新的感知形式。

人工智能与大数据的连接是最为紧密的,只有海量的数据才能使机器学习的算法变得更为精准,从而形成算法到数据的正向循环。现在每个家居产品都有若干的sensor(摄像头、麦克风、距离传感器、温度传感器等等),它们能看到世间万物、能听到袅袅余音、能感知到环境的变化…… 捕捉到这些数据后,它们不断地上传数据为人工智能算法的精进提供“材料”。这些感知模块就如同人类的鼻子、眼睛、耳朵、皮肤,能多维度地了解用户当前所处的场景,因此可以为用户提供更加场景化和个性化的服务。

有了新的交互模式和感知形式,智能家居就需要一个类似人类大脑的中枢来分析和决策。这个中枢就是对话理解系统,即:让机器(包括智能家居)能和人类正常的沟通,理解人类表达的意思以及所处的环境,综合判断并完成用户的需求。

这个中枢就是对话理解系统,即:让机器(包括智能家居)能和人类正常的沟通,理解人类表达的意思以及所处的环境,综合判断并完成用户的需求。对话理解系统促进智能家居完成的需求包含两种:第一种是显性需求,第二种是隐形需求。

显性需求就是用户发出什么样的指令,家居就完成什么样的功能,属于被动式的服务。比如:在使用智能电视时,指示“播放中央一台”、“看刘德华的电影”;在使用智能音箱时,指示“播放郭德纲的相声”、“听周杰伦的音乐”等。这种需求采用“语音识别+垂直领域的语义理解+第三方服务”的形式即可满足,这是一种初级智能的表现。隐性需求即:由智能家居对用户的对话历史进行分析,了解用户的各种属性、喜好后,结合用户的指令进行更加个性化的服务。

举个简单的例子。人工智能对话理解系统通过对以往对话的分析,了解到用户喜欢孙燕姿。那在用户想听歌时,智能音箱可以主动推送孙燕姿的专辑给用户,当用户打开智能电视时,出现的第一个画面是与孙燕姿演唱会相关的电视节目等等,这是相对高级的智能表现。

因为之前国内外在对话理解方面的算法还不够精准,所以目前很多智能家居还停留在初级智能、甚至初级智能未完成的阶段。但可喜的是,2016 年国内人工智能技术突飞猛进,其中深耕于人机对话理解、情感识别技术的人工智能公司竹间智能科技(Emotibot)就取得了很好的成果。

Emotibot的对话理解系统,可以无缝的plugin到任何智能家居上,使智能家居精准地理解用户意图。这个系统不仅更够准确判断用户表达的意思,还能通过对用户对话的提取和分析,建立多达40个维度的用户画像属性,如喜欢的歌手是孙燕姿、喜欢的演员是刘德华、喜欢凉爽的天气等。通过这些用户个性化标签,可以打通整个产业链,为用户提供服务:从音乐收听、到专辑推荐、到演唱会、到观看视频,一一满足用户个性化的需求。

基于用户喜好的个性化推荐是通过历史数据分析而得,那如何分析用户当前状态,从而更好地满足用户需求呢?情感计算就是人工智能理解人类更加高级的手段,智能家居(机器人)通过理解人类的情感,为人类提供更好的服务。

当人们下班拖着疲劳的身体时,会想听到一首舒缓的歌曲来缓解身心疲劳。此时用户跟音箱说“来首歌吧”,智能音箱可以通过对用户当下语音和文字的情绪的分析,了解到用户当前的情绪是“疲惫”,这时它就自动播放“舒缓歌曲”。

当人们失恋时,对智能电视说“失恋了看什么电影好?”,此时智能电视能通过语音和文字的情绪分析,了解用户当前的情绪是“哀伤”,就为用户推荐失恋励志片《失恋三十三天》,并可以对用户说“分手了就做回自己,一个人的世界同样有月升月落,曾经美丽的瞬间,就把他归为记忆吧”。这时的智能家居不仅能提供服务,还能与用户进行情感对话,帮助用户走出失恋阴霾。

了解人类的情感,是打破冷冰冰的人机对话之法宝,也只有在理解人类表达的意思的基础上,加上对人类情感的了解,并针对情感作出不同的反应,才能让人类更加信任、依赖包括智能家居的所有Bot,建立起双方之间的情感纽带。

或许已经有少部分公司也可以实现了较准确地识别用户表达的文字意思,但能准确识别用户情感的公司基本找不出第二个。Emotibot 是首家致力于让机器了解人类情感的人工智能公司,其采用的多模态情感识别技术是基于前沿的深度学习而产生,是让机器理解人类情感的颠覆性技术,由Emotibot与情感计算的概念提出者Picard教授联合研发出来的。

多模态情感识别技术主要包含三大模块:图像情感、语音情感和文字情感。这三个模块,分则能独立判断用户单一维度下的情绪;合则能综合加权判断用户整体的情绪。

那这三个模块具体是怎么运作的呢?

在图像情感层面,能通过人脸关键点的检测与人类表现情感时的特征进行匹配,从而判断出用户的7种情绪(喜、怒、哀、惊、惧、厌恶、中性);语音情感则是基于深度神经网络,通过监督式学习,提取海量情绪数据的特征,对用户话语中的情绪进行预测(喜、怒、哀、中);文字情感通过超过百万的高质量语料进行情感定义,提取共性特征,进行RuleBase和LearningBase模型的建立,从而识别用户的文字情感。如用户表述“我喜欢一个女孩子,可是每次跟她表白,她不是说别逗了,就是说你有病吧,你说我该咋办啊” ,则文字情绪识别结果:不满、喜好、寂寞、疑惑。目前Emotibot可识别的文字情绪为22种,仍在持续扩展中。

当三个模块协同工作时,则可以更为精准地分析出用户当前的情绪。人类情绪是由多个层面构成的,当用户表达“我很开心”时,在文字层面会识别成“开心”,但是如果图像和声音层面判定用户为哀伤,则会结合三个维度进行加权平均,判定最终情绪为“哀伤”,真正让智能家居多维度地理解人类,让用户惊喜、尖叫。

来一定是个万物智能的智联网时代,智能家居不仅能感知世界,还能理解人类,进行判断和决策后,为用户提供各式各样的功能和服务。畅想一下不远的某天,当你起床时,智能窗帘能识别你的起床动作并自动打开,让你看到湛蓝的天空;智能音箱根据你的习惯与需求,播放你感兴趣的体育新闻、天气预报以及路况;智能电视在你打开电视之前为你存下了想看却没来得及看的球队比赛;智能空调根据外界温度和你的习惯,自动调到了最适宜的温度;甚至有一个实体的Bot,就像大白一样,了解你的情感和语言,懂你所想,做你所想。

而这些场景的实现因为Emotibot的出现变的越来越有可能,Emotibot通过免费开放前沿的人工智能技术,希望能与整个智能家居产业的上下游厂商一起实现家居的全智能化,让畅想中的智能未来更早到来。