写在前面当中国人还在为哪款手机更好而苦恼时,智能音箱已经悄然渗透到美国人的生活中。
在 2017 年 7 月的亚马逊 Prime 会员日,它的 Echo 系列智能音箱销量是去年同期的七倍多。2016年下半年,Echo累计销量超过700万台。市场研究公司日前发布的智能音箱市场研究报告预测,今年美国智能音箱月活跃用户将达到3560万。这个数字已经超过美国总人口的十分之一。
智能音箱及其所代表的趋势不能再被忽视。智能音箱值得吗?智能音箱的未来会是什么样子?本文将带大家观察国内外智能音箱市场的火爆状态,分析其背后的技术,并对趋势给出我们的分析判断。
为什么是风暴?预计到 2018 年,30% 的人机交互将通过自然语言对话完成 [1]。而基于远场的自然语音交互正是催生智能音箱市场的重要需求。
以一个普通的听音乐看视频为例:
现在用手机听音乐,首先解锁手机屏幕,打开某个音乐APP,搜索你想听的歌曲,然后点击播放;如果变成语音交互呢?你只需要说:好久不见演陈奕迅。
如果恰好是星期天晚上 10 点,你想看看最新一期的极限挑战。如果是现在,需要切换到手机上的视频播放软件,或者打开电脑输入视频网址,然后搜索极限挑战第三季,最后选择最新一集播放;如果你切换到语音交互,你只需要说:播放终极挑战第 3 季的最新一集。
与上述场景类似,在很多情况下,语音交互的效率明显高于 GUI 交互。业内普遍认为,智能语音交互将成为未来人机交互的新方式。正如乔布斯用触摸屏打败了传统手机键盘一样,语音交互也可能颠覆图形界面交互。而智能音箱已经成为智能语音交互的重要载体。
2014年11月,亚马逊推出基于语音交互的智能音箱Echo,打开了智能音箱市场。2016年,Echo的销量数据一路飙升,一举突破500万台。亚马逊获得了先发优势,在美国市场积累了大量用户。
亚马逊率先尝试并取得了巨大成功,证明了将智能音箱作为智能语音交互载体和智能家居入口的可行性和正确性。各家企业纷纷进军智能音箱市场,不仅是为了响应智能语音交互时代的号召,更是不甘于亚马逊的独家用户和市场红利。
据CIRP、RBC数据,自2014年11月推出以来,亚马逊旗下包括Echo、入门级和便携Tap在内的智能音箱累计销量超过1000万台,销售额达到8-10亿美元。
根据市场研究公司近日发布的智能音箱市场研究报告,今年美国智能音箱月活跃用户将达到3560万,比去年增长128.9%,其中亚马逊的 Echo 将达到 70.6% 的市场份额,遥遥领先于排名第二的 Home 的 23.8% 和联想等其他品牌。今年将有 6050 万美国人每月至少使用一次这些语音助手。这个数字已经超过智能手机用户的1/4,接近美国人的1/5。[2]
看国内智能音箱市场:
根据2016年年报[3],2016年叮咚智能音箱的总销量为10万台。根据在线淘宝(含天猫)销售数据的跟踪调查,智能音箱整体月销量不足2万台。[4]
与国外智能音箱庞大的用户群相比,国内智能音箱市场显得“小”值得一提,但产品数量也不逊色。
乱花渐成迷人眼:智能音箱产品介绍
智能音箱在传统音箱的基础上增加了一些“智能”功能,主要有以下几个方面:
通常内置无线射频芯片或射频模块,可以通过WiFi上网。
支持语音交互,无需双手即可控制音箱,一般也支持少量按键操作。
访问来自各种音乐提供商的丰富音频内容,例如音乐库、有声读物等。
提供丰富的互联网服务,如外卖、打车、购物、充电等,满足日常生活中各种场景的需求。
实现对各种智能家居设备的控制,使用户能够通过与音箱对话来控制家电,成为智能家居控制的核心。
目前市面上主流的智能音箱产品为无屏智能家居助理音箱。以语音交互技术为核心,旨在成为智能家居的控制中心。亚马逊的Echo、京东的叮咚、阿里的天猫精灵等都属于这一类。
智能音箱代表大比拼海外方
海外方以亚马逊、苹果、微软等四款智能音箱为代表。这四款智能音箱的功能差别不大。它们都支持个人生活助手和智能家居控制等主要功能。语音助手。
亚马逊入市较早,致力于打造开放的Alexa开发平台,如今Alexa几乎无所不能,成为亚马逊的优势之一。
Home 的优势在于能够检索信息和进行对话式聊天。4 月份还添加了一项新功能,以识别谁在说话并相应地个性化响应,最多支持六种不同的声音。谷歌本身拥有完整的内容和应用生态系统,Home 已经连接了一些自家应用和很多第三方应用。在家里,您可以查看您的日程安排,从 Play Music 和 Music、点播或视频播放您喜爱的音乐,并在您的电视上播放(合作)。但是还有很多重要的应用,比如Gmail、Voice和Docs,Home还不能支持。
苹果和微软的这两款扬声器都已经发布,但尚未正式上市。主要关注音乐和音质;微软最初对 Skype 网络电话的支持是一大亮点,但竞争对手的产品更新太快,没有等到推出。亚马逊的 Echo 和 Home 已经支持拨打电话,不过还有一些隐私问题需要讨论。
2017 年 8 月,微软与亚马逊达成合作,以更好地整合他们的语音助手“”和“Alexa”,并且必须有一个未指明的理由才能更好地与谷歌的语音助手竞争。
智能音箱代表了竞争的本土派系
从左至右:天猫精灵、叮咚II、小米AI音箱
上图选择叮咚、天猫精灵、Rokid 和小雅音箱进行对比。目前,国内智能音箱产品同质化现象也很严重。前三款智能音箱的主要功能还是相差不大,而小雅智能音箱主要以内容服务为主,不支持智能家居控制。
语音助手方面,Rokid 采用自研语音助手,叮咚和小雅分别采用科大讯飞和猎户星的语音技术方案,天猫精灵的语音助手整合了和阿里。自行开发的程序。若琪最显着的区别在于它的唤醒词只有两个音节,而市面上其他智能音箱产品的唤醒词大多是三个音节以上。9月新发布的叮咚II支持自定义唤醒词,但实际使用效果有待验证。
智能音箱背后的核心技术 智能音箱的核心需求和一切操作的前提都是语音交互,所以语音交互技术自然成为其核心技术。当然,其背后也有一棵茂盛的人工智能“技能树”。受限于文章篇幅和作者能力,本章只关注语音交互技术。
下图是一个例子。当我们与天猫精灵调情时,与它进行简单对话的语音交互过程涉及哪些步骤?
语音识别
第一步是语音识别(ASR)。智能音箱使用的语音识别技术与手机上的语音助手不同。叫做远场拾音,意思是我们可以在5米以上的距离与设备进行自然的语音对话。
通过远场拾音,人们可以在家中的任何地方轻松与智能设备进行通信。Apple Siri、 Now、微软等语音助手虽然很早就实现了语音识别,但都是近场语音。使用时需要拿出手机,启动助手,靠近你说话。与远场语音拾音相比,体验更好。有很大的差距。
要达到比较理想的远场拾音效果,降噪是很重要的一环。目前普遍的做法是使用算法结合硬件来实现更好的降噪。在硬件部分,通常麦克风数量越多,就越有利于收集不同方向的声音,这样在嘈杂的环境中更容易识别有用信息,实现更好的远场交互效果。现在大部分厂商都采用了6个以上麦克风组成的麦克风阵列技术。只有Home可以通过算法+只有2个麦克风实现良好的远场拾音效果。
语音识别还需要配置一个激活词,通过激活词“开启”语音交互功能(就像开机键一样)。从技术上讲语音智能家居,激活词越短,体验越好,技术难度越高,但同时误激活的概率也越高。然后它变得更高。
语音识别技术的局限性
语音识别技术发展史
语音识别技术的目标是将人类语音的词汇内容转换为计算机可读的输入。2009年以来,随着机器学习领域深度学习研究的开展和大数据语料库的积累,语音识别技术有了长足的发展,语音识别的准确率有了很大的提高。[5]
今年8月20日,微软语音识别系统再次取得重大突破,错误率降至5.1%,大大刷新了原有记录,在语音识别行业树立了新的里程碑[6]。
不幸的是,这些突破更多地适用于您在安静的房间中并靠近麦克风的情况。在噪声或远场识别环境下,错误率仍然很高;面对口音和方言,识别率也有待提高。
自然语言理解
第二步是自然语言理解(NLU),指的是对自然语言的内容和意图的深刻把握。通俗地说语音智能家居,在某些话题上,智能设备可以理解人们所说的话,或者可以将人类语言理解为机器语言。目前,智能设备只能实现肤浅的“理解”,比如将“打电话给小敬腾”和“给小敬腾打电话”这两个句子转换成文字理解为同一个操作。
第三步是自然语言生成(NLG),与第二步相反,将机器的语言转换为人类的语言。
第二步和第三步也可以统称为广义的自然语言处理(NLP)。
自然语言理解技术的局限性
自然语言理解是一个行业问题,也是人工智能的终极目标之一。
今天的自然语言系统通常使用基于统计的方法。所谓统计法,主要是指将单词的统计数据作为“特征”进行分析,输入到计算模型中,计算出结果,最后输出单词和句子。
目前,自然语言理解还处于浅层语义分析阶段,大致包括三个层次:词法分析、句法分析、语义分析。机器对句子的理解只能做语义角色标注,比如标注句子成分和句子中的主被动关系。目前的研究方法大多遵循相同的套路,即通过语料标注、构建模型、训练模型、使用模型,自然语言系统可以实现简单的模型般的“理解”。即使是最流行的深度神经网络,在模式识别上也只是稍微复杂一点,但仍然达不到理解语言的水平。自然语言理解研究主要集中在一些特定领域,
当今广为人知的自然语言处理系统,如苹果 Siri、微软小冰、讯飞听力等,其实并没有真正“理解”自然语言本身。其中大部分是基于文本相似度匹配,以及更高级的应用知识图谱。
语音合成
最后一步是语音合成(TTS),即将文本转换成声音并播放出来,并尽可能地模仿自然的人类语音语调,给人一种真人对话的感觉。
语音合成技术的发展已有200多年的历史,但只有计算机技术发展后才有了长足的进步。近年来,一种新的基于数据库的语音合成方法得到了更广泛的应用。
随着技术的发展,语音合成的复杂度、自然度和音质都取得了不错的效果。目前的研究重点是提高合成语音的表现力(如语气和情感)和多语种语音合成。
其他语音交互技术
以上只是最简单的对话所涉及的核心技术。如果进行更复杂的对话或根据用户分配给智能音箱的不同指令,将涉及更多(以下技术可能重叠):
其中,声纹识别技术赋予智能音箱的能力是让设备记忆和识别用户的身份。在此之上,可以在购物、安全、个性化对话等方面拓展更多应用;在多次来回的对话中会自动记住上下文。用户无需重复唤醒词即可提问,向智能音箱提问。真正实现了接近与人交流的语音交互体验。多轮对话也属于语音技术领域的研究难点主要是基于语音识别、合成、自然语言理解等技术。目前,自然性和准确性有待提高。情绪识别是指设备从声音中听到你当前情绪的能力。生气、悲伤或快乐,然后相应地个性化你的反应。搜索和推荐很容易理解。例如,如果你总是播放某种类型的歌曲,那么下次你让智能音箱为你随机播放一首歌曲时,它可以选择你可能喜欢的歌曲。
多轮会话
至于可扩展的语义技能,是指第三方开发者可以在语音开放平台上为语音助手添加新技能,丰富语音助手的功能。
智能音箱功能现状及消费者调查 虽然智能音箱背后有很多“高级”技术,但这些技术本身仍在不断发展和完善。作为消费者,他们更关心的是技术交付后的实际使用效果。
智能音箱功能现状
截止到9月份,Alexa技能2w多,技能不到600,真正有用的有多少?
2016 Echo 用户调查报告(来自)
据国外研究机构2016年的一项调查显示,Echo使用最多的功能是音乐播放、智能灯泡控制、闹钟设置;在用户至少尝试过一次的功能中,前三名是设置闹钟(85%)。、音乐播放(82%)、新闻广播(66%)。一直是 Echo 宣传重点的“Uber打车”服务,体验率仅为6.3%。
2017年美国智能音箱用户调查报告(来自)
纵观今年美国所有智能音箱用户的调查结果,最常用的功能是一般问答、播放音乐、播报新闻、播报天气、设置闹钟等相对简单的功能。
易观的一份行业报告称,国内智能音箱用户最常用的功能是点歌。
可以看出,虽然从理论上讲,语音交互是一种更高效的交互方式,但由于现实生活场景复杂,语音交互技术还不成熟,目前智能音箱的交互体验无法替代原有的交互逻辑。
听听“消费者”怎么说
为了了解消费者对智能音箱的真实看法,笔者找了一些朋友聊了几句。
十几个朋友中只有两个购买了智能音箱。大多数其他人不知道或不太关注他们。有些人认为智能家电的功能不是很好用,所以短期内不打算购买。.
聊天记录摘录
W朋友是科技产品大师,任何新玩意都会第一时间买来玩。得知他在去年购买了“叮咚”智能音箱,也就不足为奇了。他家还有一个智能遥控器,可以控制空调。尴尬的是,这款与京东合作的智能遥控器不属于京东,叮咚无法控制它来调节空调的温度。他报告的最常用的功能是控制开关(京东的智能插座)和听歌。其他包括设置闹钟、听喜马拉雅山脉和查看天气(但它们用得不多)。其他功能基本没用。他还表示短时间内没钱买其他品牌,
iOS巨头Z今年买了Home(需要英文+梯子才能使用),花钱买了一些配套的智能家居设备。目前,他家可以使用Home,比如投影仪、索尼音箱和飞利浦Hue灯。最常用的功能是控制智能家居、听歌、播放雨声。他说Home带来了很好的用户体验,很智能,音质也不错(当然还是比Bose差);缺点是软件配置体验比较差,相关配套的智能家居设备少,可用的智能家居设备也比较贵。未来,他还会考虑购买小米AI音箱,或者未来他家可能会拥有三台智能音箱。
Z非常看好智能音箱的未来发展:“我认为智能音箱是手机以外的新战场,是IoT的入口,对购买有很强的支撑作用,也是AI最好的载体。虽然最终的商业模式是不确定的。会发生什么,但我认为他会改善人们的生活体验并创造巨大的粘性,渗透到你的生活中,让各种服务、设备成为你的一部分,他在物联网上比在物联网上更方便手机,手机就像我们的器官一样为我们提供了对外界的眼睛和耳朵,而Home提供的体验更近了一步。它把你的家和你连接起来,你只需移动你的手机就能控制家中的一切。口,是信息化与人类融合的重要一步。”
厂商布局智能音箱市场,哪一个是最好的?百家争鸣,各尽所能
各大互联网公司、技术提供商、内容提供商、传统音箱厂商大多基于自身优势布局智能音箱市场。
其中,内容厂商的版权优势在巨头公司(如腾讯、阿里)面前并不明显。
语音交互时代人人争当安卓,智能音箱不是唯一战场
很多人将语音交互系统比作安卓,而语义技能则比作安卓应用商店。第三方语义技能是否丰富会在一定程度上影响智能音箱产品能否占据竞争优势。
百度并没有推出自己的智能音箱,但对它寄予厚望。目标是打造基于语音交互的全新开放平台,将AI技术能力输出给合作伙伴,将自己的语音系统部署到越来越多的硬件产品中。,他们想做“人工智能时代的安卓”。在天猫精灵发布的同一天,百度在“百度AI开发者大会”上宣布,自有语音助手将作为智能语音生态链的基础。
但不只是百度提出了这个想法?
对于各大厂商来说,目前开放的语音平台(包括语音交互系统和语义技能)已经成为一种标准,“是”不再是优势,“否”可能会成为巨大的劣势。与此同时,语音交互系统之战已经烧到了智能音箱以外的战场。智能家居硬件、耳机、手机、车载系统、机器人等随处可见。语音交互系统。
截至2017年初,覆盖超过1亿台智能设备,即将落地,其工程副总裁表示,“我们的最终目标是未来人们可以与任何设备对话,它可以为你做任何事情”;而 Alexa 也以可怕的速度渗透到整个电子市场。据不完全统计,截至 2017 年 9 月,已有近 4 万种硬件接入 Alexa。
相比之下,国内厂商的语音开放平台和语音技能商店大多刚刚上线,开放程度不一。与它们连接的第三方硬件相对较少,语义技能未来的发展仍不明朗。在中国语音交互市场,科大讯飞(市场份额超过70%)和百度(市场份额低于科大讯飞,但AI技术更全面)目前优势明显。
另一方面,移动操作系统的另一霸主苹果在2011年率先推出语音助手Siri,颠覆了用户使用手机的交互体验,引领了手机语音助手的风潮。但从那以后,Siri 除了偶尔调侃一下,似乎就不太实用了。现在,面对层出不穷的语音开放平台,只能在封闭的iOS中运行的Siri显得有些沉默。
看似智能家居布局,却成为智能音箱混战的快车道
与大多数厂商先推出智能音箱,再推动智能家居设备接入的路线不同,小米很早就开始打造智能家居产品,现在推出智能音箱更像是顺势而为。
不少米粉将米家及其系列家居产品称为“小米家庭桶”,可见小米近年来积累的丰富的智能硬件资源。米家虽然推出的时间不算早,但它依附于小米生态链,整合了小米的一系列智能产品和数十家生态链公司的智能家居产品,形成了较为完整的智能家居体系。截至今年5月31日,基于小米MIOT平台的联网设备总数已超过6000万台。当时很多人不明白小米为什么要做智能家居产品。现在智能音箱市场火爆,大家都争相成为智能家居的入口。在大家还在忙着连接更多的智能硬件设备的时候,小米设置的游戏已经开始了。.
智能音箱的未来在哪里?语音交互势在必行,但是...
根据最新版本的技术成熟度曲线,User(会话式用户界面)目前从技术诞生的推广期进入高期望的高峰期,距离成为主流应用还有5-10年的时间。报告将CUI列为2017年十大技术趋势之一,报告[7]表示“随着技术能够读懂人的思想,对话系统将带来下一代信息技术变革。企业架构和技术创新领导者必须充分利用当今可行的用例,同时探索未来对话系统的机会。”
目前CUI的主要载体是手机、音箱和耳机。
对于厂商来说,智能音箱的布局其实就是形成入口和输出服务,同时控制语音交互背后的用户和数据。智能音箱只是目前最合适的载体之一。未来,家里所有的电子设备都可能配备语音交互模块。届时,您将可以直接与电视、冰箱和其他设备通话。冰箱等设备上已经有很多落地案例)。
对于用户来说,语音交互确实更符合人的本能。如果语音交互的统一入口可以省去从各个应用单独获取相应服务的麻烦,那么很多操作就可以方便高效的一句话完成。没理由。但现阶段的智能音箱真的能“解放双手”吗?
技术尚不成熟,谈入门为时尚早
不管厂家设置如何,智能音箱本质上都是基于语音进行人机交互的智能硬件。播放音乐是主要(几乎只有传统音箱的一)功能,但对于智能音箱来说,音质只是一个附加选项,用户更看重人机交互的体验,以及提供的服务数量)交互和品质的背后可以支持兼容,人机交互体验、线上互联网服务和线下智能家居系列产品缺乏,智能音箱的进入目标难以实现。而语音交互技术是关键制约因素。人机交互体验。
从技术现状和实际产品效果来看,语音交互技术仍有待提升。最关键的自然语言理解还有很多困难等待突破,各家公司都在苦苦探索。智能音箱的实际使用势必会受到技术的限制。已经发布或上市并可以点名的智能音箱产品暂时没有留下。使用中有“说不如做”的尴尬场景。
总有智能音箱厂商说“用户还没有养成语音交互的习惯”“用户还没有准备好”,用户真的是在撒谎,但是人要养成习惯,你先让语音交互好用吗?
要说语音交互存在泡沫,主要是因为各大厂商对语音交互技术成果的盲目夸大。比如家家的语音识别准确率都达到了97%以上(都是没有前置条件和测试数据集的语音识别率就是个流氓)。在自然语言理解出现重大突破之前,解决噪声问题和提高远场语音识别率是重中之重。
智能扬声器还缺少什么?
智能音箱也缺乏参与交互的大屏幕。研究表明,在人类感知系统中,视觉获得的信息占60%以上,听觉获得的信息约占20%;而人们在交际中所表达的信息,55%来自肢体语言信息,38%来自声音信息。
虽然阿里凭借购物场景的优势,为天猫精灵配备了声纹购物功能,但实际上,网购是离不开屏幕的典型应用场景。几十秒就能读完的产品描述和评论,智能音箱可能要几分钟才能读完,更何况眼见为实,听觉是虚假的。有多少人敢不看图只听几个产品说明就下单?当声音出现在舞台上时,屏幕不会消失。融合语音、视觉和肢体动作的交互方式,或许更有可能成为下一个时代的主宰。
在IO 2017,一个简单的使用Home唤醒电视并显示信息的演示,智能音箱和智能电视的深度融合或将成为新趋势。
此外,语音助手需要可视化。我们太愚蠢了,不能对空气和圆柱体说话。在我们愿意与语音助手进行更多交流之前,我们需要一个能够提供视觉或面部反馈的存在。
智能音箱的中国问题:智能音箱能否重现安卓在中国的盛况?
我的回答:没有。语音助手对云的依赖度很高,需要厂商提供服务,而AOSP的核心代码在本地,可以搭建分支。很难想象国产智能音箱最终都使用了同一家公司的语音助手。
那么中国的智能音箱市场会是什么样子呢?
智能音箱是硬件、软件平台和云服务的组合。他们需要在这三个方面有很强的实力才能做好。目前,中国符合这个条件的人并不多。如果创业公司使用第三方语音助手服务,核心技术由人手处理,注定是小众。因此,与目前使用初创公司进行代理战争的共享模式不同,智能音箱需要巨头亲自结束游戏。
巨头们都有自己的护城河,几乎每个人都有自己的音乐和语音内容产品,而智能音箱和这些业务可以相互促进,所以只要智能音箱业务不遭受严重亏损,巨头们是不会放弃的容易地。因此,中国未来的智能音箱市场很可能会形成混战后几家分化的局面。
目前的问题是,巨头有布局,却没有人愿意教育市场。
附录