综合

云知声斐讯智能音箱产品开发十步法

2018-11-09 18:41:01来源:励志吧0次阅读

云知声+斐讯:智能音箱产品开发“十步法”

正当AWE在上海如火如荼的时候,远在澳门传来了一个非常吸引眼球的新消息,斐讯首款人工智能音箱R1正式亮相。在笔者去年写《10步,智能音箱从入门到放弃》时,其实笔者所在的云知声公司正在与斐讯、哈曼共同打造R1,当时这篇文章也算是针对市场形形色色的音箱有感而发。目前R1已经正式发布,正好可以做个回顾,看看R1走了这十步后,到底是从入门到放弃了,还是到精通了。

1.市场定位

斐讯采用RK 3229,Android平台,RMB2499的定价,在发布时间远远落后于国内一些巨头的产品情况下,可以说这个对于自身的定位非常大胆了,笔者分析,其至少有2个底气:

首先,此次发布会有多个产品同时发布法兰式蝶阀
,说明斐讯对于这款音箱定位是AI智能中控,这也符合云知声对于智能设备发展的一贯观点,大家都从单品智能,到中控智能,最后发展为主动智能,而且演示过程中对于各个设备的控制,也印证了这一点。

其次,斐讯的0元购形式非常有吸引力,在互联流量红利接近尾声的情况下,斐讯通过高品质的产品质量结合0元购模式,确实是探索在IoT时代如何快速获取用户的一个有益尝试。

当然,最终用户是否买单,还是要看真正的产品设计和功能,这一块我们按照剩下9步,一个个看过来。

2. 外观设计

音箱外观是第一眼印象,在这一点上,斐讯R1从配色,到手感,到光线,可以说是非常用心的。这一点通过现场图片让大家感受一下。个人还是比较喜欢这个蓝色光环的。

3. 声学结构

斐讯发布会上宣布与哈曼签署战略合作,这说明斐讯确实抓到了AI音箱这个产品的核心。无论有多么智能,当用户懒散地躺在沙发上,希望静静地听歌的时候,音质永远是第一位的。

正如之前文章所说,声学结构需要同时考虑音质效果和语音唤醒之间的双重要求,可以说当前这个声学结构是斐讯、哈曼、云知声三个团队不断讨论,论证,实验的结果,很多要求都互相影响甚至互相矛盾,比如为了环绕重低音立体声效果,必然要进行音频的相应处理,相对于普通音质一般的音箱而言,在这个要求下依然满足极高的唤醒率,需要做更多的调优工作。

同时笔者亲测的效果,R1的高音分贝极高,如何确保依然可以有效唤醒,如何确保不显得笨重情况下确保高音下的机械结构稳定,都需要在结构上做更多的工作。可以说这个声学结构是三方团队共同打怪通关的结晶啦。

4. 内容整合

这一块R1非常有信心地打出了国内最全地音乐源的招牌,云知声可以负地说,同意!因为我们训练过的音乐名文本已经超过国内POI的总数了。其实最初云知声与斐讯沟通合作的过程中,双方就一致认识到,如果无法解决音乐源,这个项目就不可能成功,双方甚至不用开始。正是在这个认知地驱动下,才有了当前的结果。顺便说一下,云知声拒掉了无数寻求音箱合作的客户,音乐源一直是最直接原因。

同时,AI音箱目前内容方便也在不断扩展,除了音乐,更多的内容都接了进来,而且云知声为斐讯提供的AI云平台,也可以非常方便地整合更多的第三方内容,这将推进R1的不断演进。

5. 系统优化

说起系统调优,其实主要集中在两个方面,首先当然是系统启动时间,这一个是用户感受最明显的一块。作为一款Android平台的AI音箱,R1在这一点可以说做得相当不错。毕竟Android平台无法与Linux和RTOS进行启动时间的直接对比,但是R1通过系统裁剪和反复迭代,已经在当前RK3229硬件平台上,做到了接近极致体验了。

其次是联方式,这一块对于很多AI音箱其实是一个极度影响客户体验的关键点,在这一块,R1考虑非常全面,正如下图所示,它一共提供了三种联方式,在用户倾向性方面尽量做到全面照顾了。

6. 远场Mic阵列

让我们来重新复习一下支撑整个智能音箱的AI系统,涉及到感知技术,认知技术以及交互技术。下图给大家一个整体印象。

这一步R1可以说是多快好省的典范,相对目前业界部分AI音箱采用的6+1Mic,斐讯和云知声配合,在4Mic上做到了相同,甚至更好的远讲拾音效果,而且声学结构设计更为简单,产生Mic差异性概率更低,数目更少的Mic,其后期维护难度也随之降低广州废铝回收
。可以说,这完全是以实际量产为目标的接地气设计。

7. 离线唤醒

作为一家非常低调的AI企业,我们云知声小伙伴一致认为发布会上斐讯这张图比较高调。不过我们依然认为离线唤醒作为云知声在家居行业的看门功夫之一,确实做到了以下三点:

快反应速度快,R1就像是个随叫随到的助手,很有feel。

准目前体验测试和benchmark测试,均有翔实数据支持。尤其是音乐播放下的打断和周边噪声环境下的唤醒,可以说我们还是比较满意的。

稳误唤醒这块更是把家电行业的严格标准直接用过作为测试指标了可靠性测试

8. 语用计算

云知声所提的语用计算(Context-aware NLU),就是基于场景化感知的自然语言理解(NLU)。通过5W1H(Who,When,Where,Which,WhatHow)原则理解是什么人在什么时候,什么地方对着什么设备说了什么话,然后由语用决定如何回应。

分享到: