“语音控制和语音界面已经开始渗透到所有尖端消费设备类别中。语音识别算法和人工智能加速器硬件的进步,意味着这项技术甚至可以应用于电力和成本受限的应用领域,比如智能家居设备。
”翻译自——EEtimes
语音控制和语音界面已经开始渗透到所有尖端消费设备类别中。语音识别算法和人工智能加速器硬件的进步,意味着这项技术甚至可以应用于电力和成本受限的应用领域,比如智能家居设备。
从用户的角度来看,智能家居设备语音控制背后的驱动程序是清楚的。
PicoVoice首席执行官Alireza Kenarsari-Anhari表示:“易用性和便捷性是目前的主要驱动因素,”很容易想象,当你想要一杯咖啡时,你会从办公桌上对着家里办公室的咖啡机大喊大叫,或者一边拿着一篮湿衣服,一边对滚筒式烘干机发号施令。
我们假设这些不能随身携带的智能设备可以永久连接家里的WiFi,那么为什么不在云端进行语音处理呢?
在这种情况下,边缘人工智能的趋势主要是由隐私驱动的。Alireza表示,隐私是消费者所担忧的,但对一些企业来说是必须具备的。可靠性是另一个驱动因素:“如果你的WiFi连不上,你的洗衣机有意义吗?”
延迟在某些情况下也很重要;有些应用程序确实需要语音工作负载处理的实时保证,比如游戏。
由于在云端处理这些语音数据需要额外费用,所以成本是语音边缘处理的另一个主要驱动因素。每次使用云API付费的业务模式不适用于家用电器和消费电子产品等用例,它们的成本点较低,而且可能每天使用多次。
PicoVoice的人工智能语音到文本推理引擎被设计为在低于1美元的微控制器上独立于云运行,其目标是在应用程序中实现语音控制。这可能包括消费类可穿戴设备和可听设备,它们正处于电力效率和成本效率的交叉点,而基于微控制器的语音解决方案可以实现这一点。Kenarsari-Anhari表示,这种功率和成本优化的解决方案还可以开启工业、安全和医疗应用领域的机遇。
PicoVoice最近推出了Shepherd,这是一个在微控制器上构建语音应用程序的无代码平台,它与该公司的模型创建软件PicoVoice Console兼容。Shepherd支持来自ST和NXP的流行Arm Cortex-M微控制器,并支持其他正在开发中的设备。
Kenarsari-Anhari:“我认为语音是一种开发界面——如果你不用编码就能构建你的GUI或网站,也许可以使用WordPress,下一步就是用类似的方式构建语音界面。Shepherd正在授权产品经理和用户体验设计师快速构建原型和迭代,但我们的目标是扩大其目标用户基础。”
虽然开发自然语言处理模型并在没有专业软件的情况下实现它们是完全可能的,但这种方法并不适合所有人。
“当然可以——苹果、亚马逊、谷歌和微软都做到了,关键在于企业是否拥有资源,是否致力于围绕它建立组织,是否有能力等上几年。”
未来趋势
去年夏天,Syntiant首席执行官Kurt Busch在接受采访时表示,语音正在成为下一代技术用户的首选界面。
Kurt Busch通过他最小的孩子描述了这一未来。他最小的孩子因为年纪太小,可以阅读却无法写作,借助智能手机的语音功能却实现了与朋友互发短信。
Busch:“他的哥哥姐姐们会发短信,但他这一代人比他们早几年有了手机,随着时间的流逝,对他这一代和更年轻的一代来说,他们的默认界面就是与之交谈。”
Busch认为,语音将成为“未来的触摸屏”,设备内处理将首先在有键盘或鼠标的设备上提供快速、响应性好的界面,然后在白色家电上使用。
Syntiant的芯片是专业的人工智能加速器,旨在以低到极低的功耗预算处理消费电子设备中的语音人工智能工作负载。到目前为止,这家初创公司已经在全球销售了超过1000万颗芯片,其中大多数都进入了手机,以实现永远在线的关键字检测。最新的Syntiant芯片NDP120,可以识别“OK Google”等热点词, 可在280µW以下激活谷歌助手。
在未来,Busch还认为语音控制可以让每个人都能连接和获取技术。
“我们认为声音是技术民主化的重要工具,世界上有30亿人每天靠2美元生活。这些人大部分没有互联网访问权限,没有受过教育,不会写字、阅读,语音界面化对他们来说意义重大。这里的自然界面是[语音]。这就是你如何将技术带入当今世界没有与技术互动的第三个世界。我们看到很多发展中国家对语音优先应用很感兴趣,希望让那些以前可能没有接入的社会阶层受益,这不仅是从费用的角度考虑,也从舒适的角度考虑。”
在这种情况下,很多发展中国家已经对对话式AI产生了很大的兴趣。
市场细分
Knowles物联网高级总监Vikram Shirastava表示,像语音交互这样快速增长的市场的危险在于,它可能会很快变得极其分散,这不仅仅是在硬件方面。
Shirastava:“市场会因为使用的是哪种语音识别引擎而变得分散。市场会变得支离破碎,这取决于你是集成了电视SoC还是内置了一个简单的MCU。基于操作系统,或者基于声音环境,应用场景会变得碎片化——仅仅是家庭吗?不可能有放之四海皆准的解决方案。你必须找到这些垂直领域的共同点,并据此解决声音整合问题。”
Knowles有一个基于DSP的语音控制解决方案,它打算为不同的垂直领域推出版本。Knowles的方法是,将市场细分为具有共同特征的类别——例如,家用控制、电视音频和远程控制可能属于同一类别。然后开发一个针对这类应用程序进行优化的解决方案。Shirastava将这种方法称为“在交钥匙之下的一个层次”,它提供了交钥匙的可伸缩性,但又增加了一些灵活性。
Shirastava表示:“我们必须推出几款不同的发行版本,以解决碎片化的某个方面,这样我们才能覆盖我们想要追逐的垂直领域。”
Knowles推出了AISonic蓝牙标准解决方案,这是一个完整的开发解决方案,旨在实现快速、便捷的语音集成到蓝牙设备中。该开发包使OEM和ODM能够在蓝牙设备中构建语音通话、控制和远场语音识别功能,包括智能音箱、智能家居锁、连接灯开关、可穿戴设备和车载语音助手。该套件基于Knowles的IA8201双核DSP芯片,该芯片专为神经网络处理而设计,功耗远低于应用处理器。例如,该芯片可以在50兆瓦以下同时处理关键字识别、源分类、波束形成、声回波抵消(AEC)和源方向估计等独立的AI模型。Tensilica DSP核心上的近400条用于音频和AI处理的自定义指令集扩展实现了这一点,从而降低了时钟频率,以节省功耗。
AISonic蓝牙标准解决方案是Knowles新的参考解决方案系列下的一个开发包,该系列用于电视、便携式扬声器、声霸、白酒和各种物联网电子产品的语音激活、控制和上下文音频处理,被称为Knowles工业标准解决方案。
Sugr的iOttie Aivo Connect汽车智能手机支架使用Knowles的IA8201车载语音功能。它内置了Alexa语音助手。
随着AI技术的不断进步,对话式AI正在成为解放双手和提高生产力的关键工具。复杂的语音开发环境、云端处理语音数据成本较高、设备的高功耗、市场碎片化等都是语音界面化的阻碍因素。语音最终会成为大多数消费电子产品的默认用户界面吗?看起来确实是这样。先进、高效的人工智能语音控制算法、使开发人员能够轻松集成语音,以及不断增长的能源和成本效益高的硬件解决方案生态系统的出现,使这一切会成为可能。
分享到:
猜你喜欢