为啥灵犀语音助手怎么唤醒说话之后到我说话了音量就自动静音了关闭静音也没用

点击联系发帖人 时间：2018-08-19 20:01

华为语音助手apk

苹果手机的语音助手也能静音使用？不会那就快来学习下吧_腾讯视频
三倍流畅播放
1080P蓝光画质
新剧提前看
1080P蓝光画质
纯净式无框播放器
三倍流畅播放
扫一扫手机继续看
下载需先安装客户端
{clientText}
客户端特权:
3倍流畅播放
当前播放至 {time}
扫一扫手机继续看
苹果手机的语音助手也能静音使用？不会那就快来学习下吧
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要
副标题要不要有了方糖，生活多点甜头——天猫精灵方糖智能WiFi网络蓝牙音响初体验_值友评测_什么值得买
当前位置：
有了方糖，生活多点甜头——天猫精灵方糖智能WiFi网络蓝牙音响初体验
感谢首先感谢张大妈这次的微众测，种草AI音箱很久了，一直在等618降价，恰巧看见有天猫方糖的众测征集，随手一点，本不抱太大希望，没想到在生日前意外中标，所以要好好体验一番。5月28号周末确认的众测，工作日29号发货，从北京到作为偏远地区的海南，30号就收到产品，给大妈点个大大的赞。顺丰隔日达一、首先煎饼果子……哦不对！&外观来一套&：众测须知和外包装开箱包装正面拆开外盒，露出的是简洁的包装，白色盒子顶部是产品名称和正面外观。内包装盒侧面依然朴素，出自阿里实验室。侧面的功能简介包括娱乐、购物、儿童、工具、操控、小技能等，这些功能稍后会提及。开箱开箱开箱依然是简洁风，产品手册+音箱本体+数据线，没有多余的内容。虽然叫方糖，但其实是长条型的设计，八个角采用圆润的弧形过渡，这也是当下手机屏幕喜欢的设计，更为讨喜眼球。正面采用了似横向流星又似声纹的格栅设计，乳白色ABS材质比较耐看。顶部三个按键，音量增减键+静音键简单明了。一排小孔之中藏了双麦克风。背面右下角是电源插口上方是天猫精灵中英文水印，中间贴有SN码，上下被五五开的（不是签约C站的那位仁兄&）纯色与横条纹分隔开，后方也有VA造型的镂空设计，但方糖是只有前置音箱的，这样的设计一来是为了与正面保持统一，二来用于散热。底部采用了大块硅胶防滑设计，保证静置时的稳定性，实测想推动平放的床头柜上的小家伙得费很大劲，还有一个贴心的二维码可供扫码下载APP。产品主要参数尺寸官方给出的数据是三围134mm×65mm×59mm，和5.2寸屏幕的手机放在一起，差不多和屏幕长度一般。机身重量实称274克比官方公布的265克多了9克，是因为女孩子都喜欢把体重报低吗？&&（不过貌似对于并不需要频繁移动的的设备而言意义并不大）电源规格电源适配规格是12V1A的12W输出功率，加上3W 4欧姆的扬声器，emmm，应该不怎么费电吧。迫不及待移到我床头柜可爱的闹钟旁边作伴&。因为并不像普通自带电池，所以接上电源，准备开始体（tiao）验（xi）吧&。二、方糖尝鲜天猫精灵APP想使用小方糖，得下载天猫精灵APP，虽然音箱底部有二维码可以扫描，但是从APP STORE和主流的安卓APP市场也都可以搜索到天猫精灵下载，无论通过哪种途径安装都很方便。下载完成后通过淘宝账号即可登录，当然也有账号密码登陆，但是淘宝一键登录无疑更为快捷，而且也便于关联淘宝、支付宝等信息用于购物和快递查询等功能。进入APP后的欢迎页，点击“添加设备”。或许由于方糖是主推的AI新品，所以置顶在最前方，紧随其后的是X-Holder底下还有天猫精灵X1和曲奇可选。接下来就是选择家里的WIFI并输入密码，在选择WIFI连接时还有温馨提示只支持2.4G WIFI，或许有些朋友会吐槽竟然不支持5G，但考虑到2.4G的穿墙能力更强，并且个人认为对于缓存音频这类体积较小的文件来说2.4G能支持的下载速度已经足够，更何况不少人家里还只是用的20M宽带，所以这并不是什么大问题。根据下一步指示，长按顶部静音键进入配网模式，环形led指示灯会开始闪烁白蓝光，方糖海口发出苏苏的知心小姐姐声音：“正在配网中，大概需要1到3分钟”，不由得菊花一紧，静静地等了三分钟，指示灯由蓝变红，小姐姐提示“配网失败”&，后来才发现是因为没有在APP上点击下一步，所以大家别光顾着回味小姐姐的声线，腾出手在手机上点下一步阿喂&！然后使用选择场景，我的当然是卧室&连接成功后还会跳出迎业尤其喜这句欢迎语：“我在，你说”，给人以踏实可靠伴侣的感觉&。上一条喜爱的是“永远相信美好的事情即将发生”。而说到小姐姐，其实目前这套AI系统有以下三种音色可选：本人还是更喜欢默认的青霞，知性小姐姐嘛&，目前并没有磁性男神低音小钢炮或是呆萌小鲜肉可以选择，这可苦了女性用户们，期待待加入的更多音色吧！除了音色选择之外，还可以进行麦克风关闭时长以及消息、唤醒灯的个性化设置。5秒的时间对于简单的口令来说足够了，如果说话比较慢的同学可以选择8秒，10秒的话实在是太长了。而灯的颜色就根据个人爱好来选择吧！一切准备就绪后翻看天猫精灵APP，会发现功能实在太丰富，让人无从下口，啊呸！开口！&看了一眼新手教程，目前所掌握的两个唤醒关键词是“天猫精灵”和“你好天猫”，但当你问方糖它是否有其他唤醒方式的时候，问题库中并没有收录此回答。从最常使用的听歌功能开始吧。通过“天猫精灵”“放歌”口令，方糖会为你随机播放歌曲，通过“我想听XXX的歌”口令，则会随机播放该歌手的歌曲。当然也可以通过“指名道姓”来点歌，因为有阿里自家虾米音乐的支持，加上此前与QQ音乐的部分版权呼唤，市面上大多数曲目都可以聆听，小部分不在库中，但也可以通过连接用其他播放器播放。关联虾米音乐账号后还可以通过“播放虾米音乐收藏夹里的歌曲”直接按照收藏时间新近顺序播放虾米音乐中的收藏曲目，这点很赞&。而在播放过程中，想调节音量只需要通过唤醒方糖，给出例如“声音小点”“音量再大点”，甚至可以精确地用“把音量调到23/45/66……”这样的口令，精准设置。经过几次口令点歌，基本可以随叫随到，但有时也存在抽风的现象&，比如：除了听歌，听小说，听诗词，个人电台节目等质量都很高，口令也很简单，和听歌相仿，念出想听的内容就可以了。不是简单地念白，而是有配乐的广播剧，还有独家的矮大紧《晓说2018》哈哈哈！小技巧小技巧还可以玩语音游戏，可以接入更多的APP功能，比如关于足球的这款“爱美足球”，比方糖本身回答更专业：从列表上看，天猫精灵系统支持的设备让人眼花缭乱：但很遗憾，家中仅有的一台格兰仕空调（支持京东微联）和创维Q+智能机顶盒、暴风AI电视，都不在支持范围内。列表中部分商品甚至还下架了，没能体验到语音控制家居的场景。只能寄希望于将来购置具支持阿里智能的家居了，但如果将来要换个牌子呢？充话费听的功能体验得差不多之后，接着就要尝试卖点之一的购物充话费功能了。但一来就遭到了当头棒喝因为之前没有在个人资料里输入手机号，所以要念一遍手机号码作为回答，但是准确无误地念了3遍方糖却和我说byebye，于是换了一种方式提问，终于识别了，但又提醒我没开通声纹付，于是乎前去开通。声纹付在天猫精灵APP-我的-声纹管理中添加个人声纹，添加前首先要验证一下支付宝。声纹支付认证的过程并不复杂，但需要耗费一定时间，好在每次根据要求呼叫口令一次都成功，站在4米开外都可以准确地识别，语音识别率还是不错的。然而在需要支付的时候又遇到了一点小问题第一次没有识别声纹，第二次识别成功，在“滴”的一声后回复放糖给出的随机数字口令，便验证了密码，支付成功&。很适合家里不会操作手机的老人使用。购物充话费折腾了一小会终于成功了，再试试购物功能，但鼻子还是碰了一点儿灰：只有经过系统筛选过后唯一默认的选项，不能二级追加选择规格。所以我选择了放弃。另外，因为今天花呗从银行卡自动扣款将账单还清，所以突发奇想问了一句“我的花呗还清了吗？”，但是得到的却是这样的答案无论是购物的局限性还是支付宝功能的欠缺型，对于阿里自家的品牌并且主打淘宝支付宝互联的智能硬件而言，个人认为这点是不太应该的，急需、亟需、迫切改进。如果说是担心老婆大人乱剁手或查账的话就有些牵强了，这么多宅男宅女靠着它作伴呢，再不济不是还有声纹功能么。不过当然，购物还是PC或手机端更加方便一些。起床发现手机没费的话喊两句就能充话费的功能还是很不错的。优点：上手简单听歌、听书、听新闻、听广播、听儿童故事等基本功能随叫随到，只要发音准确。语音识别率较高包括3米远的距离也能轻易识别。可以交话费认证声纹并绑定手机之后，基于和支付宝的关联，可以通过简单的口令交话费，哪怕老人使用根据提示来也比较简单。音质不错，音量足够大音质上中高频表现突出，低频稍显欠缺，但也不至于完全没有，总体上三频还算均衡，明显素质优于曾经49入手的入门蓝牙音箱，作为比较木的耳，甚至认为和JBL 400档的产品相差无几，如果硬是要和千八百块的蓝牙音箱比，那就不讲道理了。毕竟定价才199，特价89，还是个AI产品。另外这里说的音量足够大并不是强调像曾经的N喇叭山寨手机那样盲目追求午夜DJ，一来音量足够大的对于闹钟功能十分关键，不够响的闹钟形同虚设，对于听力并不太好的老人来说，也是极好的。其次音量Min—Max的区间大了，当中可以微调到适合自己使用场景的音量将会更精确。最后把音量开到100%仍然不破音，也正是对产品“能量”自信的体现。可自定义组合指令和回答有了自定义的组合指令和回答相当于给了智能音箱学习的机会，有助于今后使用时它更能按照你的诉求去运作，当然这需要付出一定的“教育”时间。音频作品库丰富尤其音乐方面有虾米音乐加持，新闻接口也通过算法抓取了央视、微博等最新信息，值得称赞，期待能接入更多的主流音频app。更新频率快并且会以周报形式呈现，新增功能清晰明了。价格性价比超高199元的价格已经相对动辄299、399、499的AI音箱价格便宜一到两个档次，除了没有360°音响设计，能实现的功能几乎是一样的，如果能以618活动价89元入手的话（比小米小爱mini的99元还便宜10元），哪怕只用作蓝牙音箱，也值回票价，更何况有AI智能加持。缺点：购物支付功能亟待完善把这个列在第一位，是因为重置购物作为产品卖点之一，并且智能音箱作为阿里自家的AI产品，与淘宝支付宝同账号密切关联，无法查询花呗账单等等。进阶难虽然入门易，但是进阶玩耍比较难，各种小技巧的用户学习成本略高，二级追问也不够智能，对于多种可能的结果需要二次确认的回答比较少，这包括且不限于重新选择购物规格，同名歌曲的选择……另外，部分需要用户二次确认的问题，却仍然需要加上“天猫精灵”前缀，让使用变得繁琐拗口。没有内置电池想要通过移动方糖来更换使用场景就会比较麻烦，如果出门开车、露营等情况下想带上这个小可爱陪伴就比较难了，不过如果推出车载电源或许可以解决这个问题。目前无法控制手机与手机蓝牙配对后可以播放手机音频，但却无法简单地控制手机拨打电话，甚至缺少主动或是接听电话的功能，这可是30块蓝牙小音箱都能做到的。在拼音第三声（ǎ）连读的词语识别上有待改进比如我想听《纸短情长》，必须只能拗口地念《纸（zhǐ）短情长》才能识别，否则会识别成《植短情长》智能家居控制局限性强支持的看似五花八门，但实则限制较多，必须是支持阿里智能的设备。不少设备已经在天猫上下架。感言：客观而言，如今的的智能音箱还不算是成熟的产品，和我们想象中的智能家庭依然有很大的差距。但从技术上而言支持更多智能设备的控制并不难，但由于众厂商们各自为战妄求垄断的保守观念以及各种相关利益，在国内连各种进口商品关税都在大幅下调的当下，所谓的某某自家生态链无疑已经成为了一种提高用户体验全套智能家居的另一种壁垒，各种打着家庭智能助手旗号的AI音箱，如果只能支持极其有限的家电设备，是非常遗憾的。目前AI还处于一个尝鲜的起步的阶段，还需要不断地改进学习，如何更大限度地降低用户的表达成本，将AI对口令的理解做到准确，还需要大数据给予足够的支撑，也需要更多的时间，或许我们离贾维斯、幻视这样的smart&robot还很远，但超能查派这样的baby，还是调教得出来的。“人工智能”，人工的才是智能的前提，需要更多精准的人工的教育，“智能”才足够聪明。这个需要我们消费者和厂商一起努力，完成对产品的打磨，使产品更好的蜕变。就当下而言，不如把AI语音助手当做一个书童，或许生活可以多一份乐趣。
已有14人赞过
的其他测评
本文评测的商品
【轻众测】天猫精灵方糖智能WiFi网络蓝牙音响
热门众测活动
【轻众测】南孚镀金车钥纽扣*3&充电锂电池
申领：20积分
极蜂智能数字对讲机
申领：20积分
北极考察任务——勇敢者招募中
申领：1积分
用户名/邮箱
两周内免登录Bixby不要这么懂我！这才是我要的人工智能
    苹果2011年推出了Siri，称得上是比较早的。随后微软也加入语音助手的战场，2014年推出Cortana。同年，亚马逊推出Alexa。谷歌稍晚些，于2016年推出Google Assistant。直到2017年，厚积薄发的三星追赶上了潮流，推出了Bixby。最开始率先在三星Galaxy S8及Note 8上线，当时体验后给予我的感受是“迟到半年的Bixby，用户体验赶超别家半年”。
    日，三星同样将Bixby安置在全新的三星Galaxy A9 Star当中，并且也设置了一枚独立的物理按键。半年左右的改良和升级，现如今的Bixby不仅能完全适配了18.5:9比例的全面屏，同时在一些基础功能点上，有着不一样的实用性。如果说你不了解Bixby，那么不妨看看这篇评测文章。
    我算是首批体验Bixby的公测用户，拥有八个多月的深度使用经验，对评价Bixby的事儿算是比较有资格。相比其他语音助手，Bixby的特点不言而喻：更加精准的语言识别率、近乎人声的口吻声调、人性化的功能和丰富的拓展性，Bixby确实重新定义了语音助手。下面我就从几个方面，具体聊聊Bixby的特点。
一、开启方式
    三星Galaxy A9 Star搭载的Bixby，可以通过两种方式进行唤醒。一是长按音量键下方的Bixby键，等待语音说完后再松开按键。这种“即按即松”的即时性识别，相比主流的通过系统判定用户这句话有没有结束，再识别更加快速，准确。Bixby键短按进入Bixby主页，长按进入语音模式，十分方便。
长按音量键下方的Bixby键
    另一种方式是直接对着三星Galaxy A9 Star喊出“ Bixby”，等待Bixby唤醒之后就可以对它下达命令了。通过我的实际测试，我发觉无论是在人多吵闹的环境下，还是低电量的情况下，均可以正常使用。并且并不占用内存，电量消耗也很低。
二、近乎人声的口吻
    Bixby给我的第一印象就是声音很像人，自然且流畅，完全没有主流助手的“机械音”，这一点和Siri形成了明显对比。不仅如此，Bixby还支持人声对象选择，你可以选择男声或者女声，配音人员分别是配音大师王聪及优声实力干将张喆。
    普通的语音助手采用的是“机械音”，输出逻辑也十分简单，提前录好每一个字的音节，机器先感知到他要输出的字句，再用录好的音节拼凑成一句话。而Bixby的输出逻辑更加深奥，同时涉及到人声学、调音技术及音色整合，多元化整合调节后，进行柔和串通再输出，因而得到近乎人声的口吻。负责开发Bixby的是名声赫赫，苹果Siri初创公司：Viv Labs，可见其技术底蕴不可小视。
三、恰当好处的交互形式
    在我看来，Bixby与主流语音助手最大的优势在于恰当好处的交互形式。按照官方介绍，用户在于Bixby交谈时,Bixby会使用“情境”来理解用户需要执行的操作，我们同过实测进一步感知它的交互逻辑。
语音密码解锁屏幕
    你可以使用Bixby设置自定义语音密码，当你呼叫它，并且说出语音密码之时，屏幕即可解锁。
Bixby设置语音密码
Bixby设置语音密码
    例如你设置的密码是“我要吃苹果”，长按Bixby键，手机屏幕便解锁了。方便且乐趣十足。
    跟好友发“你好”，这是大多语音助手能够做到的事。但是你要是让它【撤回】刚刚发的消息，很多语音助手便愣神了。
    
   而Bixby则井然有序的打开社交，将刚刚的消息撤回，并且在手机底部提醒撤回完毕的提示，确实很智能。
    对着Bixby智能助手说“我想自拍”，则会帮你拍摄一张，并且为你准备了2秒的准备时间，足够你可以腾出双手摆个poss。
Bixby自拍测试
“Bixby”不止有语音那么简单——让智能助手多一双眼睛
    三星在其官网上这样介绍Bixby的：
    “Bixby开启了人机交互的全新模式。它就像你的私人助理，不仅能领会你的语言、文字，更能根据图像内容提供相关信息，比如用相机拍下一个地标，它就会告诉你附近的有趣资讯。在协助你处理常规任务的同时，它会不断了解你的应用习惯，让自己更称职更出色。”
Bixby智能助手（图片引自三星官网）
    具官网了解到，Bixby不仅仅在语音方面上十分智能，并且它在四个维度都十分的出色：对话、看、推荐、提醒。对话无需再解释，前面通过与Siri的对比已经让我们见识到Bixby有多么“能说会做”，“看”的方面像是三星为Bixby安装的眼睛，使Bixby在智能识别上有着卓越的能力。
不需要拍照即可实现扫描
    只需点击相机中的Bixby图标对着地标，或者呼叫出Bixby，告诉它“帮我识别这个东西”等等，它就会为你呈现相关的吃喝玩乐资讯。
        “在QQ中与XXX进行语音聊天”，Bixby可以准确的识别命令。另外，社交方面，通过Bixby也可以准确的发送文本信息。甚至支持消息撤回功能。
语音进入QQ支付页面
        “打开支付二维码”。无现金化时代的到来让我更多的依赖于微信和支付宝两大支付平台，但微信和支付宝的支付页面一般都要经过好几个操作步骤才能实现。而Bixby语音只需要一句话即可实现页面直达。
语音规划路线
        “我要坐地铁去北京西站”。在复杂的交通体系城市生活，是必不可少的工具。查位置规划路线往往需要很多步的操作才能实现。但Bixby语音，一句话就可以。
    一张不知道是什么语种的外文。
    用户不需要知道外文的语种，只需选择输出的语种。对准后即可显示实时翻译。
    毫无疑问，未来智能手机发展的主旋律注定是人工智能，而Bixby恰恰为人工智能提供了一个很好的发展楷模。不可否认，一个全方位、多层次的手机智能时代被三星用Bixby撬开。
四、智慧学习功能
    说到Bixby的亮点，还真是繁而不杂。其中，具备较强的学习功能也是Bixby的亮点之一。当你为Bixby说话时，往往Bixby下方的对话框会出现两个选项——“教教我”和“好极了”。“好极了”自然是表示Bixby完成的很好，我很满意，而“教教我”则是用户来告知Bixby怎样做才是正确的。
    而用户完全可以利用这个制造些好玩的事情：例如你将“世界上谁比马云更有钱？”问题的答案设定成“当然是你啊主人”当你问这个问题的时候，Bixby会用接近人声将你编写的答案说出来。
Bixby自定义答案
    这个可玩性不仅仅丰富了用户的生活，还带来了很多的“小套路”：例如你提前将女友的Bixby重新自定义，当女友小红帽不开心时，你告诉她“你去问问Bixby世界上谁比范冰冰更美丽”，当Bixby回复的答案是“小红帽比范冰冰更美丽。”就算女友小红帽再不开心也能会心一笑，其实这一切都是你实现安排好的。
Bixby自定义答案
    另一个智慧学习的属性是系统自身的成长，通过用户的使用习惯、开启某些APP的频率，为机主制定专门的解决方案。
五、设置快捷命令
    问广大网友一句，你们晚上睡觉之前会给自己的手机做什么？
    说一下我自己，我晚上通常会关闭定位、关闭移动数据、将手机调成静音、开启省电模式、最后锁屏。
    这么一连串的操作听起来就十分繁琐。而Bixby具备的快捷命令能够将一个或者多个复杂的指令，拼凑在一起。用户可以用某个简短的指令来指代一个较为复杂的指令。例如用“晚安”指代睡觉前的“关闭定位——关闭移动数据——静音——开启省电模式——锁屏”。
Star设置快捷命令
    这项人性化的功能足够让其他语音助手望而生畏。
六、视觉新优化
    其实说到底，Bixby并不只是一个语音助手，它更像是一个人工智能帮手，能够更好的规整生活。同时它还拥有个性化整合界面，短按Bixby键进入主页，这里有今日天气、今日运动、微博热搜等一些卡片。
    Bixby成长值的奖励机制也尽如人意，用户可以通过长久使用Bixby来获得成长值，较高的成长值可以兑换例如三星积分等礼品，购买三星商品时会有不小的回馈。
七、让生活更加智能的物联网
    物联网也是当代智能助手的一大特色，当然Bixby也不例外。三星自2017年其主推物联网，未来通过Bixby助手串联旗下产品，包括电视、冰箱、洗衣机、空气净化器等等。更加聪明的物联网应用模式，是Bixby身处于当下的优势。
三星物联网
Bixby让我打开智能大门
    Bixby拥有了太多太多智能的特性，三星Galaxy A9 Star还拥有华晨宇的语音播报，说出指定的话就会有花花和你对话。
    比如：早安，花花。
    你也早啊，火星人。
    花花跟我说句悄悄话吧
    “悄悄话”，怎么样？
    对于花花的迷妹来说何尝不是个福利。正如三星官网介绍的那样，这是一个越用越智能的人工助手。不得不承认，三星在人工智能领域的探索卓有成效，并且更符合用户的心仪。三星一直致力于改造人机交互，在三星Galaxy A9 Star的Bixby上，我们终于看到了创新科技所到来的新生命。
本文属于原创文章，如若转载，请注明来源：http://mobile.zol.com.cn/692/6926518.html
<span class="tipso_style" id="tip-p" data-tipso='
您可以选择一种方式赞助本站
支付宝扫一扫赞助
微信钱包扫描赞助
有回复时邮件通知我
一个简单的测评网站
<span class="tipso_style" id="tip-w" data-tipso=''>
记住我的登录信息
电子邮件地址
输入用户名或电子邮箱地址，您会收到一封新密码链接的电子邮件。
用户名或电子邮件地址小米、高通押宝的下一个AI风口：改造机器听觉
许多人认为这次的 AI 复兴主要来自两个领域的突破：机器视觉和自然语言处理，特别是在机器视觉比如人／物的体识别、自动驾驶等，都已经取得很好的表现后，科学家们正在攻克另一个领域—机器听觉。
在众多智能语音助手、智能音箱问世的带动下，提到机器听觉很容易直接让人联想到“关键词唤醒”、“自动语音识别”（ASR），例如先喊一声 Hey Siri、Alexa、小爱同学，呼唤这些智能语音助理，接着对其下指令。其实，机器听觉是一门范畴广泛的领域，从声学系统、脑怎么处理声音、到如何将人类的听觉知识封装在算法中，以及如何把算法组合成一个可模拟听觉的机器。
人类的耳朵除了让我们听得更清楚，还能识别声音的方向，知道发声的物体是什么，或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能，现有技术还是很难实现，像是吵杂环境的多人音源分离、远场语音交互等，大家讲远场识音可以达到 3 米、5 米，但要做到 3 米、5 米有一个前提，就是噪音不能太大。正因技术发展还有巨大的提升空间，不少科学家正通过深度学习来改善，并推动行业的发展。
美国著名发明家和科学家 Richard F. Lyon 在 2010 年发表一篇关于机器听觉的重磅“Machine Hearing: An Emerging Field”，指出机器听觉将成为一个新兴领域。文章指出，“我们的计算机目前基本是聋的，它们对于自己存储和处理的声音几乎没有概念”，“近年来，基于文本的图像或视频分析稳健发展，但声音分析则显得滞后.... 与机器视觉的多样化和活跃度相比，机器听觉领域仍处于起步阶段”。
因此，他利用类似机器视觉建模的方法，来打造一个 4 个主要模块的听觉系统结构：1. 外围分析器（peripheral analyzer）、2. 听觉图像生成器（auditory image generators）、3. 特征提取模块（feature extraction module），这个部分在机器视觉领域，就是把图像作为输入，萃取出多尺度的功能、4. 可训练的分类器或决策模块（a trainable classifier or decision module），这个阶段会针对应用程序选用适合的机器学习技术，并利用上阶段提取的特征来做决策。
Richard F. Lyon 指出，要打造一个“智能环境”系统是项大工程，可以通过具听觉的机器来实现，把它们安装在汽车、家庭、办公室的计算机，利用这些“听觉前端”实时添加应用程序、执行任务，而且配合“特征提取”、“机器学习”来实现。现在来看，他成功预言了 8 年后今日的样貌，自动驾驶、智能音箱等都选择以“听觉前端”作为交互的入口。
另外，值得一提 Richard F. Lyon 在 80 年代晚期任职于苹果的先进科技部门，当时苹果曾推出 PDA 产品 Apple Newton，其中的手写识别系统 Inkwell 也是由他开发。他也曾在 Google 工作，从事听觉和声音处理的研究工作。
此外，华人科学家汪德亮，同样是机器听觉的大牛，身为俄亥俄州立大学感知与神经动力学实验室主任的他，不仅是机器视觉、听觉交叉学科的专家，更是把深度神经网络引入机器听觉领域的先驱，例如通过机器学习把嘈杂的说话声样本切割为时频单位（time-frequency units），并从这些单位提取出数十种特征来区分语音和其他声音，接着把特征送到深度神经网络中，借此训练出可以分离出语音单元的模型。最后，把这个程序应用在滤波器上，过滤掉所有非语音的单元，只留下分离后的人声。他的最终目的是希望借此改善助听器的品质。
为了把学术研究成果转化为商业化技术，他以联合创始人的身份创办了专攻机器听觉的人工智能初创公司大象声科。就在几周前，大象声科完成了数千万人民币的 Pre-A 轮投资，领投者出现两个重要名字：小米和高通创投，不难猜想这两家公司的战略意义之外，更代表机器听觉的技术将随着硬件巨头的重视可望进入大规模的落地。
机器听觉仍远落后于人类
视觉跟听觉可说是人类最重要的两个感知能力，机器视觉在许多特殊场景下已经超过人类水平。但是为什么机器听觉的发展速度却不如机器视觉快，仍远落后人类？
大象声科 CEO 苗健彰接受 DT 君采访时解释，视觉是一种遮挡的信号，不论是区分图像、物体、人脸，机器可以容易画出物体的边缘，但是，声音是一种叠加的信号，比如一个场景里面有各种的人声、噪声等叠加在一起，信号能量混在一起之后，想要将其分开就很困难。另一个原因是起初深度学习多被应用在语音识别，而更前端的信号处理部分大约是到 2013 年左右才开始引入 AI。前端处理是指在特征提取之前，对原始语音进行处理，如噪声抑制、回声消除、混响抑制等。
不过，近来行业开始涌现了非常大的需求，越来越多智能硬件、机器人需要语音交互。
传统设计思维过时
在今年 4 月锤子坚果 3 手机发布会上，提到内置了“AI 通话智能降噪”，简单说就是通话听清，背后的技术即是来自大象声科。
降噪，不是项新概念，市场上也有许多降噪耳塞，效果如何总是得体验过才知道，既然并非人人都是锤子用户，为了让一般人可以感受，大象声科其实做了一个录音 APP—VOCPLUS，苗健彰表示，现在录音笔多半不具备降噪功能，遇到吵杂环境往往没辙。不过，APP 只是让大众体验的入口，并没有打算将其商业化，公司定位是面对手机业者的 B2B 生意，真正商业化如锤子手机的降噪就是与 APP 同样的技术。而 DT 君实际试用该款 APP，感觉对于消除环境噪音确实有不错的效果，有兴趣的读者可以自行下载试试。
为什么可以做到很好的效果，是提取噪音进而消除吗？答案其实正好相反。
苗健彰指出，传统信号处理的思路是基于噪音特征，比如噪音的 Pattern 是如何、在频率上有什么特性等，接着设计滤波器，把噪音留在滤网上，剩下的声音就留下来，但这么做存在一个问题，就是世界上的噪声种类变化太多，聚合一起有各种排列组合，而且很多的动态噪音没有办法事先预测何时会出现。
所以大象声科换了一个角度来思考问题：既然人类语音的 Pattern 特征其实很明显，那就把在重点放在人的声音上，让机器只关注人的声音，反而更符合人类听觉的基本原理，当我们与朋友在餐厅吃饭，环境很吵，但人类仍然可以轻松对话，就是因为我们把注意力放在对方身上，这也是为什么人类可以简单解决鸡尾酒会的问题。
盲源分离是机器听觉缺失的一块
他进一步解释，“机器其实缺失的听觉功能是盲源分离（BSS，Blind Source Separation），也就是判断发声音源”。
为了解决鸡尾酒会问题，盲源分离成了近年来信号处理领域的一个研究热点，BBS 是指一种不需要任何预先得到资讯，从感测器所量测到的混合信号（mixtures）中，把信号源（sources）抽取、分离出来的方式，目前在语音信号分离、麦克风阵列信号处理、生医讯号如脑电波（EEG）处理等领域都有不少研究。
盲源分离的基本架构如下图，假设有两个声音源 S1、S2，经过了一个未知的混合过程，麦克风收到了两个声源的混合信号 X1、X2，而 a11、a12、a21、a22 代表声源到麦克风的衰减程度，这些系数皆为未知，这也就是称为“盲”的原因，盲源分离的目标就是在信号和混合过程均未知的情况下，分离出各种音源。
图｜盲源分离技术基本概念
Google 双人声分离展现高水准，用视觉辅助听觉
在看不见的情况下，如何把各种各样的音源区分开来，是机器听觉里面的一个挑战，解决这个挑战就有多种思路，“AI 其实提供了一个好的办法”：通过训练让模型能够自主在嘈杂环境底下把声音特征提取出来。
目前来看，大象声科技术强项在分离人声和噪音，解决了手机产品某种程度的鸡尾酒会问题，不过在其他场景仍有待克服，例如智能音箱、电话会议场景等，还需要解决人声跟人声的分类，“多个说话人声分离，甚至还要记录下来，可说是在语音分离上最高级的挑战”。
在多人声分离领域，Google 前阵子展示把两个人对话分离的成果，结合视频的图像来辅助，就是说，在某些复杂且嘈杂的场景下，加入视觉信号分析来做语音分离，是一个趋势。
在今年的 Google IO 大会上展示了一段影片，运动节目里两位来宾情绪激动，说话针锋相对，你一言我一句，声音重叠几乎很难听清楚任何一方在说什么，这种情况常出现在新闻节目、脱口秀、会议上，而 Google 做到将两个人声分离，让用户可以在视频中指定让某人“静音”，只听见另一方的声音。“这在语音分离部分是一个很棒的进展，”，他说。
Google 将此技术称为 Audio-Visual Speech Separation（声音影像的说话分离），最大的特点就在“联合视听模型”，不只是分析人声跟背景噪音，还会分析视频中人物的嘴型与表情。研究团队用了 YouTube 上只有单一讲者的无干扰演讲影片，并将这 10 万个、总时数长达 2,000 小时的影片混入其他演讲影片与背景杂音，以训练多重串流卷积神经网路（Multi-Stream Convolutional Neural Network），进而把各个人物所说的话分离成独立音轨。
图｜谷歌的 Audio-Visual Speech Separation 技术
图｜用视频中的嘴型、表情来协助完成语音分离
其他的趋势还有像是机器可以从声音去判断用户的情绪是好是坏，或是机器透过听觉，它可以自己知道身处在一个什么样的环境当中，甚至是当它如果听不清楚的时候，它可能会主动告诉你：“对不起，我听不太清，可以把音乐关小一点吗”，这些都是机器现在不具备的能力，但在未来有机会拥有。有了这些技术功能，智能音箱可能就不会再闹笑话。
分头让人、机器听得更清楚，考量推出机器听觉芯片
目前大象声科主要技术是分离人声与非人声，但也逐步投入多人声分离的研究。而机器听觉的 AI 训练其实跟机器视觉概念类似，同样要提供大量的声音数据，男女、小孩、高低音等都是必要的，同样也需要给予标注（label）数据，例如发声源、发声时间的起始。
另外，人声具有一些特点，例如，发声范围分为 20～2 万赫兹之间、大约 24 个频段。第二、人声是连续地。机器学习的优势就在于，通过大规模数据的堆积，机器能够自己寻找到这些特征，进而判断，例如判断环境是户外或室内、在车内还车外，在车内有开窗或没开窗等，这对于车载交互就很有帮助。
大象声科想要解决的两大问题：一是让“人”听得更清楚，针对手机通讯、云通讯等领域所推出的智能通话降噪解决方案，能够帮助用户过滤掉通话环境中的背景噪音，让对方听得更清晰；另一个是让“机器”听得更清楚，为机器打造一双智能耳朵，赋予其更灵敏的机器听觉。大象声科推出的智能交互解决方案，包含智能降噪、语音唤醒、声纹识别等核心算法，能够为智能音箱、机器人、智能车载等行业带来更自然的语音交互体验。据了解，除锤子的坚果3之外，今年年底前，这两大解决方案也会逐渐在其他手机、智能家居和机器人等产品上进行商业落地。
公司主要采用软件授权的商业模式，将算法软件授权给 OEM 厂家，嵌入在手机的数位讯号处理器（DSP ）芯片、麦克风芯片上，或直接把它封装成一个 SDK，提供给语音类软件运营商。不过随着市场需求提升，“有计划将算法和硬件结合起来，与芯片厂家合作定制一个专门、适合我们算法的芯片，一方面可以进一步提高方案的性能，还可以帮助客户降低系统总成本，缩短产品上市时间”，苗健彰说。
图｜大象声科 CEO 苗健彰（图片来源：DT 君）
不过由于大象声科的团队背景是以软件见长，而做硬件需要长期积累和大量投入，但他认为，“所谓语音芯片就是听觉芯片，什么样的公司做听觉芯片最合适的？其实是对于机器听觉算法有很强认知的公司，因为知道这个算法需要一个什么样的算力载体”，因此，大象声科也希望找到能够一同合作的伙伴。
当智能手机问世后，世界进入了触屏交互时代，很有潜力的新一代交互方式则落到了语音身上，特别是在双手被占据的场景中，用说的比用摸的更方便，像是开车、工厂、医疗场景，语音交互可能会慢慢存在于未来各种各样的设备中，“我们的技术在于将微弱的人声从嘈杂的背景当中提取出来，无形植入未来任何一台需要“听”的智能设备当中，这种存在其实是观察不到的”，就像是老子《道德经》中所言：大象无形，大音希声。
来源：微信公众号“橙空间iOrangeSpace”
责任编辑：
声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。
今日搜狐热点}

叫阿莫西中心