科技巨头无错们为什么如此渴求语音数据

点击联系发帖人 时间：2016-12-27 13:18

科技巨头小说

当前位置： &
科技巨头们为什么如此渴求语音数据？(2)
扫描到手机
11:16:37 & & &
高科技行业20世纪90年代开始重视语音识别技术时，微软等公司依靠的都是来自Linguistics Data Consortium等研究机构提供的公共数据——这个创立于1992年的语音和文本数据库获得了美国政府的支持，总部位于美国宾夕法尼亚大学。后来，开始收集自己的语音数据，其中一些来自志愿者朗读的各种内容。现在，随着语音控制软件逐步受到人们欢迎，他们也通过自己的产品和服务收集了很多数据。当你让自己的手机搜索信息、播放歌曲或导航路径时，这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时，她便会利用这些内容改进其自然语言理解能力（尽管在你叫她的名字之前，Alexa不会倾听你的对话。）“根据产品设计，你使用得越多，Alexa就越聪明。”Alexa资深首席科学家尼克·斯特罗姆（Nikko Strom）说。其中的关键挑战是让这项技术熟悉不同的语言、口音和方言。这一点在中国体现得尤为明显。为了收集中国各地的方言数据，百度在今年春节期间启动的一项营销计划，推出了方言对话项目。该公司向用户承诺，如果他们为该项目作出贡献，今后便可使用自己的方言与百度展开互动。短短两周内，该公司就录制了超过1000小时的方言数据。很多人完全免费提供这些数据，因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷，他甚至让全班同学用四川话录制了1000多首古诗。另外一大挑战是让语音识别技术在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的环境。微软也在Xbox上部署了一款名为Voice Studio的应用，专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容，该公司为参与其中的用户提供了各种各样的奖励，包括点卡和游戏道具。该项目在巴西展开了大力推广，当地团队还在Xbox主页上着重推广这款应用。他们随后利用这些数据开发了巴西葡萄牙语版的Cortana语音助理，并于今年早些时候发布。各路企业还在为特定的环境设计语音识别系统。微软一直在测试一项技术，以便在不受机场广播信息干扰的情况下回答旅行者的问题。该公司的技术还被用于麦当劳汽车穿梭餐厅的自动点餐系统。这套系统可以忽略嘈杂的汽车音响、孩子们的叫声和各种各样的口头语，从中提取出复杂的指令，甚至连调味品也不会错过。亚马逊也在汽车上展开测试，希望Alexa能够适应道路上的各种噪音。在各大企业争相收集数据的过程中，他们也在努力改进技术，希望利用更少的数据实现更好的语音识别效果。微软首席语音科学家黄雪冬已经在该公司从事了20多年的语音识别技术开发工作，他表示，麦当劳正在测试的技术比其他系统更加精确，但使用的数据却更少。“即便数据量不是最大的，仍然可以实现技术突破。”谷歌向来信仰“少即是多”的理念，因此该公司开发了一种技术，希望利用不知所云的声音来构建文字和短语。借助该公司的语音识别系统，他们希望通过一项改变来解决各种不同的问题。谷歌拼接了数万段时长仅有2至5秒的语音片段。该公司研究员弗朗索瓦兹·比伦法斯（Francoise Beaufays）表示，这一过程所需的计算资源更少，但却更容易测试和修改。百度也在开发更加高效的算法，只需学习一种语言便可简化另外12种语言的学习难度。在学习只有数万人掌握的语种时，这种技术显得至关重要——因为很难针对这样的语言收集庞大的数据。在被问及何时才能通过自然语言与数字助理交流，并得到满意的答案时，就连吴恩达这样的顶尖科学家也无法给出确切答案。即便是对最高水平的神经网络学家而言，这项技术仍然有很多谜团有待解开。有很多工作只能通过不断试错来改进，没有人敢保证某项技术调整可能产生什么样的后果。根据现有的技术和方法，这一过程大约要耗费数年时间。但吴恩达、黄雪冬和比伦法斯等科学家都表示，我们永远无法知道何时能够实现突破，何时能让Alexa和Siri与人类展开真正的对话。（鼎宏）
用微信扫描二维码分享至好友和朋友圈
精彩高清图推荐：
为您推荐：此页面上的内容需要较新版本的 Adobe Flash Player。
尉犁县委书记
全面主持县委工作。负责县委常委会全盘工作。…
库尉党委常委、…
主持县人民政府工作。主管人民武装、外事（侨…
www. All Rights Reserved&&&新ICP备号
主办：中共尉犁县委、尉犁县人民政府&&&承办：尉犁县信息化办公室各位有没有发现：在的鞋款有越来越多的应用 3M 反光技术？Air Jordan 12 Chinese New Year配色（中国新年配色！！）随著农历新年逐渐临近，专为这项佳节而打造的鞋款开始纷纷登场；作为中国内地发售的首款 Air Jordan，Air Jordan 12 Taxi 成为很多鞋迷心中最深的球鞋记忆，而这双 Chinese New Year 便以 Taxi 经典的黑、白配色为基础；除了加入 3M 反光元素之外，还在黑色部分压印了象征中国传统手工艺的藤织纹理，而金色部分上也印有竹木花纹丰富细节；最后通过鞋舌和鞋垫上的汉字贰拾，呼应第 12 代和 Jordan Brand 进入中国 20 年的双重含义；据悉这双鞋将于明年 1 月 28 日正式发售，喜欢的朋友千万不要错过哟~（除了这款含有 3M 反光元素之外；下面这款也有哟）3M反光，Air Jordan 6 GS &Hyper Pink 发售信息同 Air Jordan 13 GS 一样，Air Jordan 6 GS 也将发售 Hyper Pink 配色；相比于13代鞋面外观仅在鞋头logo处点缀粉色，6代更添彩的地方，是中底部分加入粉色泼墨设计、鞋带锁与鞋提处也加入粉色点缀，更添活力与俏皮；另外，鞋面同样也加入3M反光设计。重要信息；↓↓↓Air Jordan 6 Retro GS货号: 发售日期: 日售价: $140这两款你们更喜欢哪款呢？~至极白的 Harden Vol 1 Christmas此次，adidas Harden Vol 1 为我们带来了纯白的配色；Christmas 意为为圣诞，众所周知，圣诞那天多为大雪，以此衬托出白，后跟三道杠与鞋底部分的特殊色彩设计就像是汲取了雪地反射幽光的特点；圣诞节前，这双纯净的 Harden Vol 1 就将发售，与我们一起迎接圣诞。重要信息；↓↓↓adidas Harden Vol. 1 Christmas货号：B39495发售日期：日（今天哟~~）售价：$160adidas 发布 NMD R1 PK Tri-Color 系列在上周由德国球鞋名所 Afew 率先上脚示范后，adidas Originals 终于正式为 NMD_R1 带来让人期待已久的 Tri-Color 系列；当中两双 NMD_R1 均采用全 Primeknit 材质构成鞋身，在鞋面注入独特的 White Noise 编织纹路，并分别与黑、白前后稳定块呼应；而两侧的蓝/白/红与蓝/黑/红三线则成为了焦点所在，该系列两双鞋款均搭配黑色鞋眼片、后跟拼贴以及白色的 BOOST 中底；将于 12 月 26 日登陆全球各大 adidas Originals 指定店铺。NL23(nl23degrees)　
　文章为作者独立观点，不代表大不六文章网立场
nl23degrees球鞋潮流资讯，鞋品谍报，对话与探究。Nike、Y-3、adidas、new balance、Reebok、CONVERSE、Vans等，岂止于Air Jordan。热门文章最新文章nl23degrees球鞋潮流资讯，鞋品谍报，对话与探究。Nike、Y-3、adidas、new balance、Reebok、CONVERSE、Vans等，岂止于Air Jordan。&&&&违法和不良信息举报电话：183-
举报邮箱：
Copyright(C)2016 大不六文章网
京公网安备78科技巨头们为什么如此渴求语音数据？
作者：鼎宏来源：新浪科技
　　导语：彭博社今天撰文称，谷歌、微软和亚马逊等科技巨头之所以争相收集用户的语音信息，是因为语音识别服务需要依赖庞大的数据才能更加完善，只有这样才有可能改进如今仍然有些蹩脚的语音识别技术，最终让帮助机器与人类展开自然对话。
　　以下为文章全文：
　　亚马逊Echo让人工智能家庭助理走进现实。使用过Echo内置的Alexa语音助理的用户都会被她的魅力所折服：“她”不仅能打专车，还能叫外卖，甚至可以完成高一的数学家庭作业。亚马逊甚至声称，每天有超过5000人对Alexa示爱。
　　但与此同时，Alexa的用户也都知道：除非你用缓慢的语速清晰地说出自己的指令，否则她很有可能对你说：“抱歉，我无法回答这个问题。”有一位用户在亚马逊网站上写道：“我实在是对她又爱又恨。” 但这位用户仍然给了Alexa五星好评。“你很快就会学会通过她能理解的方式与之沟通，就像跟刚会走路的孩子说话一样。”
　　语音识别在过去几年实现了巨大进步，但仍不足以让这项技术融入日常生活，开启人机互动的新时代，让我们与汽车、洗衣机、电视机等所有电子产品展开语音沟通。尽管语音识别已经取得了长足进步，但多数人仍会沿用手势操作和触摸界面。在可预见的未来，这种趋势恐怕难以改变。
　　障碍究竟何在？一定程度上源于这种技术背后的人工智能仍有改进空间。数据缺乏也同样也是一大问题――不同语言、不同口音、不同方言的语音数据尤其匮乏。倘若是在嘈杂的环境中，使用效果更是大打折扣。
<img alt="谷歌中心Google Home" src="./W.jpg" OLDSRC="W.jpg" />
　　谷歌智能家居中心Google Home
　　所以，亚马逊、苹果、微软和中国的百度都在世界范围内广泛收集海量的人类语音数据。微软已经在多地建设了专门的部门，录制志愿者在家居环境中的对话内容。亚马逊每个小时都会将Alexa收到的海量语音请求上传到庞大的数据库。百度也在中国各地收集方言数据。在此之后，他们都会利用这些数据教给电脑如何分析、理解、响应不同的语音指令和语音请求。
　　真正的挑战在于寻找一种方式来捕捉自然状态下的真实对话。百度加州桑尼韦尔人工实验室负责人亚当?科茨（Adam Coates）表示，就算是95%的准确率也不足以满足人们的需求。“我们的目标是将错误率降低到1%。”他说，“只有达到这种水平，我们才能相信机器能够理解我们的话。这将是革命性的。”
　　不久以前，语音识别还非常粗糙。在2006年的一次演示中，微软早期在Windows中配备的一项技术甚至把“mom”听成了“aunt”。当苹果五年前推出Siri时，这款个人助理同样因为无法返回正确答案或听不清问题而备受嘲笑。在被问及吉莉安?安德森（Gillian Anderson）是不是英国人时，Siri竟然给出了一份英国餐馆的列表。
　　微软现在表示，该公司的语音引擎错误率甚至可以媲美专业速录员。Siri也勉强获得了人们的尊重，Alexa更是让我们窥见了未来。
　　这种进步很大程度上归功于神经网络技术的发展，这是一种模拟人脑结构的人工智能技术. 神经网络无需明确的指令便可自学各种内容，但通常需要辅以庞大而多样的数据。语音识别引擎获得的数据越多，就越能理解不同的声音，也就更加接近在众多语言环境中实现自然对话的目标。
　　正因如此，科技巨头才争相在世界各地收集不同的语音数据。“我们的系统获得的数据越多，表现就越好。”百度首席科学家吴恩达说，“正因如此，语音识别才是一项资本密集型业务。没有多少组织拥有如此庞大的数据。”
　　高科技行业20世纪90年代开始重视语音识别技术时，微软等公司依靠的都是来自Linguistics Data Consortium等研究机构提供的公共数据――这个创立于1992年的语音和文本数据库获得了美国政府的支持，总部位于美国宾夕法尼亚大学。
　　后来，科技公司开始收集自己的语音数据，其中一些来自志愿者朗读的各种内容。现在，随着语音控制软件逐步受到人们欢迎，他们也通过自己的产品和服务收集了很多数据。
　　当你让自己的手机搜索信息、播放歌曲或导航路径时，这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时，她便会利用这些内容改进其自然语言理解能力（尽管在你叫她的名字之前，Alexa不会倾听你的对话。）“根据产品设计，你使用得越多，Alexa就越聪明。”Alexa资深首席科学家尼克?斯特罗姆（Nikko Strom）说。
　　亚马逊Echo智能音箱
　　其中的关键挑战是让这项技术熟悉不同的语言、口音和方言。这一点在中国体现得尤为明显。为了收集中国各地的方言数据，百度在今年春节期间启动的一项营销计划，推出了方言对话项目。该公司向用户承诺，如果他们为该项目作出贡献，今后便可使用自己的方言与百度展开互动。短短两周内，该公司就录制了超过1000小时的方言数据。很多人完全免费提供这些数据，因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷，他甚至让全班同学用四川话录制了1000多首古诗。
　　另外一大挑战是让语音识别技术在嘈杂的环境中识别语音指令――包括酒吧和体育场等人声鼎沸的环境。微软也在Xbox上部署了一款名为Voice Studio的应用，专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容，该公司为参与其中的用户提供了各种各样的奖励，包括点卡和游戏道具。该项目在巴西展开了大力推广，当地团队还在Xbox主页上着重推广这款应用。他们随后利用这些数据开发了巴西葡萄牙语版的Cortana语音助理，并于今年早些时候发布。
　　各路企业还在为特定的环境设计语音识别系统。微软一直在测试一项技术，以便在不受机场广播信息干扰的情况下回答旅行者的问题。该公司的技术还被用于麦当劳汽车穿梭餐厅的自动点餐系统。这套系统可以忽略嘈杂的汽车音响、孩子们的叫声和各种各样的口头语，从中提取出复杂的指令，甚至连调味品也不会错过。亚马逊也在汽车上展开测试，希望Alexa能够适应道路上的各种噪音。
　　在各大企业争相收集数据的过程中，他们也在努力改进技术，希望利用更少的数据实现更好的语音识别效果。微软首席语音科学家黄雪冬已经在该公司从事了20多年的语音识别技术开发工作，他表示，麦当劳正在测试的技术比其他系统更加精确，但使用的数据却更少。“即便数据量不是最大的，仍然可以实现技术突破。”
　　谷歌向来信仰“少即是多”的理念，因此该公司开发了一种技术，希望利用不知所云的声音来构建文字和短语。借助该公司的语音识别系统，他们希望通过一项改变来解决各种不同的问题。谷歌拼接了数万段时长仅有2至5秒的语音片段。该公司研究员弗朗索瓦兹?比伦法斯（Francoise Beaufays）表示，这一过程所需的计算资源更少，但却更容易测试和修改。
　　百度也在开发更加高效的算法，只需学习一种语言便可简化另外12种语言的学习难度。在学习只有数万人掌握的语种时，这种技术显得至关重要――因为很难针对这样的语言收集庞大的数据。
　　在被问及何时才能通过自然语言与数字助理交流，并得到满意的答案时，就连吴恩达这样的顶尖科学家也无法给出确切答案。即便是对最高水平的神经网络学家而言，这项技术仍然有很多谜团有待解开。有很多工作只能通过不断试错来改进，没有人敢保证某项技术调整可能产生什么样的后果。根据现有的技术和方法，这一过程大约要耗费数年时间。
　　但吴恩达、黄雪冬和比伦法斯等科学家都表示，我们永远无法知道何时能够实现突破，何时能让Alexa和Siri与人类展开真正的对话。（鼎宏）
中证网声明：凡本网注明&来源：中国证券报&中证网&的所有作品，版权均属于中国证券报、中证网。中国证券报&中证网与作品作者联合声明，任何组织未经中国证券报、中证网以及作者书面授权不得转载、摘编或利用其它方式使用上述作品。凡本网注明来源非中国证券报&中证网的作品，均转载自其它媒体，转载目的在于更好服务读者、传递信息之需，并不代表本网赞同其观点，本网亦不对其真实性负责，持异议者应与原出处单位主张权利。
document.getElementById("bdshell_js").src = "http://bdimg./static/js/shell_v2.js?cdnversion=" + new Date().getHours();}

叫阿莫西中心