如何评价google 开源的google tensorfloww Serving

点击联系发帖人 时间：2016-03-20 10:27

google tensorflow

IT168 评论本周早些时候Google开源了TensorFlow(GitHub)，此举在深度学习领域影响巨大，因为Google在人工智能领域的研发成绩斐然，有着雄厚的人才储备，而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。
　　无疑，来自Google军火库的TensorFlow必然是开源深度学习软件中的明星产品，登陆GitHub当天就成为最受关注的项目，当周获得评星数就轻松超过1万个。　　对于希望在应用中整合深度学习功能的开发者来说，GitHub上其实还有很多不错的开源项目值得关注，首先我们推荐目前规模人气最高的TOP3：　　一、Caffe。源自加州伯克利分校的Caffe被广泛应用，包括Pinterest这样的web大户。与TensorFlow一样，Caffe也是由C++开发，Caffe也是Google今年早些时候发布的DeepDream项目(可以识别喵星人的人工智能神经网络)的基础。　　二、Theano。2008年诞生于蒙特利尔理工学院，Theano派生出了大量深度学习Python软件包，最著名的包括Blocks和Keras。　　三、Torch。Torch诞生已经有十年之久，但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua(该语言曾被用来开发视频游戏)。　　除了以上三个比较成熟知名的项目，还有很多有特色的深度学习开源框架也值得关注：　　四、Brainstorm。来自瑞士人工智能实验室IDSIA的一个非常发展前景很不错的深度学习软件包，Brainstorm能够处理上百层的超级深度神经网络&&所谓的公路网络Highway Networks。　　五、Chainer。来自一个日本的深度学习创业公司Preferred Networks，今年6月发布的一个Python框架。Chainer的设计基于define by run原则，也就是说，该网络在运行中动态定义，而不是在启动时定义，这里有Chainer的详细文档。　　六、Deeplearning4j。顾名思义，Deeplearning4j是&for Java&的深度学习框架，也是首个商用级别的深度学习开源库。Deeplearning4j由创业公司Skymind于2014年6月发布，使用Deeplearning4j的不乏埃森哲、雪弗兰、博斯咨询和IBM等明星企业。　　DeepLearning4j是一个面向生产环境和商业应用的高成熟度深度学习开源库，可与Hadoop和Spark集成，即插即用，方便开发者在APP中快速集成深度学习功能，可应用于以下深度学习领域：　　人脸/图像识别　　语音搜索　　语音转文字(Speech to text)　　垃圾信息过滤(异常侦测)　　电商欺诈侦测　　七、Marvin。是普林斯顿大学视觉工作组新推出的C++框架。该团队还提供了一个文件用于将Caffe模型转化成语Marvin兼容的模式。　　八、ConvNetJS。这是斯坦福大学博士生Andrej Karpathy开发浏览器插件，基于万能的t可以在你的游览器中训练神经网络。Karpathy还写了一个ConvNetJS的入门教程，以及一个简洁的浏览器演示项目。　　九、MXNet。出自CXXNet、Minerva、Purine等项目的开发者之手，主要用C++编写。MXNet强调提高内存使用的效率，甚至能在智能手机上运行诸如图像识别等任务。　　十、Neon。由创业公司Nervana Systems于今年五月开源，在某些基准测试中，由Python和Sass开发的Neon的测试成绩甚至要优于Caffeine、Torch和谷歌的TensorFlow。　　标签：开源,Google,开源项目
阅读(...) 评论()怎样评价谷歌语音合成的WaveNet和微软语音识别的“里程碑”？
已有 3457 次阅读
|系统分类:|关键词:语音合成语音识别
最近几周，语音交互领域非常的热闹，谷歌和微软的几则新闻相继刷爆了朋友圈，先来回顾下这三则新闻：首先是Google的DeepMind实验室9月初公布了其在语音合成领域的最新成果WaveNet，一种原始音频波形深度生成模型，能够模仿人类的声音，生成的原始音频质量优于目前常用的语音合成方法：参数化合成（Parameric TTS）与拼接式合成（Concatenative TTS）。没几天，谷歌大脑团队成员在 GitHub 发布消息，开源了一个基于One Billion Word Benchmark预先训练过的模型。这个数据库含有大约 10 亿个单词，词汇有 80 万单词，大部分都是新闻数据。论文作者对 CNN 或 LSTM做了彻底研究，单一模型最好成绩将结果从 51.3 提高到 30.0（同时将参数数量减少了 20 倍），模型融合的后将混淆度（perplexity）从 41.0下降到 23.7。随后，微软首席语音科学家黄学东在论文中表示，他们在近期产业标准Switchboard语音识别基准测试中，实现词错率(WER)低至6.3%的这一技术突破，这比IBM上周达到的6.6%WER下降了0.3%，达到目语音识别领域错误率最低的水平。这个突破被视为微软语音识别的里程碑。怎样评价谷歌发布的WaveNet语音合成方法？最引人关注的自然是Google发布的WaveNet。这是一个新的思路，在此之前，语音合成已经很长时间没有任何实质性进步，无非就是参数化和拼接式两种方法。参数化语音合成是最常用也是历史最悠久的方法，就是利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造声音数据。当前机器人的发音主要就是采用的这种方法，不过参数化合成的语音听起来总是不自然，真的就像机器发出的声音。另外一种就是拼接式语音合成，先录制单一说话者的大量语音片段，建立一个大型语料库，然后简单地从中进行选择并合成完整的大段音频、词语和句子。我们有时会听到机器模仿某些明星的声音，其背后技术就是这种方法。但是这种方法要求语料库非常大，而且处理不好就经常产生语音毛刺和语调的诡异变化，并且无法调整语音的抑扬顿挫。 WaveNet则引入了一种全新的思路，区别于上面两种方法，这是一种从零开始创造整个音频波形输出的技术。WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络，让其能够辨别语音和语言的模式。WaveNet的效果是惊人的，其输出的音频明显更接近自然人声。WaveNet技术无疑是计算机语音合成领域的一大突破，也在业界引起了广泛讨论，其最大缺点就是计算量太大，但是从公开的论文来看，其中的细节还都存在很多优化方法。事实上，一旦新的思路和模型确定，计算优化只是工程问题，自然语音合成距离我们又迈进了一大步！怎样评价微软语音识别的“里程碑”？微软例行的PR新闻而已，没有多大参考意义，即便谷歌开源的模型也是这样。自从Siri发布以来，每年我们都会看到大量这种将语音识别率提升到某某级别的新闻，但是实际结果呢？语音交互一直没有走进千家万户，总是与我们的预期差了很多。首先来看，谷歌开源的预训练模型和微软语音识别率的“里程碑”，其实都是基于公开测试样本库的模型改进。业界都很清楚，除非思路和模型有颠覆性改变，模型的优化实际上带来的提升空间非常有限，而训练集合的数据深度、广度和匹配才是当前提升识别率的关键，但是这也是真实场景应用中最为头疼的事情，需要借助麦克风阵列和声学技术处理和匹配。例如谷歌开源的预训练模型，其数据库主要是基于新闻报道，这种类型的数据比起口语数据更加规范。但是在实际的应用中，模型面对的通常是非正式化的数据。所以这种模型能否适应实际应用，目前来说依然是一个大问号。微软基于NIST 2000 Switchboard的集合相比IBM下降了0.3%，搞不明白微软这个有啥可宣传的，各家测试过程中经常会跑出各种各样的WER，而且这种在标准测试集合中的提升幅度对实际应用压根没任何影响。微软真是太喜欢写论文了，而且最近总会被动跟着谷歌做这类无关痛痒的宣传。其次再说，语音识别模型方面真的没有什么太大的新闻，HTK和Kaldi两大语音识别开源平台基本上已经集成了最好用的一些模型，而现在大量研究人员做的无非就是优化和改进模型，但是区别都不是太大。每家公司报的95%和97%的语音识别率也仅仅是个参考意义，因为每家公司训练的样本集和测试集都不一样，这个参数实际上没有可对比性。最为重要的是，这和实际环境的语音识别率差别很大，对于非规则语音来说，匹配是个极其难以解决的问题，这需要前端和后端都对语音数据进行声学方面的处理。最后再说，当前的语音交互还有很多痛点要解决，首当其冲的就是人机交互在真实环境的自适应性。比如现在的语音交互设备要求说话要靠近，发音要标准，环境要安静等等，这都需要麦克风进行处理。其实所有真实场景的模式识别都会遇到这个问题，比如人脸识别，对光线、角度、距离也要有一定的要求。另外强调，人工智能现在来看还没有多少智能，这是一个重人力、重资本的行业，其所谓的智能基本都是依靠巨大的人力和财力投入换来的，这也是制约人工智能发展最大的瓶颈。即便训练一个简单的模型，各家公司就需要在数据采集和标注上投入巨额经费，另外还有流量和计算资源的投入。可怕的是，若训练结果不满意这些投入基本上都是水漂，再加上声学感知层面的处理和匹配，人工智能这个链条，真的不是一家创业公司随随便便玩动的。参考资料：/blog/wavenet-generative-model-raw-audio//tensorflow/models/tree/master/lm_1bhttp://arxiv.org/abs/http://arxiv.org/abs/
转载本文请联系原作者获取授权，同时请注明本文来自陈孝良科学网博客。链接地址：
上一篇：下一篇：
当前推荐数：9
评论 ( 个评论)
扫一扫，分享此博文
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &中国领先的IT技术网站
51CTO旗下网站
十个值得一试的开源深度学习框架
早些时候Google开源了TensorFlow(GitHub)，此举在深度学习领域影响巨大，因为Google在人工智能领域的研发成绩斐然，有着雄厚的人才储备，而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。对于希望在应用中整合深度学习功能的开发者来说，GitHub上其实还有很多不错的开源项目值得关注，本文推荐10个供大家参考！
作者：佚名来源：| 14:41
早些时候Google开源了TensorFlow()，此举在深度学习领域影响巨大，因为Google在人工智能领域的研发成绩斐然，有着雄厚的人才储备，而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。
无疑，来自Google军火库的TensorFlow必然是开源深度学习软件中的明星产品，登陆GitHub当天就成为最受关注的项目，获得评星数就轻松超过1万个。
对于希望在应用中整合深度学习功能的开发者来说，GitHub上其实还有很多不错的开源项目值得关注，首先我们推荐目前规模人气最高的TOP3：
源自加州伯克利分校的被广泛应用，包括Pinterest这样的web大户。与TensorFlow一样，Caffe也是由C++开发，Caffe也是Google今年早些时候发布的DeepDream项目(可以识别喵星人的人工智能神经网络)的基础。
2008年诞生于蒙特利尔理工学院，Theano派生出了大量深度学习Python软件包，最著名的包括和。
诞生已经有十年之久，但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua(该语言曾被用来开发视频游戏)。
除了以上三个比较成熟知名的项目，还有很多有特色的深度学习开源框架也值得关注：
4.Brainstorm
来自瑞士人工智能实验室IDSIA的一个非常发展前景很不错的深度学习软件包，能够处理上百层的超级深度神经网络&&所谓的公路网络。
来自一个日本的深度学习创业公司Preferred
Networks，今年6月发布的一个Python框架。Chainer的设计基于define by
run原则，也就是说，该网络在运行中动态定义，而不是在启动时定义，这里有Chainer的。
6.Deeplearning4j
顾名思义，是&for
Java&的深度学习框架，也是首个商用级别的深度学习开源库。Deeplearning4j由创业公司Skymind于2014年6月发布，使用
Deeplearning4j的不乏埃森哲、雪弗兰、博斯咨询和IBM等明星企业。
DeepLearning4j是一个面向生产环境和商业应用的高成熟度深度学习开源库，可与Hadoop和Spark集成，即插即用，方便开发者在APP中快速集成深度学习功能，可应用于以下深度学习领域：
◆人脸/图像识别
◆语音搜索
◆语音转文字(Speech to text)
◆垃圾信息过滤(异常侦测)
◆电商欺诈侦测
是普林斯顿大学新推出的C++框架。该团队还提供了一个用于将Caffe模型转化成语Marvin兼容的模式。
这是斯坦福大学博士生Andrej
Karpathy开发浏览器插件，基于万能的JavaScript可以在你的游览器中训练神经网络。Karpathy还写了一个ConvNetJS的入门教程，以及一个简洁的浏览器。
出自CXXNet、Minerva、Purine等项目的开发者之手，主要用C++编写。MXNet强调提高内存使用的效率，甚至能在智能手机上运行诸如图像识别等任务。
由创业公司Nervana
Systems于今年五月开源，在某些基准测试中，由Python和Sass开发的Neon的测试成绩甚至要优于Caffeine、Torch和谷歌的TensorFlow。
【编辑推荐】
【责任编辑： TEL：（010）】
大家都在看猜你喜欢
头条头条外电头条头条
24H热文一周话题本月最赞
讲师：0人学习过
讲师：5人学习过
讲师：0人学习过
精选博文论坛热帖下载排行
本书论述了软件开发价值增加的思维方式。这一思维方式构成了VSTS的基础，包括VSTS的指导思想，为什么这些指导思想会以某些方式表现，以及它...
订阅51CTO邮刊}

叫阿莫西中心

如何评价google 开源的google tensorfloww Serving

我要回帖

更多关于 google tensorflow 的文章

更多推荐