离线声纹识别算法如何开发

点击联系发帖人 时间：2018-06-15 13:45

声纹识别软件

您现在的位置： &
声纹识别技术的发展现状与前景分析
http://www.50cnnet.com
日期： 12:45:10来源：物联中国点击：544次
核心提示：声纹识别对数据的要求其实比语音识别还要高很多，这本身就是个很大的门槛，也是突破声纹识别，真正能让声纹识别落地千家万户的核心因素。
&&&&&&&声纹识别还是一个比较窄的学科，应用也相对较少，在此之前，先给大家看几个声纹的例子。
&&&&&&&1个月大婴儿的哭声声纹
&&&&&&&男人的口哨声声纹
&&&&&&&下雨打雷声声纹
&&&&&&&接吻声声纹
&&&&&&&人声和枪声声纹
&&&&&&&每个例子都代表了不同的声音特征，从表面上来看还是非常容易区分的。直观就是看亮色的曲线差别，具体就是基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹，有条件的可以实时看自己的声纹。
&&&&&&&现状
&&&&&&&那我们就从声纹识别的基本原理谈起，声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的，简单的说就是辨别某一句话是否是某一个人说的技术。
&&&&&&&该项技术最早是在40年代末由贝尔实验室开发，主要用于军事情报领域。随着该项技术的逐步发展，60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术，从1967年到现在，美国至少5000多个案件包括谋杀、强奸、敲诈勒索、走私毒品、赌博，政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。特别强调的是，声纹鉴别目前已经是公安部的标准，是可以作为证据进行鉴定的。
&&&&&&&声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。
&&&&&&&这种独特的特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。每个人的发声腔都是不同的，就像指纹一样，每个人的声音也就有独特的特征。
&&&&&&&第二个决定声音特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。
&&&&&&&因此，理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。
&&&&&&&美国研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计，利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可，并且在各个领域中都有应用。
&&&&&&&声纹识别是个宽泛的概念，技术方面有分为两类：即说话人确认技术和说话人辨认技术，说话人确认技术是用于判断未知说话人是否为某个指定人;后者则是用于辨认未知说话人是已记录说话人中的哪一位。
&&&&&&&我们通常理解的都是说话人辨认技术，常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等，说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。
&&&&&&&目前来看，声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法，VQ聚类法等。
&&&&&&&这些方法虽然处理手段不同，但基本原理是类似的，比如刚开始给大家展示的语谱图。语谱图是声音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的声音的基频及谐频在语谱图上表现为一条一条的亮线，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。
&&&&&&&目前公安部声纹鉴别就采用类似方法，而且语谱图还是用的灰度来表示。主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征，然后再与模式识别等传统匹配方法结合进行声纹识别。
&&&&&&&美国和国内都有不少企业生产声纹识别的设备，公安部为采购这些设备还正式颁布了《安防声纹识别应用系统技术要求》的行业标准。
&&&&&&&但是这种方法是一种静态检测的方法，存在很大的弊端，实时性不好，动态检测声纹的需求实际上更大。
&&&&&&&局限
&&&&&&&现在的大部分研究都是有关动态实时检测方面的，动态检测的方法自然要利用静态检测的各种原理方法，同时也需要增加其他很多算法，比如VAD、降噪、去混响等。VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰，这不仅对于声纹检测很中重要，对于语音识别更加重要。
&&&&&&&VAD常用两个方法，基于能量检测和LTSD(Long-Term Spectral Divergence)，当前用的较多是LTSD，另外特征提取方面还需要：动态时间规整(DTW)、矢量量化(VQ)、支持向量机(SVM)，模型方面则需要隐马尔可夫模型(HMM)和高斯混合模型(GMM)。
&&&&&&&这是声纹识别常用算法的结构图，所有的声纹识别，不管是用传统算法还是深度学习，都需要事先建立声纹库，目前最全的应该是公安部的声纹鉴别库。
&&&&&&&从上面模型不难看出，声纹识别还是一种基于数据驱动的模式识别问题，因为所有模式识别存在的问题声纹都存在，而且声纹识别还有一些不太好解决的物理和计算问题。
&&&&&&&虽然声纹识别的唯一性很好，但实际上我们现有的设备和技术仍然很难做出准确分辨，特别是人的声音还具有易变性，易受身体状况、年龄、情绪等的影响。刚才也提到，若在环境噪音较大和混合说话人的环境下，声纹特征也是很难提取和建模的。
&&&&&&&虽然深度学习带给模式识别极大的提升，甚至还有开源的相关算法，但是声纹识别的研究进展仍然不大，这仍然受制于声纹的采集和特征的建立。
&&&&&&&另外就是真实环境下的各种影响，包括：
&&&&&&&1、噪音问题
&&&&&&&2、多人说话
&&&&&&&3、音乐噪声
&&&&&&&4、身体状况
&&&&&&&5、情绪影响
&&&&&&&先看噪声问题，下图是Mitchell McLaren在论文中做的研究，噪声对不同模型的声纹识别影响。
&&&&&&&从这个图中可以看出，混响和噪声对各类模型和方法都有非常大的影响，这和人类似，嘈杂环境中确实很难分辨出某个人的声音，但是人耳比较奇特，我们可以很好的处理这种&鸡尾酒会&效应，但是目前机器还做不到。
&&&&&&&音乐噪声很好理解，因为音乐通常是宽带信号，完全覆盖了人声的频段，这会非常影响声纹的特征表现，动态检测的时候更是难以提取，我们目前在语音识别中采用的是回声抵消的方法(严格来说是自噪声去除)，同样也可以用到声纹识别，但是面对其他设备音乐也很难处理，当前仅有波束形成这一方法。
&&&&&&&多人说话是声纹识别和语音识别都面临的问题，当前的所有模型都无法盲分离两个以上的人声并且同时进行识别。
&&&&&&&身体状况和情绪影响是我们每个人的主要个体差异，这种差异是基于时间变化的，所以声纹特征会出现某些变化，声纹鉴别可以通过反复取样避免这个问题，但是动态检测目前还没有好办法。
&&&&&&&从上面几点分析，也和我们主题相关，就是华帝的小V机器人，通过记录歌手的声纹信息进行判断歌手，理论上是没有问题的。但是难的就是，这是声纹识别最复杂的情况，不仅是要保证实时性，还要解决噪声问题、音乐干扰、两人识别以及歌手刻意隐藏的问题，至少目前来看，这项技术还远远没有成熟。
&&&&&&&即便从应用来看也是这样，除了声纹鉴别，声纹识别基本上就是在应用中充当娱乐的功能。另外，声纹可以作为认证手段，但是不应该放在第一位独立使用，而是配合其他认证手段同时使用。
&&&&&&&趋势
&&&&&&&声纹识别也和其他识别一样，也向着深度学习的方向发展，但是又和语音识别稍有差异，传统算法和模型在声纹识别中还占有相当大的比重。
&&&&&&&下图是Fred Richardson在论文中提出的声纹识别的深度学习模型示意
&&&&&&&深度学习的效果还是有的，下图就是各种方法的一种比较，也就说，将来实时声纹识别将会有比较大的突破。
&&&&&&&但是难度也很大，因为深度学习是基于数据驱动的模型，需要庞大的数据，这些数据最好是真实场景的数据，以及对数据的精确标注，这些都是很费钱很费人的事情。而且声纹识别训练库的建立，至少要保证性别比例分布为50%&5%，包含有不同年龄段、不同地域、不同口音、不同职业。同时，测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等影响声纹识别性能的主要因素。
&&&&&&&也就是说，声纹识别对数据的要求其实比语音识别还要高很多，这本身就是个很大的门槛，也是突破声纹识别，真正能让声纹识别落地千家万户的核心因素。
&&&&&&&读者提问：
&&&&&&&现在的声纹识别能够做到多人的同时识别吗?比如一个场景有一群人，可以识别区分出有哪些人或者人数吗?
&&&&&&&声纹识别和语音识别从技术上目前都还无法做到多人同时识别，上面第二个问题是声纹区分，这是可以做到的，不同人说话的声纹是不一样的，采用传统的方法即可区分出来，当然也可计算人数，但是有的声音仍然可能会被漏过。人耳有个掩蔽效应，简单说就是强的声音会淹没弱的声音，当前的声学模型还无法很好的解决。
&&&&&&&微信的摇一摇功能的电视语音识别技术使用的什么技术?
&&&&&&&微信摇一摇是声波通信技术，这和识别差异较大，声波通信和无线通信类似，特别是在水中，基本只能依赖声音进行信息传输。
&&&&&&&Adobe VoCo利用ml合成的音频，声纹识别是否还有效?
&&&&&&&合成的音频仍然是可以鉴别的，公安部的检测首先就要排除是否合成，但是当前动态检测的方法，特别是DNN训练的模型可能无法区分。
&&&&&&&根据语谱图使用CNN提取特征，会比使用常用的短时声学特征组合更有效吗?长时声学特征，比如常用语，语速，口音特征，词法特征等，一般会被用来辅助进行声纹识别吗?
&&&&&&&长时特征比短时特征效果会提升，但是目前来看，计算的压力会非常大，所以长时特征现在实时检测中用的还较少，声纹鉴别基本都是20秒以上，而实时检测每帧还是20毫秒居多。
&&&&&&&刚刚在分享中有提到声波是有机器学习的，如果黑客一开始就去诱骗数据库怎么办?
&&&&&&&这个问题非常好，是所有深度学习都无法回避的问题，如果保证采样数据的真实性，将来肯定是大问题，但是现在连如何保证数据的完整性都还没做到。实际上，我们采集的数据问题就非常多，标注的数据准确性就更难保证了，这是个困扰深度学习，也是深度学习研究人员尽量避免谈及的问题。
&&&&&&&做声纹识别这类声学研究，需要用到哪些基础的软硬件环境才能快速上手?能否推荐一些给初学者。
&&&&&&&声学研究因为偏物理一些，所以需要一些物理实验环境，比如声学方面的消声室，混响室，这可以帮助更好地理解声音，另外还需要精密的采集设备，软件方面倒是要求不高，有一些声学方面计算模拟的软件，信号处理方面的就是matlab为主。
出处：物联中国
郑重声明：本文仅代表作者个人观点，与物联中国(www.50cnnet.com)无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
12345678910
12345678910
12345678910
12345678910
媒体合作&&&
编辑投稿&&&
广告推广&&&
物联中国 ALL Reserved 网站域名：50CNNET.COM百度的语音识别是不是用的科大讯飞的？ - 知乎39被浏览<strong class="NumberBoard-itemValue" title="2分享邀请回答27添加评论分享收藏感谢收起0添加评论分享收藏感谢收起云知声&|&开放平台
http://dev.hivoice.cn:80
http://dev.hivoice.cn/index.jsp?fromPassport=true
使用其他方式登录
云知声物联网·智能开放平台
云知声借助云计算平台和移动互联网技术，广泛在移动互联网、智能家电、可穿戴设备、车载导航、医疗、教育、呼叫中心等领域，实现用户与设备及设备与设备之间的互联互通互动更大范围的帮助传统行业实现互联网化。
我们的优势
智能电视方案
语音操控、智能搜索、摆脱按键遥控，让电视华丽大变身。
音乐搜索方案
使音乐类应用实现语音搜索歌曲功能，轻轻诉说，聆听动人旋律。
视频搜索方案
使视频类应用实现语音搜索影片功能，以后搜片靠“吼”就够了。
购物搜索方案
购物需求，语音表述，轻松获取商品信息。网购，快人一步。
语音输入方案
告别按键输入，语音即可转化为文字，文本编辑本就该如此轻松惬意。
音频转写方案
音频转写功能，可将独立的音频文件、录音文件内的语言、声音转化为文字。
微信接入方案
Always on line的微信智能机器人，让你的公众账号永远有“人”打理。
智能车载方案
开启语音时代的汽车生活，更安全、更便捷。
语音操控音箱智能播放歌曲，相声，可语音调整音量大小，给您极致的交互体验。
通过语音命令实现开关空调，调控空调温度，实现完善的智能控制，实现聪明的“语音自动开关”。
在线体验我们的服务
如何使用云知声开放平台
1.创建应用
开发者在云知声语音开放平台中，点击“注册”成为平台开发者。
2.调整服务组合
点击“添加新服务”的按钮，输入应用的相关信息，并选择与需求匹配的方案。
开发者完成配置，点击应用需要的平台类型后，即可得到SDK包，进行集成开发。
4.应用上线发布
开发完成后，提交应用市场，审核通过后，就可以进行产品上线发布。
他们也在使用云知声平台
传真：+86-010-&>&声纹识别的特征参数提取
声纹识别的特征参数提取
上传大小：231KB
声纹识别的特征参数提取声纹识别的特征参数提取
综合评分：3
10积分/C币
{%username%}回复{%com_username%}{%time%}\
/*点击出现回复框*/
$(".respond_btn").on("click", function (e) {
$(this).parents(".rightLi").children(".respond_box").show();
e.stopPropagation();
$(".cancel_res").on("click", function (e) {
$(this).parents(".res_b").siblings(".res_area").val("");
$(this).parents(".respond_box").hide();
e.stopPropagation();
/*删除评论*/
$(".del_comment_c").on("click", function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_invalid/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parents(".conLi").remove();
alert(data.msg);
$(".res_btn").click(function (e) {
var parentWrap = $(this).parents(".respond_box"),
q = parentWrap.find(".form1").serializeArray(),
resStr = $.trim(parentWrap.find(".res_area_r").val());
console.log(q);
//var res_area_r = $.trim($(".res_area_r").val());
if (resStr == '') {
$(".res_text").css({color: "red"});
$.post("/index.php/comment/do_comment_reply/", q,
function (data) {
if (data.succ == 1) {
var $target,
evt = e || window.
$target = $(evt.target || evt.srcElement);
var $dd = $target.parents('dd');
var $wrapReply = $dd.find('.respond_box');
console.log($wrapReply);
//var mess = $(".res_area_r").val();
var mess = resS
var str = str.replace(/{%header%}/g, data.header)
.replace(/{%href%}/g, 'http://' + window.location.host + '/user/' + data.username)
.replace(/{%username%}/g, data.username)
.replace(/{%com_username%}/g, data.com_username)
.replace(/{%time%}/g, data.time)
.replace(/{%id%}/g, data.id)
.replace(/{%mess%}/g, mess);
$dd.after(str);
$(".respond_box").hide();
$(".res_area_r").val("");
$(".res_area").val("");
$wrapReply.hide();
alert(data.msg);
}, "json");
/*删除回复*/
$(".rightLi").on("click", '.del_comment_r', function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_comment_del/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parent().parent().parent().parent().parent().remove();
$(e.target).parents('.res_list').remove()
alert(data.msg);
//填充回复
function KeyP(v) {
var parentWrap = $(v).parents(".respond_box");
parentWrap.find(".res_area_r").val($.trim(parentWrap.find(".res_area").val()));
评论共有1条
论文含金量一般，只适合了解声纹特征参数
VIP会员动态
CSDN下载频道资源及相关规则调整公告V11.10
下载频道用户反馈专区
下载频道积分规则调整V1710.18
spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip
资源所需积分/C币
当前拥有积分
当前拥有C币
输入下载码
为了良好体验，不建议使用迅雷下载
声纹识别的特征参数提取
会员到期时间：
剩余下载个数：
剩余积分：0
为了良好体验，不建议使用迅雷下载
积分不足！
资源所需积分/C币
当前拥有积分
您可以选择
程序员的必选
绿色安全资源
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验，不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验，不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
您的积分不足，将扣除 10 C币
为了良好体验，不建议使用迅雷下载
无法举报自己的资源
你当前的下载分为234。
你还不是VIP会员
开通VIP会员权限，免积分下载
你下载资源过于频繁，请输入验证码
您因违反CSDN下载频道规则而被锁定帐户，如有疑问，请联络:!
若举报审核通过，可返还被扣除的积分
被举报人：
举报的资源分：
请选择类型
资源无法下载（ 404页面、下载失败、资源本身问题）
资源无法使用（文件损坏、内容缺失、题文不符）
侵犯版权资源（侵犯公司或个人版权）
虚假资源（恶意欺诈、刷分资源）
含色情、危害国家安全内容
含广告、木马病毒资源
*详细原因：
声纹识别的特征参数提取声纹识别开发包　|　Solution声纹识别开发包　|　Solution
当前位置： >
（1）支持自适应说话人模型训练；（2）支持自动背景噪音去除；（3）支持语音质量自动检测；（4）支持跨信道（GSM、CDMA、固话）声纹识别；（5）支持多说话人声纹识别；（6）可以文本无关、语言无关，也可以文本相关；（7）开集识别模式(即具备拒识功能)；（8）高效率与高准确度下的可靠性与灵活性；（9）支持上层多线程并发调用；（10）每个声纹模型可单独地、分布式存储，并具有独特的加解密算法，适合于基于数据库的大型应用。
（1）语音质量检测：对采集的用户语音进行质量分析，若质量合格，则进行后续处理，否则给出用户提示，如音量过低、噪音过大、语音截顶等；（2）静音检测：能够检测出输入语音含有的语音段和静音段，并能够判别用户是否停止说话；（3）声纹建模：通过对客户所录制的建模语音进行声纹模型训练，将模型存于数据库中；（4）文本无关声纹验证：录制客户的验证语音，从数据库中读出对应的客户的声纹模型，进行用户身份鉴定的声纹验证操作。文本无关声纹验证对说话的内容无具体要求；（5）文本相关声纹验证：对输入语音的话者身份和内容与客户声纹模型表征的身份和内容进行比对，只有在身份和内容完全正确的情况下，才能够被系统接受；（6）说话人跟踪：可以根据某一特定声纹模型，对输入语音进行检测，一方面判断语音中是否含有该说话人，另一方面判断该说话人在何时讲话；（7）离线和在线比对方式：可以支持离线语音文件方式声纹建模和声纹验证；也可以支持在线语音流方式实时声纹建模和声纹验证；（8）并发处理：能够对多路用户语音同时处理；（9）负载均衡：支持集群工作，能够将用户的请求分发到各个子服务器上进行处理，保证系统能够实时响应用户的输入；（10）异常处理：能够对异常情况进行处理，保证系统运行稳定。
地址：北京市海淀区清河嘉园东区3号楼
电话：；010-
邮编：100085
扫描访问手机站
北京正音天成技术有限公司版权所有京ICP备号}

叫阿莫西中心