BP神经网络权值更新算法算法中权值W和阈值的定义是什么？

点击联系发帖人 时间：2018-07-27 02:24

bp神经网络没人用了

R语言与分类算法-神经网络_数据挖掘入门与实战_传送门
R语言与分类算法-神经网络
要学习更多点这?
数据挖掘入门与实战
公众号： datadw
人工神经网络(ANN)从以下四个方面去模拟人的智能行为:物理结构：人工神经元将模拟生物神经元的功能计算模拟：人脑的神经元有局部计算和存储的功能，通过连接构成一个系统。人工神经网络中也有大量有局部处理能力的神经元，也能够将信息进行大规模并行处理存储与操作：人脑和人工神经网络都是通过神经元的连接强度来实现记忆存储功能，同时为概括、类比、推广提供有力的支持训练：同人脑一样，人工神经网络将根据自己的结构特性，使用不同的训练、学习过程，自动从实践中获得相关知识
神经网络是一种运算模型，由大量的节点（或称“神经元”，或“单元”）和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。一、感知器
感知器相当于神经网络的一个单层，由一个线性组合器和一个二值阈值原件构成：
构成ANN系统的单层感知器：感知器以一个实数值向量作为输入，计算这些输入的线性组合，如果结果大于某个阈值，就输出1，否则输出‐1。感知器函数可写为：sign（w*x）有时可加入偏置b，写为sign（w*x+b）学习一个感知器意味着选择权w0,…,wn的值。所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合
算法训练步骤：1、定义变量与参数x（输入向量）,w（权值向量）,b（偏置）,y（实际输出）,d（期望输出）,a（学习率参数）2、初始化，n=0,w=03、输入训练样本，对每个训练样本指定其期望输出：A类记为1，B类记为-14、计算实际输出y=sign(w*x+b)5、更新权值向量w(n+1)=w(n)+a[d-y(n)]*x(n),0<a<16、判断，若满足收敛条件，算法结束，否则返回3
注意，其中学习率a为了权值的稳定性不应过大，为了体现误差对权值的修正不应过小，说到底，这是个经验问题。
从前面的叙述来看，感知器对于线性可分的例子是一定收敛的，对于不可分问题，它没法实现正确分类。这里与我们前面讲到的支持向量机的想法十分的相近，只是确定分类直线的办法有所不同。可以这么说，对于线性可分的例子，支持向量机找到了“最优的”那条分类直线，而单层感知器找到了一条可行的直线。
我们以鸢尾花数据集为例，由于单层感知器是一个二分类器，所以我们将鸢尾花数据也分为两类，“setosa”与“versicolor”（将后两类均看做第2类），那么数据按照特征：花瓣长度与宽度做分类。运行下面的代码：[plain] view plaincopyprint#感知器训练结果：
w<-rep(0,3)
iris1<-t(as.matrix(iris[,3:4]))
d<-c(rep(0,50),rep(1,100))
e<-rep(0,150)
p<-rbind(rep(1,150),iris1)
max<-100000
eps<-rep(0,100000)
eps[i+1]<-sum(abs(e))/length(e)
if(eps[i+1]<0.01){
print("finish:");
w<-w+a*(d-y)%*%t(p);
if(i>max){
print("max time loop");
print(eps[i])
plot(Petal.Length~Petal.Width,xlim=c(0,3),ylim=c(0,8),
data=iris[iris$Species=="virginica",])
data1<-iris[iris$Species=="versicolor",]
points(data1$Petal.Width,data1$Petal.Length,col=2)
data2<-iris[iris$Species=="setosa",]
points(data2$Petal.Width,data2$Petal.Length,col=3)
x<-seq(0,3,0.01)
y<-x*(-w[3]/w[2])-w[1]/w[2]
lines(x,y,col=4)
#绘制每次迭代的平均绝对误差
plot(1:i,eps[1:i],type="o")
分类结果如图：
这是运行了7次得到的结果。与我们前面的支持向量机相比，显然神经网络的单层感知器分类不是那么的可信，有些弱。（原来的代码和图有一点小问题，感谢@xuchaohit的指正）
我们可以尝试来做交叉验证，可以发现交叉验证结果并不理想。二、线性神经网络
尽管当训练样例线性可分时，感知器法则可以成功地找到一个权向量，但如果样例不是线性可分时它将不能收敛。因此，人们设计了另一个训练法则来克服这个不足，称为delta法则。
如果训练样本不是线性可分的，那么delta法则会收敛到目标概念的最佳近似。
delta法则的关键思想是使用梯度下降来搜索可能权向量的假设空间，以找到最佳拟合训练样例的权向量。
我们将算法描述如下：1、定义变量与参数。x（输入向量）,w（权值向量）,b（偏置）,y（实际输出）,d（期望输出）,a（学习率参数）（为叙述简便，我们可以将偏置并入权值向量中）2、初始化w=03、输入样本，计算实际输出与误差。e(n)=d-x*w(n)4、调整权值向量w(n+1)=w(n)+a*x*e(n)5、判断是否收敛，收敛结束，否则返回3
Hayjin证明，只要学习率a<2/maxeign, delta法则按方差收敛。其中maxeigen为x’x的最大特征值。故我们这里使用1/maxeign作为a的值。
我们还是以上面的鸢尾花数据为例来说这个问题。运行代码：[plain] view plaincopyprintp<-rbind(rep(1,150),iris1)
d<-c(rep(0,50),rep(1,100))
w<-rep(0,3)
a<-1/max(eigen(t(p)%*%p)$values)
e<-rep(0,150)
eps<-rep(0,1000)
for(i in 1:max){
eps[i+1]<-sum(e^2)/length(e)
w<-w+a*(d-y)%*%t(p);
if(i==max)
得到分类直线：
相比感知器分类而言已经好了太多了，究其原因不外乎传递函数由二值阈值函数变为了线性函数，这也就是我们前面提到的delta法则会收敛到目标概念的最佳近似。增量法则渐近收敛到最小误差假设，可能需要无限的时间，但无论训练样例是否线性可分都会收敛。
为了明了这一点我们考虑鸢尾花数据后两类花的分类（这里我们将前两类看做一类），使用感知器：使用线性分类器：
但是要解释的一点是，收敛并不意味着分类效果更好，要解决线性不可分问题需要的是添加非线性输入或者增加神经元。我们以Minsky & Papert (1969)提出的异或例子为例说明这一点。使用线性神经网络，代码与上面完全相同，略。第一个神经元输出：权值： [,1]
-0.5测试： [,1]
1第二个神经元输出：权值： [,1]
0.5测试： [,1]
1求解异或逻辑（相同取0，不同取1）有结果：（代码xor(c(1,0,1,1),c(1,1,0,1))）[1] FALSE
FALSE即0，1，1，0，分类正确。
最后再说一点，Delta规则只能训练单层网络，但这不会对其功能造成很大的影响。从理论上说，多层神经网络并不比单层神经网络更强大，他们具有同样的能力。三、BP神经网络1、sigmoid函数分类
回顾我们前面提到的感知器，它使用示性函数作为分类的办法。然而示性函数作为分类器它的跳点让人觉得很难处理，幸好sigmoid函数y=1/(1+e^-x)有类似的性质，且有着光滑性这一优良性质。我们通过下图可以看见sigmoid函数的图像：Sigmoid函数有着计算代价不高，易于理解与实现的优点但也有着欠拟合，分类精度不高的特性，我们在支持向量机一章中就可以看到sigmoid函数差劲的分类结果。2、BP神经网络结构
BP (Back Propagation)神经网络，即误差反传误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成。由下图可知，BP神经网络是一个三层的网络:输入层(input layer)：输入层各神经元负责接收来自外界的输入信息，并传递给中间层各神经元；隐藏层(Hidden Layer):中间层是内部信息处理层，负责信息变换，根据信息变化能力的需求，中间层可以设计为单隐层或者多隐层结构；最后一个隐层传递到输出层各神经元的信息，经进一步处理后，完成一次学习的正向传播处理过程；输出层(Output Layer):顾名思义，输出层向外界输出信息处理结果；
当实际输出与期望输出不符时，进入误差的反向传播阶段。误差通过输出层，按误差梯度下降的方式修正各层权值，向隐藏层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程，是各层权值不断调整的过程，也是神经网络学习训练的过程，此过程一直进行到网络输出的误差减少到可以接受的程度，或者预先设定的学习次数为止。3、反向传播算法
反向传播这一算法把我们前面提到的delta规则的分析扩展到了带有隐藏节点的神经网络。为了理解这个问题，设想Bob给Alice讲了一个故事，然后Alice又讲给了Ted，Ted检查了这个事实真相，发现这个故事是错误的。现在 Ted 需要找出哪些错误是Bob造成的而哪些又归咎于Alice。当输出节点从隐藏节点获得输入，网络发现出现了误差，权系数的调整需要一个算法来找出整个误差是由多少不同的节点造成的，网络需要问，“是谁让我误入歧途？到怎样的程度？如何弥补？”这时，网络该怎么做呢？
同样源于梯度降落原理，在权系数调整分析中的唯一不同是涉及到t(p,n)与y(p,n)的差分。通常来说Wi的改变在于：
alpha * s'(a(p,n)) * d(n) *X(p,i,n)
其中d(n)是隐藏节点n的函数，让我们来看：n 对任何给出的输出节点有多大影响；输出节点本身对网络整体的误差有多少影响。
一方面，n 影响一个输出节点越多，n 造成网络整体的误差也越多。另一方面，如果输出节点影响网络整体的误差越少，n 对输出节点的影响也相应减少。这里d(j)是对网络的整体误差的基值，W(n,j) 是 n 对 j 造成的影响，d(j) * W(n,j) 是这两种影响的总和。但是 n 几乎总是影响多个输出节点，也许会影响每一个输出结点，这样，d(n) 可以表示为：SUM(d(j)*W(n,j))
这里j是一个从n获得输入的输出节点，联系起来，我们就得到了一个培训规则。第1部分：在隐藏节点n和输出节点j之间权系数改变，如下所示：alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)第 2 部分：在输入节点i和输出节点n之间权系数改变，如下所示：alpha *s'(a(p,n)) * sum(d(j) * W(n,j)) * X(p,i,n)
这里每个从n接收输入的输出节点j都不同。关于反向传播算法的基本情况大致如此。
通常把第 1部分称为正向传播，把第2部分称为反向传播。反向传播的名字由此而来。4、最速下降法与其改进
最速下降法的基本思想是：要找到某函数的最小值，最好的办法是沿函数的梯度方向探寻，如果梯度记为d,那么迭代公式可写为w=w-alpha*d，其中alpha可理解为我们前面提到的学习速率。
最速下降法有着收敛速度慢（因为每次搜索与前一次均正交，收敛是锯齿形的），容易陷入局部最小值等缺点，所以他的改进办法也有不少，最常见的是增加动量项与学习率可变。
增加冲量项（Momentum）修改权值更新法则，使第n次迭代时的权值的更新部分地依赖于发生在第n‐1次迭代时的更新Delta（w）(n)=-alpha*(1-mc)*Delta(w)(n)+mc*Delta(w)(n-1)右侧第一项就是权值更新法则，第二项被称为冲量项梯度下降的搜索轨迹就像一个球沿误差曲面滚下，冲量使球从一次迭代到下一次迭代时以同样的方向滚动冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域冲量也具有在梯度不变的区域逐渐增大搜索步长的效果，从而加快收敛。
改变学习率当误差减小趋近目标时，说明修正方向是正确的，可以增加学习率；当误差增加超过一个范围时，说明修改不正确，需要降低学习率。5、BP神经网络的实现（1）数据读入，这里我们还是使用R的内置数据——鸢尾花数据，由于神经网络本质是2分类的，所以我们将鸢尾花数据也分为两类（将前两类均看做第2类），按照特征：花瓣长度与宽度做分类。（2）划分训练数据与测试数据（3）初始化BP网络，采用包含一个隐含层的神经网络，训练方法使用包含动量的最速下降法，传递函数使用sigmoid函数。（4）输入样本，对样本进行归一化，计算误差，求解误差平方和（5）判断是否收敛（6）根据误差调整权值。权值根据以下公式进行调整：Delta（w）= alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)其中，alpha为学习率，s'(a(p,n))*(t(p,n)- y(p,n))为局部梯度。此外，由于使用了有动量因子的最速下降法，除第一次外，后续改变量应为：Delta（w）(n)=-alpha*(1-mc)*Delta(w)(n)+mc*Delta(w)(n-1)(7)测试，输出分类正确率。完整的R代码：[plain] view plaincopyprintiris1<-as.matrix(iris[,3:4])
iris1<-cbind(iris1,c(rep(1,100),rep(0,50)))
set.seed(5)
n<-length(iris1[,1])
samp<-sample(1:n,n/5)
traind<-iris1[-samp,c(1,2)]
train1<-iris1[-samp,3]
testd<-iris1[samp,c(1,2)]
test1<-iris1[samp,3]
set.seed(1)
ntrainnum<-120
nsampdim<-2
net.nin<-2
net.nhidden<-3
net.nout<-1
w<-2*matrix(runif(net.nhidden*net.nin)-0.5,net.nhidden,net.nin)
b<-2*(runif(net.nhidden)-0.5)
net.w1<-cbind(w,b)
W<-2*matrix(runif(net.nhidden*net.nout)-0.5,net.nout,net.nhidden)
B<-2*(runif(net.nout)-0.5)
net.w2<-cbind(W,B)
traind_s<-traind
traind_s[,1]<-traind[,1]-mean(traind[,1])
traind_s[,2]<-traind[,2]-mean(traind[,2])
traind_s[,1]<-traind_s[,1]/sd(traind_s[,1])
traind_s[,2]<-traind_s[,2]/sd(traind_s[,2])
sampinex<-rbind(t(traind_s),rep(1,ntrainnum))
expectedout<-train1
maxiter<-2000
errrec<-rep(0,maxiter)
outrec<-matrix(rep(0,ntrainnum*maxiter),ntrainnum,maxiter)
sigmoid<-function(x){
y<-1/(1+exp(-x))
for(i in 1:maxiter){
hid_input<-net.w1%*%
hid_out<-sigmoid(hid_input);
out_input1<-rbind(hid_out,rep(1,ntrainnum));
out_input2<-net.w2%*%out_input1;
out_out<-sigmoid(out_input2);
outrec[,i]<-t(out_out);
err<-expectedout-out_
sse<-sum(err^2);
errrec[i]<-
iter<-iter+1;
if(sse<=eps)
Delta<-err*sigmoid(out_out)*(1-sigmoid(out_out))
delta<-(matrix(net.w2[,1:(length(net.w2[1,])-1)]))%*%Delta*sigmoid(hid_out)*(1-sigmoid(hid_out));
dWex<-Delta%*%t(out_input1)
dwex<-delta%*%t(sampinex)
net.w2<-net.w2+a*dW
net.w1<-net.w1+a*
net.w2<-net.w2+(1-mc)*a*dWex+mc*dW
net.w1<-net.w1+(1-mc)*a*dwex+mc*
dWexold<-dW
testd_s<-testd
testd_s[,1]<-testd[,1]-mean(testd[,1])
testd_s[,2]<-testd[,2]-mean(testd[,2])
testd_s[,1]<-testd_s[,1]/sd(testd_s[,1])
testd_s[,2]<-testd_s[,2]/sd(testd_s[,2])
inex<-rbind(t(testd_s),rep(1,150-ntrainnum))
hid_input<-net.w1%*%inex
hid_out<-sigmoid(hid_input)
out_input1<-rbind(hid_out,rep(1,150-ntrainnum))
out_input2<-net.w2%*%out_input1
out_out<-sigmoid(out_input2)
out_out1<-out_out
out_out1[out_out<0.5]<-0
out_out1[out_out>=0.5]<-1
rate<-sum(out_out1==test1)/length(test1)
分类正确率为：0.9333333，是一个不错的学习器。这里需要注意的是动量因子mc的选取，mc不能过小，否则容易陷入局部最小而出不去，在本例中，如果mc=0.5，分类正确率仅为：0.5333333，学习效果很不理想。四、R中的神经网络函数
单层的前向神经网络模型在包nnet中的nnet函数，其调用格式为：nnet(formula,data, weights, size, Wts, linout = F, entropy = F,
softmax = F, skip = F, rang = 0.7,decay = 0, maxit = 100,
trace = T)参数说明:size,
隐层结点数；decay,
表明权值是递减的（可以防止过拟合）；linout,
线性输出单元开关；skip，是否允许跳过隐层；maxit,
最大迭代次数；Hess,
是否输出Hessian值
适用于神经网络的方法有predict,print和summary等，nnetHess函数用来计算在考虑了权重参数下的Hessian矩阵，并且检验是否是局部最小。
我们使用nnet函数分析Vehicle数据。随机选择半数观测作为训练集，剩下的作为测试集，构建只有包含3个节点的一个隐藏层的神经网络。输入如下程序：[plain] view plaincopyprintlibrary(nnet);
#安装nnet软件包
library(mlbench);
#安装mlbench软件包
data(Vehicle);
n=length(Vehicle[,1]); #样本量
set.seed(1);
#设随机数种子
samp=sample(1:n,n/2);
#随机选择半数观测作为训练集
b=class.ind(Vehicle$Class);
#生成类别的示性函数
test.cl=function(true,pred){true<-max.col(true);cres=max.col(pred);table(true,cres)};
a=nnet(Vehicle[samp,-19],b[samp,],size=3,rang=0.1,decay=5e-4,maxit=200);
#利用训练集中前18个变量作为输入变量，隐藏层有3个节点，初始随机权值在[-0.1,0.1]，权值是逐渐衰减的。
test.cl(b[samp,],predict(a,Vehicle[samp,-19]))#给出训练集分类结果
test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));#给出测试集分类结果
#构建隐藏层包含15个节点的网络。接着上面的语句输入如下程序：
a=nnet(Vehicle[samp,-19],b[samp,],size=15,rang=0.1,decay=5e-4,maxit=10000);
test.cl(b[samp,],predict(a,Vehicle[samp,-19]));
test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));
再看手写数字案例
最后，我们回到最开始的那个手写数字的案例，我们试着利用支持向量机重做这个案例。
由于nnet包对输入的维数有一定限制（我也不知道为什么，可能在权值计算的时候出现了一些bug，反正将支持向量机那一节的代码平行的移过来是会报错的）。我们这里采用手写数字识别技术中常用的办法处理这个案例：计算数字的特征。选择数字特征的办法有许多种，你随便百度一篇论文都有叙述。我们这里采用结构特征与统计特征结合的办法计算图像的特征。
我们这里采用的统计特征与上图有一点的不同（结构特征一致），我们是将图片分为16块（4*4），统计每个小方块中点的个数，这样我们就有25维的特征向量了。为了保证结果的可比性，我们也报告支持向量机的分类结果。
运行下列代码：[plain] view plaincopyprintsetwd("D:/R/data/digits/trainingDigits")
names<-list.files("D:/R/data/digits/trainingDigits")
data<-paste("train",1:1934,sep="")
for(i in 1:length(names))
assign(data[i],as.matrix(read.fwf(names[i],widths=rep(1,32))))
library(nnet)
label<-factor(rep(0:9,c(189,198,195,199,186,187,195,201,180,204)))
feature<-matrix(rep(0,length(names)*25),length(names),25)
for(i in 1:length(names)){
feature[i,1]<-sum(get(data[i])[,16])
feature[i,2]<-sum(get(data[i])[,8])
feature[i,3]<-sum(get(data[i])[,24])
feature[i,4]<-sum(get(data[i])[16,])
feature[i,5]<-sum(get(data[i])[11,])
feature[i,6]<-sum(get(data[i])[21,])
feature[i,7]<-sum(diag(get(data[i])))
feature[i,8]<-sum(diag(get(data[i])[,32:1]))
feature[i,9]<-sum((get(data[i])[17:32,17:32]))
feature[i,10]<-sum((get(data[i])[1:8,1:8]))
feature[i,11]<-sum((get(data[i])[9:16,1:8]))
feature[i,12]<-sum((get(data[i])[17:24,1:8]))
feature[i,13]<-sum((get(data[i])[25:32,1:8]))
feature[i,14]<-sum((get(data[i])[1:8,9:16]))
feature[i,15]<-sum((get(data[i])[9:16,9:16]))
feature[i,16]<-sum((get(data[i])[17:24,9:16]))
feature[i,17]<-sum((get(data[i])[25:32,9:16]))
feature[i,18]<-sum((get(data[i])[1:8,17:24]))
feature[i,19]<-sum((get(data[i])[9:16,17:24]))
feature[i,20]<-sum((get(data[i])[17:24,17:24]))
feature[i,21]<-sum((get(data[i])[25:32,17:24]))
feature[i,22]<-sum((get(data[i])[1:8,25:32]))
feature[i,23]<-sum((get(data[i])[9:16,25:32]))
feature[i,24]<-sum((get(data[i])[17:24,25:32]))
feature[i,25]<-sum((get(data[i])[25:32,25:32]))
data1 <- data.frame(feature,label)
m1<-nnet(label~.,data=data1,size=25,maxit = 2000,decay = 5e-6, rang = 0.1)
pred<-predict(m1,data1,type="class")
table(pred,label)
sum(diag(table(pred,label)))/length(names)
library("e1071")
m <- svm(feature,label,cross=10,type="C-classification")
summary(m)
pred<-fitted(m)
table(pred,label)
setwd("D:/R/data/digits/testDigits")
name<-list.files("D:/R/data/digits/testDigits")
data1<-paste("train",1:1934,sep="")
for(i in 1:length(name))
assign(data1[i],as.matrix(read.fwf(name[i],widths=rep(1,32))))
feature<-matrix(rep(0,length(name)*25),length(name),25)
for(i in 1:length(name)){
feature[i,1]<-sum(get(data1[i])[,16])
feature[i,2]<-sum(get(data1[i])[,8])
feature[i,3]<-sum(get(data1[i])[,24])
feature[i,4]<-sum(get(data1[i])[16,])
feature[i,5]<-sum(get(data1[i])[11,])
feature[i,6]<-sum(get(data1[i])[21,])
feature[i,7]<-sum(diag(get(data1[i])))
feature[i,8]<-sum(diag(get(data1[i])[,32:1]))
feature[i,9]<-sum((get(data1[i])[17:32,17:32]))
feature[i,10]<-sum((get(data1[i])[1:8,1:8]))
feature[i,11]<-sum((get(data1[i])[9:16,1:8]))
feature[i,12]<-sum((get(data1[i])[17:24,1:8]))
feature[i,13]<-sum((get(data1[i])[25:32,1:8]))
feature[i,14]<-sum((get(data1[i])[1:8,9:16]))
feature[i,15]<-sum((get(data1[i])[9:16,9:16]))
feature[i,16]<-sum((get(data1[i])[17:24,9:16]))
feature[i,17]<-sum((get(data1[i])[25:32,9:16]))
feature[i,18]<-sum((get(data1[i])[1:8,17:24]))
feature[i,19]<-sum((get(data1[i])[9:16,17:24]))
feature[i,20]<-sum((get(data1[i])[17:24,17:24]))
feature[i,21]<-sum((get(data1[i])[25:32,17:24]))
feature[i,22]<-sum((get(data1[i])[1:8,25:32]))
feature[i,23]<-sum((get(data1[i])[9:16,25:32]))
feature[i,24]<-sum((get(data1[i])[17:24,25:32]))
feature[i,25]<-sum((get(data1[i])[25:32,25:32]))
labeltest<-factor(rep(0:9,c(87,97,92,85,114,108,87,96,91,89)))
data2<-data.frame(feature,labeltest)
pred1<-predict(m1,data2,type="class")
table(pred1,labeltest)
sum(diag(table(pred1,labeltest)))/length(name)
pred<-predict(m,feature)
table(pred,labeltest)
sum(diag(table(pred,labeltest)))/length(name)
经整理，我们有如下输出结果：
可以看到，神经网络与支持向量机还是有一定的可比性，但支持向量机的结果还是要优于神经网络的。
这里我们神经网络取25个节点（隐藏层）似乎出现了过拟合的现象（虽然还不算过于严重）我们应该减少节点个数得到更佳的预测结果。
关于节点的选择是个经验活，我们没有一定的规则。可以多试几次，结合训练集正确率与测试集正确率综合研判，但是构造神经网络的代价是高昂的，所以有一个不太坏的结果也就可以停止了。（其他参数的选择同样如此，但是不如size那么重要）
特征的选取对于识别问题来说相当的重要，也许主成分在选择特征时作用会比我们这样的选择更好，但是代价也更高，还有我们应该如何选择主成分，怎么选择（选择哪张图的主成分）都是需要考虑的。在此公众号回复“R实现”可获取本文word版，包括代码和数据集。更多资料加微信：hai299014300篇数据分析报告pdf
觉得不错，分享给更多人看到
数据挖掘入门与实战微信二维码
分享这篇文章
9月9日 1:28
数据挖掘入门与实战最新文章人工神经网络_百度百科
清除历史记录关闭
声明：百科词条人人可编辑，词条创建和修改均免费，绝不存在官方及代理商付费代编，请勿上当受骗。
人工神经网络
人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。
如果生命只是遵循单调的规则，那么神经网络的图片识别功能必然运行良好。但人类，甚至是羊也会做出意料之外的事情，如此以来人工智能也就不那么靠谱了。
人工神经网络神经元
a1~an为输入向量的各个分量
w1~wn为神经元各个突触的权值
f为传递函数，通常为。以下默认为hardlim()
t为神经元输出
数学表示 t=f(WA'+b)
A为输入向量，A'为A向量的转置
f为传递函数
可见，一个神经元的功能是求得输入向量与权向量的内积后，经一个非线性传递函数得到一个标量结果。
单个神经元的作用：把一个n维向量空间用一个超平面分割成两部分（称之为判断边界），给定一个输入向量，神经元可以判断出这个向量位于超平面的哪一边。
该超平面的方程: Wp+b=0
p超平面上的向量
人工神经网络基本特征
人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征：
（1）非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性
人工神经网络
关系。具有阈值的神经元构成的网络具有更好的性能，可以提高容错性和存储容量。
（2）非局限性一个通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想是非局限性的典型例子。
（3）非常定性人工神经网络具有自适应、、自学习能力。神经网络不但处理的信息可以有各种变化，而且在处理信息的同时，非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。
（4）非凸性一个系统的演化方向，在一定条件下将取决于某个特定的状态函数。例如函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的，这将导致系统演化的多样性。
人工神经网络中，神经元处理单元可表示不同的对象，例如特征、字母、概念，或者一些有意义的抽象模式。网络中处理单元的类型分为三类：输入单元、输出单元和隐单元。输入单元接受外部的信号与数据；输出单元实现系统处理结果的输出；隐单元是处在输入和输出单元之间，不能
人工神经网络
由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度，信息的表示和处理体现在网络处理单元的连接关系中。人工神经网络是一种非程序化、、大脑风格的信息处理，其本质是通过网络的变换和动力学行为得到一种并行分布式的信息处理功能，并在不同程度和层次上模仿人脑神经系统的信息处理功能。它是涉及、、、计算机科学等多个领域的交叉学科。
人工神经网络是并行，采用了与传统人工智能和信息处理技术完全不同的机理，克服了传统的基于逻辑符号的人工智能在处理直觉、方面的缺陷，具有自适应、自组织和实时学习的特点。
人工神经网络发展历史
1943年，家W.S.McCulloch和数理家W.Pitts建立了神经网络和，称为MP模型。他们通过MP模型提出了神经元的形式化数学描述和网络结构方法，证明了单个神经元能执行逻辑功能，从而开创了人工神经网络研究的时代。1949年，心理学家提出了突触联系强度可变的设想。60年代，人工神经网络得到了进一步发展，更完善的被提出
人工神经网络
，其中包括感知器和自适应线性元件等。M.Minsky等仔细分析了以感知器为代表的神经网络系统的功能及局限后，于1969年出版了《Perceptron》一书，指出感知器不能解决高阶谓词问题。他们的论点极大地影响了神经网络的研究，加之当时串行和人工智能所取得的成就，掩盖了发展新型计算机和人工智能新途径的必要性和迫切性，使人工神经网络的研究处于低潮。在此期间，一些人工神经网络的研究者仍然致力于这一研究，提出了适应谐振理论（ART网）、、认知机网络，同时进行了神经网络数学理论的研究。以上研究为神经网络的研究和发展奠定了基础。1982年，美国加州工学院J.J.Hopfield提出了Hopfield神经模型，引入了“计算”概念，给出了网络稳定性判断。 1984年，他又提出了连续时间Hopfield神经网络模型，为的研究做了开拓性的工作，开创了神经网络用于联想记忆和优化计算的新途径，有力地推动了神经网络的研究，1985年，又有学者提出了波耳兹曼模型，在学习中采用模拟退火技术，保证整个系统趋于全局稳定点。1986年进行认知地研究，提出了并行分布处理的理论。1986年，Rumelhart, Hinton, Williams发展了。Rumelhart和McClelland出版了《Parallel distribution processing: explorations in the microstructures of cognition》。迄今，BP算法已被用于解决大量实际问题。1988年，Linsker对感知机网络提出了新的自组织理论，并在Shanon信息论的基础上形成了最大互信息理论，从而点燃了基于NN的信息应用理论的光芒。1988年，Broomhead和Lowe用径向基函数(Radial basis function, RBF)提出分层网络的设计方法，从而将NN的设计与数值分析和线性适应滤波相挂钩。90年代初，Vapnik等提出了支持向量机(Support vector machines, SVM)和VC(Vapnik-Chervonenkis)维数的概念。人工神经网络的研究受到了各个的重视，通过决议将日开始的十年定为“脑的十年”，国际研究组织号召它的成员国将“脑的十年”变为全球行为。在的“真实世界计算（RWC）”项目中，人工智能的研究成了一个重要的组成部分。
人工神经网络网络模型
人工神经网络模型主要考虑网络连接的拓扑结构、的特征、学习规则等。目前，已有近40种神经网络模型，其中有反传网络、、、Hopfield网络、波耳兹曼机、适应谐振理论等。根据连接的拓扑结构，神经网络模型可以分为：
人工神经网络
人工神经网络前向网络
网络中各个神经元接受前一级的输入，并输出到下一级，网络中没有反馈，可以用一个有向无环路图表示。这种网络实现信号从输入空间到输出空间的变换，它的信息处理能力来自于简单非线性的多次复合。网络结构简单，易于实现。反传网络是一种典型的前向网络。
人工神经网络反馈网络
网络内神经元间有反馈，可以用一个无向的完备图表示。这种神经网络的信息处理是状态的变换，可以用动力学处理。系统的稳定性与联想记忆功能有密切关系。Hopfield网络、波耳兹曼机均属于这种类型。
人工神经网络学习类型
学习是神经网络研究的一个重要内容，它的适应性是通过学习实现的。根据环境的变化，对进行调整，改善系统的行为。由Hebb提出的Hebb学习规则为神经网络的学习奠定了基础。Hebb规则认为学习过程最终发生在神经元之间的突触部位，突触的联系强度随着突触前后神经元的活动而变化。在此基础上，人们提出了各种学习规则和算法，以适应不同的需要。有效的学习算法，使得神
人工神经网络
经网络能够通过连接的调整，构造的内在表示，形成具有特色的信息处理方法，信息存储和处理体现在网络的连接中。
根据学习环境不同，神经网络的学习方式可分为监督学习和非监督学习。在中，将训练样本的数据加到网络输入端，同时将相应的期望输出与网络输出相比较，得到信号，以此控制权值连接强度的调整，经多次训练后收敛到一个确定的权值。当样本情况发生变化时，经学习可以修改权值以适应新的环境。使用的神经网络模型有反传网络、感知器等。非监督学习时，事先不给定标准样本，直接将网络置于环境之中，学习阶段与工作阶段成为一体。此时，学习规律的变化服从连接权值的演变方程。非监督学习最简单的例子是Hebb学习规则。规则是一个更复杂的非监督学习的例子，它是根据已建立的进行权值调整。自组织映射、适应谐振理论网络等都是与竞争学习有关的典型模型。
人工神经网络分析方法
研究神经网络的性质，主要采用系统理论、非线性规划理论和统计理论，来分析神经网络的演化过程和吸引子的性质，探索神经网络的协同行为和集体计算功能，了解神经机制。为了探讨神经网络在整体性和方面处理信息的可能，的概念和方法将会发挥作用。是一个相当难以精确定义的。一般而言，“混沌”是指由确定性方程描述的动力学系统中表现出的非确定性行为，或称之为确定的随机性。“确定性”是因为它由内在的原因而不是外来的噪声或干扰所产生，而“随机性”是指其不规则的、不能预测的行为，只可能用统计的方法描述。系统
人工神经网络
的主要特征是其状态对的灵敏依赖性，混沌反映其内在的随机性。混沌理论是指描述具有混沌行为的非线性动力学系统的基本理论、概念、方法，它把动力学系统的复杂行为理解为其自身与其在同外界进行物质、和过程中内在的有结构的行为，而不是外来的和偶然的行为，混沌状态是一种定态。混沌动力学系统的定态包括：静止、平稳量、、准同期性和混沌解。混沌轨线是整体上稳定与局部不稳定相结合的结果，称之为。一个有如下一些特征：（1）奇异吸引子是一个，但它既不是不动点，也不是周期解；（2）奇异吸引子是不可分割的，即不能分为两个以及两个以上的吸引子；（3）它对初始值十分敏感，不同的初始值会导致极不相同的行为。
人工神经网络特点优点
人工神经网络的特点和优越性，主要表现在三个方面：
第一，具有自学习功能。例如实现时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、、效益预测，其应用前途是很远大的。
第二，具有联想存储功能。用人工神经网络的就可以实现这种联想。
第三，具有高速寻找优化解的能力。寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。
人工神经网络研究方向
神经网络的研究可以分为理论研究和应用研究两大方面。
理论研究可分为以下两类：
1、利用神经生理与认知科学研究人类思维以及智能机理。
2、利用神经基础理论的研究成果，用数理方法探索功能更加完善、性能更加优
人工神经网络
越的神经网络模型，深入研究网络算法和性能，如：、收敛性、容错性、等；开发新的网络数理理论，如：神经网络动力学、非线性神经场等。
应用研究可分为以下两类：
1、神经网络的模拟和硬件实现的研究。
2、神经网络在各个领域中应用的研究。这些领域主要包括
：、信号处理、、专家系统、优化组合、机器人控制等。随着本身以及相关理论、相关技术的不断发展，神经网络的应用定将更加深入。
人工神经网络发展趋势
人工神经网络特有的非线性适应性信息处理能力，克服了传统人工智能方法对于直觉，如模式、语音识别、非结构化信息处理方面的缺陷，使之在神经、模式识别、智能控制、组合优化、预测等领域得到成功应用。人工神经网络与其它传统方法相结合，将推动人工智能和信息处理技术不断发展。近年来，人工神经网络正向模拟人类认知的道路上更加深入发展，与模糊系统、、进化机制等结合，形成，成为人工智能的一个重要方向，将在实际应用中得到发展。将应用于人工神经网络的研究，为人工神经网络的理论研究开辟了新的途径。神经计算机的研究发展很快，已有产品进入市场。光电结合的神经计算机为人工神经网络的发展提供了良好条件。
神经网络在很多领域已得到了很好的应用，但其需要研究的方面还很多。其中，具有分布存储、并行处理、自学习、自组织以及非线性映射等优点的神经网络与其他技术的结合以及由此而来的混合方法和混合系统，已经成为一大研究热点。由于其他方法也有它们各自的优点，所以将神经网络与其他方法相结合，取长补短，继而可以获得更好的应用效果。目前这方面工作有神经网络与、专家系统、遗传算法、、混沌、粗集理论、、证据理论和等的融合。
下面主要就神经网络与小波分析、混沌、粗集理论、分形理论的融合进行分析。
1981年，法国地质学家Morlet在寻求地质数据时，通过对Fourier变换与加窗Fourier变换的异同、特点及函数构造进行创造性的研究，首次提出了&小波分析&的概念，建立了以他的名字命名的Morlet小波。1986年以来由于YMeyer、S.Mallat及IDaubechies等的奠基工作，迅速发展成为一门新兴学科。Meyer所著的&小波与算子&，Daubechies所著的&小波十讲&是小波研究领域最权威的著作。
小波变换是对Fourier分析方法的突破。它不但在时域和频域同时具有良好的局部化性质，而且对低频信号在频域和对高频信号在时域里都有很好的分辨率，从而可以聚集到对象的任意细节。小波分析相当于一个数学显微镜，具有放大、缩小和平移功能，通过检查不同放大倍数下的变化来研究信号的动态特性。因此，已成为地球物理、信号处理、图像处理、理论物理等诸多领域的强有力工具。
小波神经网络将小波变换良好的时频局域化特性和神经网络的自学习功能相结合，因而具有较强的逼近能力和容错能力。在结合方法上，可以将作为构造神经网络形成小波网络，或者作为前馈神经网络的输入前置处理工具，即以小波变换的特性对过程状态信号进行处理，实现信噪分离，并提取出对加工误差影响最大的状态特性，作为神经网络的输入。
小波神经网络在电机故障诊断、高压电网故障信号处理与保护研究、轴承等机械故障诊断以及许多方面都有应用，将小波神经网络用于感应伺服电机的智能控制，使该系统具有良好的跟踪控制性能，以及好的鲁棒性，利用小波包神经网络进行心血管疾病的智能诊断，小波层进行时频域的自适应特征提取，前向神经网络用来进行分类，正确分类率达到94%。
小波神经网络虽然应用于很多方面，但仍存在一些不足。从提取精度和实时性的要求出发，有必要根据实际情况构造一些适应应用需求的特殊小波基，以便在应用中取得更好的效果。另外，在应用中的实时性要求，也需要结合DSP的发展，开发专门的处理芯片，从而满足这方面的要求。
混沌第一个定义是上世纪70年代才被Li-Yorke第一次提出的。由于它具有广泛的应用价值，自它出现以来就受到各方面的普遍关注。混沌是一种确定的系统中出现的无规则的运动，混沌是存在于非线性系统中的一种较为普遍的现象，混沌运动具有遍历性、随机性等特点，能在一定的范围内按其自身规律不重复地遍历所有状态。混沌理论所决定的是非线性动力学混沌，目的是揭示貌似随机的现象背后可能隐藏的简单规律，以求发现一大类复杂问题普遍遵循的共同规律。
1990年Kaihara、T.Takabe和M.Toyoda等人根据生物神经元的混沌特性首次提出混沌神经网络模型，将混沌学引入神经网络中，使得人工神经网络具有混沌行为，更加接近实际的人脑神经网络，因而混沌神经网络被认为是可实现其真实世界计算的智能信息处理系统之一，成为神经网络的主要研究方向之一。
与常规的离散型Hopfield神经网络相比较，混沌神经网络具有更丰富的非线性动力学特性，主要表现如下：在神经网络中引入混沌动力学行为；混沌神经网络的同步特性；混沌神经网络的吸引子。
当神经网络实际应用中，网络输入发生较大变异时，应用网络的固有容错能力往往感到不足，经常会发生失忆现象。混沌神经网络动态记忆属于确定性动力学运动，记忆发生在混沌吸引子的轨迹上，通过不断地运动(回忆过程)一一联想到记忆模式，特别对于那些分布的较接近或者发生部分重叠的记忆模式，混沌神经网络总能通过动态联想记忆加以重现和辨识，而不发生混淆，这是混沌神经网络所特有的性能，它将大大改善Hopfield神经网络的记忆能力。混沌吸引子的吸引域存在，形成了固有容错功能。这将对复杂的模式识别、图像处理等工程应用发挥重要作用。
混沌神经网络受到关注的另一个原因是混沌存在于生物体真实神经元及神经网络中，并且起到一定的作用，动物学的电生理实验已证实了这一点。
混沌神经网络由于其复杂的动力学特性，在动态联想记忆、系统优化、信息处理、人工智能等领域受到人们极大的关注。针对具有联想记忆功能，但其搜索过程不稳定，提出了一种控制方法可以对混沌神经网络中的进行控制。研究了在组合优化问题中的应用。
为了更好的应用混沌神经网络的动力学特性，并对其存在的混沌现象进行有效的控制，仍需要对混沌神经网络的结构进行进一步的改进和调整，以及混沌神经网络算法的进一步研究。
基于粗集理论
粗糙集(Rough Sets)理论是1982年由波兰华沙理工大学教授Z.Pawlak首先提出，它是一个分析数据的数学理论，研究不完整数据、不精确知识的表达、学习、归纳等方法。是一种新的处理模糊和不确定性知识的数学工具，其主要思想就是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则。目前，已被成功应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。
粗集和神经网络的共同点是都能在自然环境下很好的工作，但是，粗集理论方法模拟人类的抽象逻辑思维，而神经网络方法模拟形象直觉思维，因而二者又具有不同特点。粗集理论方法以各种更接近人们对事物的描述方式的定性、定量或者混合性信息为输入，输入空间与输出空间的映射关系是通过简单的决策表简化得到的，它考虑知识表达中不同属性的重要性确定哪些知识是冗余的，哪些知识是有用的，神经网络则是利用非线性映射的思想和并行处理的方法，用神经网络本身结构表达输入与输出关联知识的编码。
在粗集理论方法和神经网络方法处理信息中，两者存在很大的两个区别：其一是神经网络处理信息一般不能将输入信息空间维数简化，当输入信息空间维数较大时，网络不仅结构复杂，而且训练时间也很长；而粗集方法却能通过发现数据间的关系，不仅可以去掉冗余输入信息，而且可以简化输入信息的表达空间维数。其二是粗集方法在实际问题的处理中对噪声较敏感，因而用无噪声的训练样本学习推理的结果在有噪声的环境中应用效果不佳。而神经网络方法有较好的抑制噪声干扰的能力。
因此将两者结合起来，用粗集方法先对信息进行预处理，即把粗集网络作为前置系统，再根据粗集方法预处理后的信息结构，构成神经网络信息处理系统。通过二者的结合，不但可减少信息表达的属性数量，减小神经网络构成系统的复杂性，而且具有较强的容错及抗干扰能力，为处理不确定、不完整信息提供了一条强有力的途径。
目前粗集与神经网络的结合已应用于语音识别、专家系统、数据挖掘、故障诊断等领域，将神经网络和粗集用于声源位置的自动识别，将神经网络和粗集用于专家系统的知识获取中，取得比传统专家系统更好的效果，其中粗集进行不确定和不精确数据的处理，神经网络进行分类工作。
虽然粗集与神经网络的结合已应用于许多领域的研究，为使这一方法发挥更大的作用还需考虑如下问题：模拟人类抽象逻辑思维的粗集理论方法和模拟形象直觉思维的神经网络方法更加有效的结合；二者集成的软件和硬件平台的开发，提高其实用性。
与分形理论的结合
自从美国哈佛大学数学系教授Benoit B. Mandelbrot于20世纪70年代中期引入分形这一概念，分形几何学(Fractal geometry)已经发展成为科学的方法论--分形理论，且被誉为开创了20世纪数学重要阶段。现已被广泛应用于和社会科学的几乎所有领域，成为现今国际上许多学科的前沿研究课题之一。
由于在许多学科中的迅速发展，分形已成为一门描述自然界中许多不规则事物的规律性的学科。它已被广泛应用在生物学、地球地理学、、计算机图形学等各个领域。
用分形理论来解释自然界中那些不规则、不稳定和具有高度复杂结构的现象，可以收到显著的效果，而将神经网络与分形理论相结合，充分利用神经网络非线性映射、计算能力、自适应等优点，可以取得更好的效果。
分形神经网络的应用领域有图像识别、图像编码、图像压缩，以及机械设备系统的故障诊断等。分形图像压缩/解压缩方法有着高压缩率和低遗失率的优点，但运算能力不强，由于神经网络具有并行运算的特点，将神经网络用于分形图像压缩/解压缩中，提高了原有方法的运算能力。将神经网络与分形相结合用于果实形状的识别，首先利用分形得到几种水果轮廓数据的不规则性，然后利用3层神经网络对这些数据进行辨识，继而对其不规则性进行评价。
分形神经网络已取得了许多应用，但仍有些问题值得进一步研究：分形维数的物理意义；分形的计算机仿真和实际应用研究。随着研究的不断深入，分形神经网络必将得到不断的完善，并取得更好的应用效果。?
人工神经网络应用分析
经过几十年的发展，神经网络理论在模式识别、自动控制、信号处理、辅助决策、人工智能等众多研究领域取得了广泛的成功。下面介绍神经网络在一些领域中的应用现状。
人工神经网络人工神经网络在信息领域中的应用
在处理许多问题中，信息来源既不完整，又包含假象，决策规则有时相互矛盾，有时无章可循，这给传统的信息处理方式带来了很大的困难，而神经网络却能很好的处理这些问题，并给出合理的识别与判断。
1.信息处理
现代信息处理要解决的问题是很复杂的，人工神经网络具有模仿或代替与人的思维有关的功能，可以实现自动诊断、问题求解，解决传统方法所不能或难以解决的问题。人工神经网络系统具有很高的容错性、鲁棒性及自组织性，即使连接线遭到很高程度的破坏，它仍能处在优化工作状态，这点在军事系统电子设备中得到广泛的应用。现有的智能信息系统有智能仪器、自动跟踪监测仪器系统、自动控制制导系统、自动故障诊断和报警系统等。
2. 模式识别
模式识别是对表征事物或现象的各种形式的信息进行处理和分析，来对事物或现象进行描述、辨认、分类和解释的过程。该技术以贝叶斯概率论和申农的信息论为理论基础，对信息的处理过程更接近人类大脑的逻辑思维过程。现在有两种基本的模式识别方法，即统计模式识别方法和结构模式识别方法。人工神经网络是模式识别中的常用方法，近年来发展起来的人工神经网络模式的识别方法逐渐取代传统的模式识别方法。经过多年的研究和发展，模式识别已成为当前比较先进的技术，被广泛应用到文字识别、语音识别、指纹识别、遥感图像识别、人脸识别、手写体字符的识别、工业故障检测、精确制导等方面。
人工神经网络人工神经网络在医学中的应用
由于人体和疾病的复杂性、不可预测性，在生物信号与信息的表现形式上、变化规律（自身变化与医学干预后变化）上，对其进行检测与信号表达，获取的数据及信息的分析、决策等诸多方面都存在非常复杂的非线性联系，适合人工神经网络的应用。目前的研究几乎涉及从基础医学到临床医学的各个方面，主要应用在生物信号的检测与自动分析，医学专家系统等。
1. 生物信号的检测与分析
大部分医学检测设备都是以连续波形的方式输出数据的，这些波形是诊断的依据。人工神经网络是由大量的简单处理单元连接而成的自适应动力学系统，具有巨量并行性，分布式存贮，自适应学习的自组织等功能，可以用它来解决生物医学信号分析处理中常规法难以解决或无法解决的问题。神经网络在生物医学信号检测与处理中的应用主要集中在对脑电信号的分析，听觉诱发电位信号的提取、肌电和胃肠电等信号的识别，心电信号的压缩，医学图像的识别和处理等。
2. 医学专家系统
传统的专家系统，是把专家的经验和知识以规则的形式存储在计算机中，建立知识库，用逻辑推理的方式进行医疗诊断。但是在实际应用中，随着数据库规模的增大，将导致知识“爆炸”，在知识获取途径中也存在“瓶颈”问题，致使工作效率很低。以非线性并行处理为基础的神经网络为专家系统的研究指明了新的发展方向，解决了专家系统的以上问题，并提高了知识的推理、自组织、自学习能力，从而神经网络在医学专家系统中得到广泛的应用和发展。在麻醉与危重医学等相关领域的研究中，涉及到多生理变量的分析与预测，在临床数据中存在着一些尚未发现或无确切证据的关系与现象，信号的处理，干扰信号的自动区分检测，各种临床状况的预测等，都可以应用到人工神经网络技术。
人工神经网络人工神经网络在经济领域的应用
1. 市场价格预测
对商品价格变动的分析，可归结为对影响市场供求关系的诸多因素的综合分析。传统的统计经济学方法因其固有的局限性，难以对价格变动做出科学的预测，而人工神经网络容易处理不完整的、模糊不确定或规律性不明显的数据，所以用人工神经网络进行价格预测是有着传统方法无法相比的优势。从市场价格的确定机制出发，依据影响商品价格的家庭户数、人均可支配收入、贷款利率、城市化水平等复杂、多变的因素，建立较为准确可靠的模型。该模型可以对商品价格的变动趋势进行科学预测，并得到准确客观的评价结果。
2. 风险评估
风险是指在从事某项特定活动的过程中，因其存在的不确定性而产生的经济或财务的损失、自然破坏或损伤的可能性。防范风险的最佳办法就是事先对风险做出科学的预测和评估。应用人工神经网络的预测思想是根据具体现实的风险来源，构造出适合实际情况的信用风险模型的结构和算法，得到风险评价系数，然后确定实际问题的解决方案。利用该模型进行实证分析能够弥补主观评估的不足，可以取得满意效果。
人工神经网络人工神经网络在控制领域中的应用
人工神经网络由于其独特的模型结构和固有的非线性模拟能力，以及高度的自适应和容错特性等突出特征，在控制系统中获得了广泛的应用。其在各类控制器框架结构的基础上，加入了非线性自适应学习机制，从而使控制器具有更好的性能。基本的控制结构有监督控制、直接逆模控制、模型参考控制、内模控制、预测控制、最优决策控制等。
人工神经网络人工神经网络在交通领域的应用
今年来人们对神经网络在交通运输系统中的应用开始了深入的研究。交通运输问题是高度非线性的，可获得的数据通常是大量的、复杂的，用神经网络处理相关问题有它巨大的优越性。应用范围涉及到汽车驾驶员行为的模拟、参数估计、路面维护、车辆检测与分类、交通模式分析、货物运营管理、交通流量预测、运输策略与经济、交通环保、空中运输、船舶的自动导航及船只的辨认、地铁运营及交通控制等领域并已经取得了很好的效果。
人工神经网络人工神经网络在心理学领域的应用
从神经网络模型的形成开始，它就与心理学就有着密不可分的联系。神经网络抽象于神经元的信息处理功能，神经网络的训练则反映了感觉、记忆、学习等认知过程。人们通过不断地研究，变化着人工神经网络的结构模型和学习规则，从不同角度探讨着神经网络的认知功能，为其在心理学的研究中奠定了坚实的基础。近年来，人工神经网络模型已经成为探讨社会认知、记忆、学习等高级心理过程机制的不可或缺的工具。人工神经网络模型还可以对脑损伤病人的认知缺陷进行研究，对传统的认知定位机制提出了挑战。
虽然人工神经网络已经取得了一定的进步，但是还存在许多缺陷，例如：应用的面不够宽阔、结果不够精确；现有模型算法的训练速度不够高；算法的集成度不够高；同时我们希望在理论上寻找新的突破点，建立新的通用模型和算法。需进一步对生物神经元系统进行研究，不断丰富人们对人脑神经的认识。
解读词条背后的知识
．科学网[引用日期]
．博客园[引用日期]
朱大奇史慧．人工神经网络原理及应用：科学出版社，2005
．博客[引用日期]
中国电子学会（Chinese Instit...
提供资源类型：内容
清除历史记录关闭}

叫阿莫西中心