刘永红
摘 要 系统地论述了神经网络理论发展的历史和现状,在此基础上,对其主要发展趋向和所涉及的前沿问题进行了阐述.文中还作了一定的评论,并提出了新的观点.
关键词 神经网络理论,神经计算,进化计算,基于神经科学和数学的研究
THE DEVELOPMENT AND FORWORD PROBLEMS
OF NEURAL NETWORK THEORY
LIU Yonghong
(Dept. of Automation, Wuhan University of Technology, Wuhan 430 070)
Abstract
This is a survey paper of the development and forwo rd problems of neural network theory. It is divided into four parts: 1. Introduc tion to neural network; 2. The history and present condition; 3. The development trend and forword problems; 4. Conclusions. In the paper, a new comment and vie w for neural network theory is presented.
Key words
neural network theory, neural computing, evolutionary computing, study based on neurosciences and mathematics
1
引言
神经网络是一门活跃的边缘性交叉学科
.
研究它的发展过程和前沿问题,具有重要的理论意
义
.
神经网络理论是巨量信息并行处理和大规模平行计算的基础,神经网络既是高度非线性动力
学系统,又是自适应组织系统,可用来描述认知、决策及控制的智能行为.它的中心问题是
智能的认知和模拟.从解剖学和生理学来看,人脑是一个复杂的并行系统,它不同于传统
的
Neumann
式计算机,更重要的是它具有“认知”“意识”和“感情”等高级脑功能
.我们以人工方法摸拟这些功能,毫无疑问,有助于加深对思维及智能的认识.
80
年代初,
神经网络的崛起,已对认知和智力的本质的基础研究乃至计算机产业都产生了空前的刺激
和极大的推动作用.
近十年来,神经网络理论与实践有了引人注目的进展,它再一次拓展了计算概念的内涵,使
神经计算、进化计算成为新的学科,神经网络的软件模拟得到了广泛的应用.近几年来科技
发达国家的主要公司对神经网络芯片、生物芯片独有情钟.例如
Intel
公司、
IBM
公司、
AT &T
公司和
HNC
公司等已取得了多项专利,已有产品进入市场,被国防、企业和科研部门选
用,公众手中也拥有神经网络实用化的工具,其商业化令人鼓舞.尽管神经计算机、光学神
经计算机和生物计算机等研制工作的艰巨性和长期性,但有一点可以使人欣慰:它现在还只
是初露锋芒,有巨大的潜力与机会,前景是美好的.
事实上,探究大脑—思维—计算之间的关系还刚刚开始,道路还十分漫长,关于脑的计算原
理及其复杂性;关于学习、联想和记忆过程的机理及其模拟等方面的研究已受到人们的关注
,它未来的发展必将是激动人心的.神经网络理论的前沿问题将渗透在
21
世纪科学的挑战性
问题中,可能取得重大的突破.
2
发展历史及现状
神经网络诞生半个多世纪以来,经历了
5
个阶段:
(1)
奠基阶段
.
早在
40
年代初,神经解剖学、神经生理学、心理学以及人脑神
经元的电生理的研究等都富有成果.其中,神经生物学家
McCulloch
提倡数字化具有特
别意义.他与青年数学家
Pitts
合作[
1
],从人脑信息处理观点出发,采用数理
模型的方法研究了脑细胞的动作和结构及其生物神经元的一些基本生理特性,他们提出了第
一个神经计算模型,即神经元的阈值元件模型,简称
MP
模型,他们认识到了模拟大脑可
用于逻辑运行的网络,有一些结点,及结点与结点之间相互联系,构成一个简单神经网络模
型.其主要贡献在于,结点的并行计算能力很强,为计算神经行为的某此方面提供了可能性
,从而开创了神经网络的研究.这一革命性的思想,产生了很大影响.
举例说,数学家
Kleene
在此基础上抽象成一种有限自动机理论.
Wiener
是控制论的创
始人之一,
1948
年他出版了著名专著
Cybernetics
[
2
]
,
探讨了动物和机器的控制
和通讯问题,他在
1961
年增补了两章内容,主要是讨论学习和自生殖问题,他选择机器学习
下棋问题作为研究对象,对脑电波与自组织系统进行了探索.尤其是,
MP
模型是最终导致
Neumann
电子计算机诞生的重要因素之一,数学家
Neumann
[
3
]是现代计算机科学
的创始人之一,又是最初的神经网络设想者之一.他研究了自我繁衍自动机,而且证明了至
少存在一种确实能够自我繁衍的分子自动机模型,
1966
年他提出了元胞自动机,可用来模拟
生命系统所具有的自复制功能,还可用来模拟其他的自然现象.但有很多元胞自动机也并不
一定对某个连续系统的离散化描述得好.于是,
Neumann
又设想一种新的计算机:基于
自动机理论、自然和人工智能知识的计算机.
此外,数学家
Turing
建立了通用计算机的抽象模型[
4
,
5
],他和
Post
[
6
]都证明了一个重要定理:原则上存在着一种“万能自动机”,它能识别任何别的自
动机能够识别的符号串.
Turing
机理论,为带有存贮程序的计算机的形式程序语言的发
明提供了理论框架.重要的是,他研究了算法而不是公理系统的效率.并行处理和串行处理
在原则上尽管相同,但区别在于,整个计算的效率或速度不同.值得注意的是,
Turing
机和逻辑神经网络之间或多或少的等价值得到了证明,使人们对于大脑和计算机之间的类似
性的信念进一步加强了.可惜当时人们认为这种类似都是基于逻辑单元的相似性,而作为信
息处理工具的神经系统,人们还缺乏认识.
1949
年神经生物学家
Hebb
[
7
]的论著
The Organization of Behavior
,对大脑神经细胞、学习与条件反射作了大胆地假设,称为
Hebb
学习规则.他的基本思想是,假
设大脑经常在突触上做微妙的变化,突触联系强度可变是学习和记忆的基础,其强化过程导
致了大脑自组织形成细胞集合
(
几千个神经元的子结合
)
,其中循环神经冲动会自我强化,并继续循环,任何一个神经元同属于多个细胞集合,可以说,细胞集合是大脑思维信息的基本
量子.他给出了突触调节模型,描述了分布记忆,它后来被称为关联论
(connectionist )
.由于这种模型是被动学习过程,并只适用于正交矢量的情况,后来研究者把突触的变化
与突触前后电位相关联,在他的基础上作了变形和扩充.说明
Hebb
对神经网络的发展起
到了重大的推动作用,至今仍然被人们引证.
50
年代初,神经网络理论具备了初步模拟实验的条件.
Rochester
,
Holland
与
IBM
公司的研究人员合作,他们通过网络吸取经验来调节强度,以这种方式模拟
Hebb
的学习规则,在
IBM701
计算机上运行,取得了成功,终于出现了许多突现现象,几乎有大脑的处理风格.但,最大规模的模拟神经网络也只有
1000
个神经元,而每个神经元又只有
16
个结合点.再
往下做试验,便受到计算机的限制.
Hebb
的学习规则理论还影响了正在
IBM
实习的
研究生
McCarthy
,他参入
IBM
的一个小组,探讨有关游戏的智能程序,后来他成为
人工智能的主要创始人之一.
人工智能的另一个主要创始人
Minsky
于
1954
年对神经系统
如何能够学习进行了研究,并把这种想法写入他的博士论文中,后来他对
Rosenblatt
建
立的感知器
(Perceptron)
的学习模型作了深入分析.
1952
年英国生物学家
Hodgkin
和
Huxley
建立了长枪乌贼巨大轴索非线性动力学微分方程
,简称
H-H
方程,形如
解释略.由于
Hodgkin
和
Huxley
研究的成果有重大理论及应用价值,他们荣获了
诺贝尔生理医学奖
.他们的著名方程引起了许多学者的关注,方程中包含了丰富的内容,对理论和实践产生了极大的作用,
有些学者对
H-H
方程研究得到了很多有意义的结果.如,发现了神经膜中所发生的非线性现象:自激振荡、混沌及多重稳定性等,几乎都可用这个方程来
描述
.
1954
年生理学家
Eccles
提出了真实突触的分流模型[
8
],并通过突触的电生理实验得到证实.其重要意义是,为神经网络模拟突触的功能提供了原型和生理学的证据.
1956
年
Uttley
发明了一种由处理单元组成的推理机,他称这种处理单元为信息子
(informo n)
,用推理机模拟行为及条件反射现象.它是一种线性分离器,利用
Shannon
的熵值与输
入输出概率之比的自然对数来调节其输入参数.他在
70
年代中期把它应用于自适应模式识别
,他认为这种模型是实际神经系统的工作原理,并出版了专著
Information Transmission in the Nervous System
.
(2)
第一次高潮阶段.
1958
年计算机科学家
Rosenblatt
[
9
]基于
MP
模型,增加了学习机制,推广了
MP
模型.他证明了两层感知器能够将输入分为两类,假如这两种类型是线性并可分,也就是一个超平面能将输入空间分割,其感知器收敛定理:输入和输出层之间的权重的调节正比于计算输出值与期望输出之差.他提出的感知器模型,首次把神经网络理论付诸工程实现.例如,
1957
年到
1958
年间在他的帅领下完成了第一台真正的神经计算机,即:
Mark
Ⅰ的感知器.他还指出了带隐层处理元件的
3
层感知
器这一重要的研究方向,并尝试将两层感知器推广到
3
层.但他未能找到比较严格的数学方法来训练隐层处理单元.这种感知器是一种学习和自组织的心理学模型,其结构体现了神经生理学的知识.当模型的学习环境有噪音时,内部结构有相应的随机联系,这种感知器的学习规则是突触强化律,它可能应用在模式识别和联想记忆等方面.可以说,他的模型包含了一些现代神经计算机的基本原理,而且是神经网络方法和技术上的重大突破,他是现代神经网络的主要建构者之一.
Rosenblatt
之举激发了许多学者对神经网络研究的极大兴趣.
美国上百家有影响的实验室纷纷投入这个领域,军方给予巨额资金资助,如,对声纳波识别
,迅速确定敌方的潜水艇位置,经过一段时间的研究终于获得了一定的成果.这些事实说明
,神经网络形成了首次高潮.
1960
年
Widrow
和
Hoff
提出了自适应线性元件
ADACINE
网络模型[
10
],是一
种连续取值的线性网络,主要用于自适应系统.他们研究了一定条件下输入为线性可分问题
,期望响应与计算响应的误差可能搜索到全局最小值,网络经过训练抵消通信中的回波和噪
声,它还可应用在天气预报方面.这是第一个对实际问题起作用的神经网络.
他们还对
3
层
网络进行过尝试,但仍给不出数学解.
可以说,他们对分段线性网络的训练有一定作用,是
自适应控制的理论基础.
Widrow
等人在
70
年代,以此为基础扩充了
ADALINE
的学习能力
,
80
年代他们得到了一种多层学习算法.
在神经网络中,出现一种持续不衰减的周期性兴奋波,称为回响
(reverberation)
现象
.人们关心的问题是产生回响的条件,网络的参数对回响的周期、幅度等性质的影响,以及
如何通过外部来控制回响波.从而利用神经网络的节律性,并解释脑电波中的α节律.
1961
年意大利科学家
Caianiello
基于神经元模型,引入了不应期特性,提出一个神经方程
式中
1
[
.
]是单位阶跃函数,
Si
是第
i
个神经元所受到的外界刺激,θ
i
是第
i
个神经元的阈值,
t-r
是过去的某一时刻,
H
是影响网络所持续的最长时间,
Wij(r)
是影响权重,它有兴奋性和抑制性两种输入.该方程同时考虑神经元的空间和时间性质,而且取离散值,用网络内部结构不变的方式来描述神经网络中的回响现象.它的局限性在于,不能反映学习和记忆过程.由于该方程中出现一个非线性函数,所以用它研究回响现象时,就会
遇到一个在非线性系统中求周期解的问题,而这是一个相当复杂的问题.随后,
Caianiello
根据
Hebb
假说,发展了他自己的模型,描述了学习和记忆过程中重复强化因素,以及遗忘过程为饱和性质,给出了一种记忆方程
有趣的是,
Cainaniello
对脑的某一状态所对应不同的参数作了举例说明.比如,对应于理解、联想、忘记、睡眠和梦等出现的情况.但他给出的方程组很难求出定量解,并且还未与神经系统的结构相结合,仅仅对神经系统的功能作一些定性分析.当然,他的非线性时变方程组,在一些简化的特殊条件下可以得到解析解.所以许多学者在计算机上用模拟方法研究这个相当复杂的问题.
1962
年
Rosenblatt
对他的感知器作了总结[
11
].还有些科学家采用其它数学模
型,如,用代数、矩阵等方法来研究神经网络.值得一提的是,我国中科院生物物理所在
19 65
年提出用矩阵法描述一些神经网络模型.他们重点研究视觉系统信息传递过程和加工的机
理以及建立有关数学模型.此外,
Fogel
、
Owens
和
Walsh
在
1966
年出版了一本关于进化规
划的专著
Artificial Intelligience Through Simulated Evolution
.由于该书所提倡的
思想方法根本不合当时人工智能的主流,受到学术界的怀疑
,一直到
90
年代初才被人们重视
.
60
年代中、后期,
Grossberg
[
12
,
13
]从信息处理的角度,研究了思维和大脑结合的理论问题,运用数学方法研究自组织性、自稳定性和自调节性,以及直接存取信息的有关模型.他建立了一种神网络结构,即:他给出的内星
(instar)
、外星
(outstar)
和雪崩
(av alanche)
为最小的结构.他提出的雪崩网可用于空间模式的学习和回忆以及时间模式的处
理方面,如,执行连续语音识别和控制机器人手臂的运动.他的这些成果,对当时影响很大
,有些学者与
Grossberg
合作,他组建的自适应系统中心取得了丰硕的成果,几乎涉及到
神经网络的各个领域.日本神经网络理论家
Amari
注重生物神经网络的行为与严格的数学
描述相结合,尤其是对信任分配问题的研究,得到许多重要结果.
Willshaw
等人[
14
]提出了一种模型:存贮输入信号和只给出部分输入,恢复较完整的信号,即全息音
( holophone)
模型.这为利用光学原理实现神经网络奠定了理论基础,为全息图与联想记
忆关系的本质问题的研究开辟了一条新途径.
Nilsson
对多层机,即具有隐层的广义认