 
- 贡献
- 0 个
- 金币
- 534 个
- 在线时间
- 42 小时
- 帖子
- 3185
|
<strong>共轭梯度的结构优化算法及神经网络煤与瓦斯突出预测模型</strong> <hr noshade="true" size="1"/><table cellspacing="8" cellpadding="0" width="500" border="0"><tbody><tr><td class="da"><p>1前言<br/><br/>煤与瓦斯突出是发生在煤矿井下的一种复杂动力现象,是威胁矿井安全生产的主要灾害之一。根据有突出记录的统计分析,找出突出强度与瓦斯地质条件的关系,能够实现对同一矿井突出强度的初步预测。神经网络具有很强的自学习性、自适应性和容错性,是处理非线性问题的较好选择。针对煤与瓦斯突出强度涉及因素较多、关系复杂,可以利用神经网络逼近非线函数的特性,实现煤与瓦斯突出预测。<br/><br/>神经网络预测模型的优劣,最重要的指标是网络的学习精度和泛化能力。前者保证模型的准确性;后者保证模型的推广性,是预测模型得以真正实用的关键因素。网络泛化能力与初始状态、网络结构、学习算法等因素均有密切关系,文献〔1〕指出,神经网络若需达到给定的泛化能力,必须使结构与样本相匹配,或者增加训练样本,或者减少网络规模。当训练样本一定时,较小结构的神经网络具有的泛化能力。目前,表现较好的结构优化算法之一为最优脑外科<sup>[2]</sup>(OBS)过程,利用误差函数的二次导数信息,解析预测权值扰动对函数的影响程度,以自顶向下的方式削弱或消除某些连接权,实现结构优化。事实上,OBS算法优良的权值衰减率似其计算复杂度为代价,高达O(n<sup>2</sup>p)(n为网络权值数目,p为训练样本数目)<sup>[3]</sup>,网络修剪过程耗时长,并存在二次训练等系列问题,因而损害了算法的实用性。<br/><br/>针对上述状况,本文继承了OBS的良好结构调整性,将OBS结构评价作为目标函数的罚项,采用约束形式的权值衰减策略,实现权值与结构的同时学习。为避免OBS评价所需二次导数的复杂计算,利用共轭梯度(conjugate gradient ,GG)法间接得到Hessian逆信息,推导出一类新的结构优化算法CG-OBS。该算法有效克服了OBS的计算复杂性,又可保持高效的结构优化性能。将其应用于煤与瓦斯突出预测模型的训练结果表明,CG-OBS算法能够兼顾学习精度与泛化能力,保障了预测模型的实用价值。<br/><br/>2最优脑外科(OBS)过程<br/><br/>OBS过程要求在网络学习结束后方可进行,因此目标函数ξ<sub>av</sub>(w)在w附近的Taylor展开可近似为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-1.gif" align="center" alt=""/> (1)<br/><br/>式中 Δw-权值w的增量;<br/><br/>g(w)-w处的梯度;<br/><br/>H(w)-函数的Hessian矩阵。<br/><br/>OBS的优化目标可叙述为<sup>[4]</sup>;对权增量Δw最小化二次型<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-2.gif" align="center" alt=""/><br/><br/>并满足约束条件,<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-3.gif" align="center" alt=""/><br/><br/>其中q是下标的最小化指标。构建Lagrange算子:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-4.gif" align="center" alt=""/><br/><br/>式中 λ是Lagrange因子;<br/><br/>1<sub>q</sub>为第q个元素等于1的单位向量。<br/><br/>对Δw求导得到w的最优增量,<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-5.gif" align="center" alt=""/><br/><br/>S算子所对应元素定义为显著性,即:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-6.gif" align="center" alt=""/><br/><br/>式中 H<sup>-1</sup>-H矩阵的逆;<br/><br/>[H<sup>-1</sup>]<sub>q,q</sub>-H<sup>-1</sup> 的第(q,q)个元素。<br/><br/>文献[2]采用Woodbury等式的逆矩阵递归公式求解,但过程烦琐,计算量很大,影响神经网络在实际问题中的应用。<br/><br/>3结构优化新算法CG-OBS<br/><br/>3.1 OBS评价的含约束目标函数表达<br/><br/>为了更好地发挥OBS良好的结构调整作用,可借鉴权值衰减的结构优化思想,将OBS关于结构的评价关系作为网络目标函数的罚项,构成含约束条件的BP网络目标函数的优化问题。<br/><br/>首先必须对式(1)的简化形式进行修改,考虑将OBS评价指标应用于训练的全部过程,而非结束之后,目标函数的梯度项不可忽略,因此有<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-7.gif" align="center" alt=""/> (5)<br/><br/>并在OBS约束条件中增加衰减因子η(一般在0.4~0.6之间),即1<sub>i</sub><sup>T</sup>Δw+ηЗ<sub>q</sub>=0,将权值的一次删除柔化为多次衰减过程,从而构成新的Lagrange算子模型:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-9.gif" align="center" alt=""/> <br/><br/>如前所述,对S算子求导得到新模型的权值更新公式为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-10.gif" align="center" alt=""/><br/><br/>OBS指标q通过最小化其显著性式(8)来决定,<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-11.gif" align="center" alt=""/> <br/><br/>形式上,式(7)与(8)比标准OBS公式(3)(4)更复杂,而实际上标准OBS权值公式仅是上述两式在g<sub>k</sub>=0与η=1时的简化形式。<br/><br/>3.2 Shanno无记忆拟牛顿公式的共轭梯度过程<br/><br/>为快速简捷地优化含OBS约束的函数模型,主要考虑基于导数的各种方法,如LM方法和共轭梯度法。Levenberg-Marquardt(LM)方法只适合最小误差平方和形式的函数,计算最大,难以训练较大规模的网络。共轭梯度法仅需利用一阶导数信息,计算规模相对很小,是目前大规模网络的有效算法之一。<br/><br/>基于上述考虑,本文选择共轭梯度法。标准共轭梯度的基本模型为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-12.gif" align="center" alt=""/> <br/><br/>式中 a<sub>k</sub>——一维搜索步长;<br/><br/>d<sub>k</sub>——共轭梯度方向;<br/><br/>β<sub>k</sub>——共轭方向的构造因子。<br/><br/>根据β<sub>k</sub>的不同形式,形成HS(Hestenes-Stiefel)、PR(Polak-Ribiere)、FR(Fletcher-Reeves)等方法<sup>[5]</sup>。Perry将HS改写为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-5-13.gif" align="center" alt=""/> (10)<br/><br/>其中<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-1.gif" align="center" alt=""/> (11)<br/><br/>在精确线索条件下,可将P<sub>k</sub>扩展只需满足拟牛顿条件<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-2.gif" align="center" alt=""/><br/><br/>的任意矩阵,利用Shanno的记忆BFGS拟牛顿公式<sup>[5]</sup>:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-3.gif" align="center" alt=""/> (12)<br/><br/>将其代入式(10)获得共轭梯度方向的新形式,即:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-4.gif" align="center" alt=""/> (13)<br/><br/>式中 s<sub>k</sub>——沿共轭方向d<sub>k</sub>的实际改变量,有s<sub>k</sub>=a<sub>k</sub>d<sub>k</sub>;<br/><br/>y<sub>k</sub>——梯度之差,即y<sub>k</sub>=g<sub>k</sub>-g<sub>k-1</sub>。<br/><br/>式(13)的共轭梯度表达与标准共轭梯度法在存储空间和计算量方面相当,但其计算表现却大为提高<sup>[5]</sup>。<br/><br/>3.3 OBS约束模型的共轭梯度解决方案<br/><br/>利用共轭梯度法求解OBS约束模型的式(7)、式(8),最核心的部分还是H<sup>-1</sup>计算。如果直接有HS、PR、FR及DY等形式表达共轭梯度法隐含的逆Hessian时,因无法保证矩阵对称性与正定性,在OBS部分会出现数学困难。为此,采取Shanno无记忆公式(12)与(13),即能够满足二次导数的对称性和正定性,又能够提高共轭梯度法的计算表现,一举两得。<br/><br/>根据拟牛顿条件,将式(7)中H<sub>k</sub><sub>k-1</sub>替换为<sub>ak</sub>P<sub>k</sub>,将OBS约束模型的权值公式化简为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-5.gif" align="center" alt=""/> (14)<br/><br/>式中 s<sub>kq</sub>——s<sub>k</sub>的第q个元素;<br/><br/>e<sub>q</sub>——P<sub>k</sub>的第q行列向量,即e<sub>q</sub>=P<sub>k</sub>1<sub>q</sub>,具体表达为式(15),<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-6.gif" align="center" alt=""/> (15)<br/><br/>而e<sub>qq</sub>是e<sub>q</sub>的第q个元素;y<sub>kq</sub>是y<sub>k</sub>的第q个元素。同理,显著性公式(8)可变换为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-7.gif" align="center" alt=""/> <br/><br/>综上所述,结构调整新算法CG-OBS的基本过程为:<br/><br/>(1)建立实际问题的BP网络模型,并确定训练样本集与测试样本集。<br/><br/>(2)初始化学习算法参数η=0.5,并令迭化次数k=1。<br/><br/>(3)反向传播计算得到梯度g<sub>k</sub>,若符合重启动策略,则搜索方向d<sub>k</sub>=- g<sub>k</sub>;否则,按式(13)计算共轭方向d<sub>k</sub>。<br/><br/>(4)利用一维搜索方法得到最优步长a<sub>k</sub>。<br/><br/>(5)判断是否满足OBSS衰减条件,如果不满足,更新网络权值<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-8.gif" align="center" alt=""/><br/><br/>(6)如果条件满足衰减条件,利用式(15)、(16)计算最小显著性指标q和s<sub>q</sub>,如果显著性s<sub>q</sub>远小于ε<sub>av</sub>,利用式(14)进行更新权值为:<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-6-9.gif" align="center" alt=""/><br/><br/>并置重启动标志为开。否则按(5)更新之。<br/><br/>(7)判断是否满足终止准则。如果不满足,更新迭代次数k=k+1,并返回(3)继续。<br/><br/>4实例与讨论<br/><br/>通过对基于共轭梯度法的动态结构算法讨论,利用上述算法对煤与瓦斯突出预测的神经网络模型进行仿真实验。根据影响煤瓦斯突出的主要因素,选用了3个地质指标:埋藏深度、断层密度和平均煤厚差。其中,埋藏深度反映了地应力的大小,一定程度上反映了瓦斯压力和含量的大小,埋深越大,则对突出做功的瓦斯内能和煤岩的弹性潜能越大,突出强度也越大;断层密度,指矿井范围内每万平方米内所含的断层数,一般情况下,密度越大,地质构造越复杂,残存构造应力越大,对煤的破坏越严重,煤层稳定性越差,突出危险性和突出强度则越大;平均煤厚差也在一定程度上反映了煤层所受的构造应力影响大小,与突出危险性有较大关系。表1为某矿地质情况与突出强度统计,其中将1~17号样本作为模型训练集,18~20号样本作为测试集。<br/><br/>根据突出的3个主要地质因素,确定神经网络的输入节点为3;输出节点为突出量的预测值;由于采取动态结构修剪算法,可避开BP网络配置无依据的困扰,选择12个隐节点,构成3-12-1的结构。将CG-OBS算法应用于上述的煤与瓦斯突出预测模型,得到网络模型训练误差曲线变化图(图1),以及网络结构参数调整时测试误差(可作为模型的泛化误差)变化趋势(图2)。网络学习结束时,模型的训练误差<10<sup>-3</sup>,测试误差经过100步前后的高峰,最终稳定于1.5左右。迭代结束时,权值向量中置零权值数目为9,权值分布区间为(-3.6025,3.8752),从而保证了良好的泛化能力。<br/><br/>表1 突出量与相关地质指标数据<br/><br/><a href="http://www.safety.com.cn/data_zonghe/biao/20050411-701.htm">见表</a><br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-701.gif" align="center" alt=""/><br/><br/>迭代次数/次<br/><br/>图1 网络模型的训练误差曲线<br/><br/>5结论<br/><br/>结合OBS评价指标对神经网络进行结构与权值共同学习的思路,能够克服神经网络结构设计理论的未知性,实现参数的自动调整。基于煤与瓦斯突出预测的少量数据,要实现真正意义的预测报警是不现实的。但从仿真角度出发,采用结构动态调节的学习算法能够达到较稳定的泛化水平,作为预测模型其意义不可忽视。<br/><br/><img src="http://www.safety.com.cn/data_zonghe/tu/20050411-702.gif" align="center" alt=""/><br/><br/>迭代次数/次<br/><br/>图2 网络结构调整的泛化误差曲线<br/><br/>参考文献:<br/><br/>[1] Koiran P., Sontag E.D. Neural networks with quadratic VC-dimension[J],Advances in Neural Info. Processing Systems 8,Cambridge,MA:MIT Press,1996.197-203<br/><br/>[2] Hassibi B.,Stork D.G.,Wolff G.J.Optimal brain surgeon and general netwok pruning [J],IEEE Internatinal Conf.on Neural Networks,1992,(1):293-299<br/><br/>[3] Stahlberger A.,Riedmiller M.Fast Network Pruning and Feature Extraction by Removing Complete Units[J].Advances in Neural Information Processing Systems 9,Cambridge,MA:MIT Press,1997<br/><br/>[4] Harkin S.著,叶世伟,史忠植译.神经网络原理[M].北京:机械工业出版社,2004.154-159<br/><br/>[5] 戴或红,袁亚湘。非线性共轭梯度法[M]。上海:上海科学技术出版社,2000<br/><br/>[6]赵旭生。人工神经网络应用于煤与瓦斯突出强度预测的探讨[J] .矿业安全与环保,2001,28(4):25-27<br/><br/> 信息来源:煤矿安全</p></td></tr></tbody></table> |
|