给我们留言
91学术服务平台

您好,欢迎来到91学术官网!业务合作:91xueshu@sina.com,站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于非局部卷积和卷积注意力模块的眩晕眼震诊断方法

  2024-05-28    38  上传者:管理员

摘要:鉴于良性阵发性位置性眩晕的复杂致病因素和诊断困难等问题,提出一种新的基于非局部卷积和卷积注意力模块(CBAM)的眩晕眼震诊断方法。首先,通过构建目标检测模型定位瞳孔,从而捕捉眼球运动并提取水平和垂直运动轨迹时序数据。其次,采用分类模型进行分类检测,该分类模型采用非局部卷积来捕获眼震数据中的远程依赖关系特征,并引入CBAM来提取特征层中的高级和低级语义信息,从而提高了分类模型的检测性能。在眼耳鼻喉科医院提供的视频眼震数据集上进行了实验,结果表明,与主流方法相比,本文所提出的诊断方法在精确率、召回率、准确率、平均F1值等评估指标上比主流方法分别提高了1.82%、2.09%、1.62%和1.96%,表明了本文方法的显著性优势。

  • 关键词:
  • 医学图像处理
  • 时序数据分类
  • 目标检测
  • 良性阵发性位置性眩晕
  • 视频眼震数据分类
  • 加入收藏

眩晕(Vertigo)是耳鼻喉科的常见主诉[1],也是急诊和神经内科患者的常见症状[2]。流行病学调查显示[3],大约21%的人一生中会经历至少一次眩晕[4]。眩晕常导致患者生活质量受到影响[5]。眩晕的致病因素众多,且诊断困难[6]。其中,良性阵发性位置性眩晕(Benign Paroxysmal Positional Vertigo,BPPV),俗称耳石症,是临床医生公认的眩晕疾病中发病率最高也是最难诊断的疾病之一[7]。依据最新的BPPV诊断和治疗指南,年发病率为(10.7~600)/10万,年患病率约为1.6%[8],目前世界上并无可以直接用于临床的计算机辅助眼震检查手段[9]。因此,BPPV诊断中最为重要的眩晕眼震诊断环节并无足够的技术支持[10]。为了通过使用计算机来辅助检测眩晕眼震[11],前人做了一些尝试,文献[12]使用圆形算子来定位瞳孔位置,并且提取眼球运动特征,文献[13]使用了一种基于重心的算法来跟踪瞳孔中心,采用圆形霍夫变换检测椭圆瞳孔。如果检测到瞳孔,则使用边缘检测和椭圆拟合算法来定位瞳孔的中心。但是该方法容易受到睫毛遮挡和眨眼等干扰,从而导致瞳孔定位存在误差,影响检测精度。文献[14]通过定位瞳孔位置,得到眼震的水平、垂直和虹膜旋转运动特征,并将其特征数据使用1D-CNN进行训练,从而进行特征分类,判断出受试者所患的眼震疾病。文献[15]通过使用连续动态前庭评估(CAVA)设备捕获的角视网膜电位来预测眼球震颤,但是,该方法无法检测扭转性眼震,并且患者由于需要长时间佩戴该设备,诊断体验感受较差,在临床上很难进行应用。文献[16]提出使用光流法来提取瞳孔运动特征,但这种方法需要的计算资源较大,也很难在临床上应用。文献[17]提出了一种基于卷积-卷积神经网络(ConvNet)的眼动视频压缩方法。在对捕捉到的帧序列中的移动瞳孔进行标定时,将Hough变换与基于模板匹配的轨迹跟踪相结合,提高了对睫毛遮挡和瞳孔变形的鲁棒性,提出使用光流法来提取虹膜旋转特征。但是该方法仅检测了虹膜旋转,并没有检测其他特征,不能直接应用于疾病检测。

目前眩晕眼震智能辅助检测面临的问题有:(1)没有相关的眩晕眼震公开数据集。(2)眼震视频检测算法速度慢,瞳孔定位主要依赖传统边缘检测方法。(3)目前已有的方法基于传统卷积神经网络(CNN)模型进行设计,无法避免传统CNN具有归纳偏置、缺乏长距离注意力的问题。

针对以上问题,本研究提出了一种基于非局部卷积和卷积注意力模块(Convolutional Block Attention Module,CBAM)的眩晕眼震诊断方法,主要贡献点如下:(1)针对没有相关眩晕眼震公开数据集,创建了相关眩晕眼震视频数据集以及相应的眼球运动时序数据集。(2)针对传统瞳孔定位算法检测速度慢、误差大等问题,提出了目标检测瞳孔定位算法,捕捉眼震视频中眼球在水平和垂直的运动轨迹,转换为时序数据供眼震检测模型训练使用。(3)在眩晕眼震计算机辅助诊断领域,提出一种基于非局部卷积和CBAM的眩晕眼震诊断方法,本研究通过将非局部卷积[18]以及CBAM[19]融入到网络结构中,充分利用了眼震时序数据中的序列关系,提高了眩晕眼震的分类效果。


1、本研究方法


本研究构建了一个眩晕眼震诊断方法,整体流程图如图1所示,首先将眩晕眼震视频帧中的无效帧进行剔除,减少眨眼和睫毛遮挡对瞳孔定位的影响,其次在特征提取部分,为了降低模型的计算负担,本研究引入了YOLOv5目标检测模型[20],通过定位瞳孔位置来提取眼震运动特征,得到一组包含眼球运动轨迹的时序特征曲线数据,随后将处理过的眼震运动时序数据送入到基于非局部卷积和CBAM的眩晕眼震分类网络中进行训练,最后,通过分类层网络得到最终的分类预测结果[21]。

图1 眩晕眼震检测方法整体流程图  

1.1 基于YOLOv5的瞳孔定位模块

目前已有的瞳孔定位方法主要有基于传统的轮廓检测以及Hough变换等方法[22,23],这些方法存在着检测有误差、受视频数据质量影响大等问题,所以为了解决这些问题,本研究提出使用深度学习算法来定位瞳孔位置,使用训练好的目标检测模型来定位瞳孔位置。从而提高定位瞳孔的准确率和泛化性。本研究制作了一个瞳孔定位目标检测数据集,在该数据集上训练出一个基于YOLOv5架构的目标检测模型,然后使用该模型来定位瞳孔,从而提高对瞳孔定位的准确性。

由于笔者需要定位临床视频中的瞳孔,所以,第一步是对视频进行拆帧处理,对每一帧进行瞳孔定位。如图2所示,首先将拆分的每一帧输入到训练好的YOLOv5模型中,进行特征提取,从而得到定位好的瞳孔位置。图3为YOLOv5瞳孔定位对于不同瞳孔位置以及有上下眼皮遮挡的定位效果。

图2 瞳孔定位算法流程  

图3 瞳孔定位效果  

1.2 数据处理模块

为了提高模型分类的准确度,本研究将视频数据进行裁剪,将长短不一的视频统一裁剪为10 s的视频,统一数据尺寸。并且将获取到的时序数据进行数据预处理,虽然在此之前已经对数据进行处理,去除了大量眨眼和睫毛遮挡的无效帧,但在瞳孔定位期间还是会有个别数据定位出现偏差,所以,本研究提出使用插值算法对定位异常数据进行插值处理,更好的避免异常数据对训练模型的干扰,具体插值算法公式如下:

其中,x0,x1为时序序列数据中的位置坐标,y0,y1为时序序列数据中的具体数值,通过以上公式得到[x0,x1]区间内某一位置x对应的检测异常点处的y值。

通过使用该插值算法,解决了数据中异常数据点的问题,最终得到每一个视频对应一个2×600的矩阵时序数据。为了避免水平运动眼震时序数据和垂直运动眼震时序数据的运动尺度范围不同影响模型的训练效果,本研究提出了使用数据标准化处理,将眼震运动时序数据调整为均值为0和标准差为1的分布,消除了不同眼震运动之间的尺度影响,确保不同眼震震动幅度对模型的权重和影响是平等的,提高模型的训练效果,标准化公式如下:

其中,xmax为眼震时序数据中的最大值,xmin为眼震时序数据中的最小值。通过瞳孔定位,得到了眼球水平和垂直运动轨迹,如图4所示,本研究采取提取特征的方式,提取出了眩晕眼震中最关键的特征,并以时间维度进行合并,生成时间序列数据。

图4 眼震视频数据转换为时序数据流程图  

1.3 眩晕眼震分类检测网络模块

该网络组成部分包括卷积层、非局部卷积+CBAM层、全局平均池化(GMP)层以及全连接分类层。其整体结构如图5所示,图中的卷积模块包含卷积层和ReLu激活层。分类部分由GMP层、3层全连接层以及Softmax分类器组成。详细网络模型结构如表1所示。

图5 模型网络结构图   

表1 详细网络模型结构参数  

1.3.1 非局部卷积模块

本文在骨干网络中构建了非局部注意力层[24],非局部注意力层的架构如图6所示。本文模型的非局部注意力层的计算公式为:

其中,i表示输出层在位置i处的输出,而j表示特征图中除了位置i之外的其他位置。x是输入的特征,y是输出的特征,它们具有相同的维度大小。代表了成对函数,用于计算位置i和位置j之间的相似性。这个成对函数将xi和xj映射到高斯空间,以计算两个位置特征图之间的相似度[25]。

图6中C和L分别表示特征图的通道数量和长度。⊗用于表示矩阵相乘操作,而最上面的⊕表示元素求和,也即是公式(3)所表述的内容,即将原始特征xi与通过注意力机制计算得到的特征Wzyi相加。

图6 非局部卷积模块结构图   

最终,的计算结果将代表位置i处的特征与其他所有位置特征之间的相似度权重的加权和。关于g(xj)的表达式如下:

其中,g(xj)用于对输入特征xj进行映射变换,而Wg则表示可学习的权重矩阵。最终的非局部注意力模块可以用以下方式表示:

其中,Wz表示学习得到的权重矩阵,符号+表示按元素相加,Wzyi+xi表示将非局部注意力模块前的特征与非局部注意力模块后的特征进行直接相加。这种操作的目的在于保持原有语义特征的基础上,同时捕获了任意两个位置之间的远程依赖关系,而不仅仅局限于相邻点的依赖。这相当于使用了一个与特征具有相同大小的卷积核来执行卷积操作,从而能够捕获全局的语义信息。

1.3.2 CBAM

CBAM属于混合域注意力模块[26],其模块结构如图7所示,由通道注意力模块(CAM)和空间注意力模块(SAM)组成。在输入特征依次经过CBAM的CAM、SAM后,输入特征图中的空间、通道特征信息得到自适应特征细化。

CBAM计算的整体过程可以总结如下:

其中,F表示中间映射特征图,F'表示经过通道子模块后的输出,F''表示最终的细化输出;⊗表示逐元素乘法,Mc(F)表示1D通道注意力,Ms(F')表示1D空间注意力。

图7 CBAM结构图  

CAM通过最大池化和平均池化对输入特征图F的空间信息进行聚合,生成最大池化特征和平均池化特征两种不同类型的特征[27]。然后,将它们转发到一个权重共享网络,该网络由一个多层感知器(MLP)组成,然后接进一步的最大池化层、平均池化层以及一个非线性激活单元,从而产生一个通道注意图MC(F)。

其中,σ表示sigmoid函数。

SAM沿通道维度对输入特征映射F'进行最大池化和平均池化操作,得到两个特征映射[28]。将两个特征图通过卷积层进行连接和卷积,得到最终的空间注意图MS(F'):

其中,σ表示sigmoid函数,f7×7表示滤波器大小为7×7的卷积运算。


2、试验


2.1 试验数据集介绍

本研究建立数据集所用的VNG视频数据来自某眼耳鼻喉科医院。在位置试验中,使用红外视频眼动记录仪记录和保存患者在收到外部刺激时真实准确的眼球运动视频,视频格式是mp4,视频帧大小为640×480,帧率60。

数据集总共收集了从2020年6月到2021年6月期间录制眼震患者的3 034个初始视频段,所有的数据均由耳科专家进行标注。并经过数据预处理最终得到规范数据段5 160个,按照6:2:2的比例分别划分为训练集、验证集和测试集。其中数据分布如表2所示。  

表2 数据集分布 

2.2 试验环境与参数

本研究均在Ubuntu上使用CUDA并行计算架构,并在Cudnn加速计算库的基础上搭建PyTorch框架,然后进行加速计算。机器显卡为NVIDIAGEForceGTX2080(8 G),内存为16.0 GB。CPU为Intel(R) Xeon(R) CPU E5-2603 v4@1.70GHz。迭代次数为100,优化器选择Adagrad[29],优化参数选择如下:迭代学习率为1e-4,epoch为100,批大小为16,dropout为0.2。在训练过程中,经过多次迭代,在验证集上评估模型性能,并选择最佳的模型参数配置,最后在独立的测试集上对模型进行评估。

2.3 评估指标

为了评估模型性能,本研究采用二分类任务中常用的评价指标,采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数作为评价指标,对模型进行整体评估,并且训练模型时选用了交叉熵损失函数,该损失函数为常用分类任务损失函数。计算公式如下所示:

其中,TP表示真正例,即模型正确预测为正例的样本数量;FP表示假正例,即模型预测为正例,但实际上是反例的样本数量;FN表示假反例,即模型预测为反例,但实际上是正例的样本数量;TN表示真反例,即模型正确预测出为反例的样本数量。

准确率是指模型正确分类的样本数量与总样本数量之间的比例,而精确率则评估了模型在预测为正类别的样本中有多少是真正的正类别。召回率衡量了模型在所有真正的正类别样本中有多少被成功预测为正类别。通常情况下,精确率和召回率这两个度量是相互制衡的,因此使用它们的调和平均数,即F1分数,作为性能指标。

2.4 对比试验

为了验证本研究提出的眩晕眼震检测模型的性能优势,笔者使用该方法与主流的眩晕眼震检测方法进行对比,其试验结果如表3所示。  

表3 本文方法与其他方法对比(%)  

通过表3可以看出,与其他方法相比,本研究提出的方法具有明显的优势,Lim等[13]提出使用传统算法来跟踪瞳孔中心,使用圆形霍夫变换用于检测椭圆瞳孔,使用传统的边缘检测和椭圆拟合算法来定位瞳孔的中心,在定位瞳孔阶段容易出现误差。Zhang等[17]提出的算法只使用了光流检测虹膜旋转变化,并没有关注眩晕眼震的水平和垂直方向运动特征,检测效果一般。Lu等[14]提出的算法基于传统CNN来识别眼震,由于CNN缺少捕捉时序之间相关性的能力,存在检测精度低,误差大等问题,本研究基于眩晕眼震的特点,提出使用基于非局部卷积和CBAM的眩晕眼震诊断方法来捕捉时序特征,如表3所示,本研究所提出的诊断方法与其他主流方法的比较中,相比于主流方法中检测效果最好的Lu等[14]方法在精确率、召回率、准确率、平均F1值等评估指标中分别又提升了1.82%、2.09%、1.62%、1.96%,表明所提方法的优越性。

2.5 消融试验

为了评估模型方法的有效性,本研究选择将Lu等[14]提出的网络结构作为基础网络,分别将非局部卷积模块、CBAM加入网络中进行眼震时序数据分类的消融试验。根据表4中的数据可以看出,一旦引入非局部卷积模块到基础网络中,试验结果中在精确率,召回率,准确率,平均F1值等评估指标都有不同程度的提升,这表明非局部卷积模块有效地捕捉了任意两个位置之间的远程依赖关系,从而更好地捕获了全局上下文信息,而不仅仅限于相邻点的依赖,提升了模型对时序数据中复杂模式的识别能力。  

表4 消融试验结果(%)  

此外,引入CBAM后,试验结果的各项指标也都有不同程度的提高,这表明CBAM有效结合了特征层中高级和低级的语义信息,并且通过空间和通道注意力将局部特征与全局特征自适应融合,从而提高了模型的检测效果。实验证明,引入以上两个模块都能在不同程度上提高眼震诊断的分类准确度。


3、结论


通过上述试验数据对比,本研究提出的一种基于非局部卷积和CBAM的眩晕眼震诊断方法取得了较高的检测效果,与现有眩晕眼震检测方法不同,本研究采用非局部卷积模块中强大的远程依赖关系建模能力对眼震时序数据进行特征提取,并且根据各自的特点,进行有针对性的提取。更加关注时序之间的特征,相对于CNN的特性,解决了CNN具有归纳偏置,缺乏长距离注意力的问题,通过使用CBAM有效地结合了特征层中高级和低级语义信息,并且通过空间和通道注意力将局部特征与全局特征自适应融合更好地提升了模型的分类效果。但目前的研究还存在一些问题,更进一步的研究可以聚焦于精确度的提升和更精细的眼震分类等方面,后续会加强对眩晕眼震数据特点的研究,进一步改进相关方法。


参考文献:

[4]戴春富.前庭医学发展现状[J].中国眼耳鼻喉科杂志, 2014, 14(3):137-141.

[8]陈太生,王巍,徐开旭,等.良性阵发性位置性眩晕及其诊断治疗的思考[J].山东大学耳鼻喉眼学报, 2019, 33(5):1-5.

[10]周国庆,孔玉,高志强,等.后半规管和水平半规管BPPV变位实验时眼震特点初步分析[J].中国现代医学杂志, 2017, 27(25):92-94.

[11]张波,孙敬武.良性阵发性位置性眩晕患者裸眼及视频眼震图下眼震特征及定位诊断分析[J].听力学及言语疾病杂志, 2012, 20(3):235-237.

[21]李红利,丁满,张荣华,等.基于特征融合神经网络的运动想象脑电分类算法[J].中国医学物理学杂志, 2022, 39(1):69-75.


基金资助:上海市科委“科技创新行动计划”社会发展科技攻关项目(21DZ1204900);


文章来源:贺斌,高永彬.基于非局部卷积和卷积注意力模块的眩晕眼震诊断方法[J].中国医学物理学杂志,2024,41(05):571-578.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

我要评论

国际眼科杂志

期刊名称:国际眼科杂志

期刊人气:4831

期刊详情

主管单位:中国陕西省卫生健康委员会

主办单位:中华医学会西安分会

出版地方:陕西

专业分类:医学

国际刊号:1672-5123

国内刊号:61-1419/R

邮发代号:52-239

创刊时间:2000年

发行周期:月刊

期刊开本:大16开

见刊时间:10-12个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

400-069-1609

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定