91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:

发布论文

论文咨询

基于迁移学习的医院财务数据异常检测技术

  2024-12-03    68  上传者:管理员

摘要:为提高医院财务数据异常检测的准确性和鲁棒性,设计一种基于迁移学习的医院财务数据异常检测技术。该技术选择一个在相关领域预训练的异常检测模型,并在目标数据集上进行微调;利用改进遗传算法优化模型参数,提升模型性能;通过对多种无监督异常检测方法的结果进行整合,实现全面的异常检测。实验结果表明,相比单一检测方法,综合检测模型在误报率(0.020)、漏报率(0.026)方面均有显著提升,为实际应用提供了有力的支持。

  • 关键词:
  • 医院财务数据
  • 异常检测
  • 改进遗传算法
  • 综合检测
  • 迁移学习
  • 加入收藏

在现代医疗机构中,财务数据的异常检测至关重要,既有助于发现潜在的财务问题,又能有效防范欺诈行为[1]。然而,医院财务数据的高维度和复杂性使得传统的异常检测方法难以发挥预期效果。为了解决这一问题,文中提出了一种新的综合检测模型。该模型利用迁移学习从相似领域中迁移知识,提高在目标数据集上的检测性能[2];通过改进遗传算法优化模型参数,进一步增强检测效果[3];最后,整合多种无监督方法的检测结果,提升整体模型的鲁棒性和准确性。实验结果表明,与单一方法相比,所提模型在误报率和漏报率两个指标上均表现出显著优势。通过这种综合方法,能够更加准确和高效地检测医院财务数据中的异常点,为财务管理和风险控制提供强有力的支持。


1、综合模型构建


1.1迁移学习模型构建

迁移学习(Transfer Learning,TL)的核心在于将源领域学到的知识应用到目标领域,通过微调适应目标领域的数据[4]。假设源领域数据集为,目标领域数据集为,目标是从源领域学习模型参数并迁移至目标领域[5]。在源领域数据集上训练初始模型ℳs,优化目标为:

式中,θs为源领域模型参数,ℒ为交叉熵损失函数。

随后,将模型ℳs的参数θs迁移至目标领域,并在目标领域数据集上进行微调:

式中,θt为目标领域模型参数,初始化为θs[6]。

1.2改进遗传算法设计

改进的遗传算法[7](Improved Genetic Algorithm,IGA)步骤如下:

1)种群初始化:随机生成初始种群P(0)={θ1,θ2,…,θN},N为种群规模,每个个体θi表示一组模型参数。

2)适应度函数:定义适应度函数,用于衡量每个个体的优劣。

3)选择、交叉以及变异:使用轮盘赌选择、锦标赛选择等方法从当前种群中选择个体进行繁殖[8];对选择出的个体进行交叉、变异操作。

4)迭代更新:通过若干轮迭代,不断更新种群,直到满足停止条件(适应度函数不再显著提升)。

图1所示为改进遗传算法的流程图。

图1改进遗传算法流程图

1.3综合检测模型构建

文中将TL和IGA结合,构建综合检测模型,构建综合检测模型主要有以下三个步骤。图2所示为综合检测模型结构图。

图2综合检测模型结构图

1)基于TL模型训练。使用TL在目标领域上微调得到初始模型ℳt。

2)利用IGA优化。以ℳt为基础,使用IGA优化模型参数,目标函数为

式中,α和β为权重参数,ℒsource为源领域损失,ℒtarget为目标领域损失。

3)整合多种无监督异常检测方法,考虑了四种常用的无监督学习方法。

①孤立森林(Isolation Forest,IF)[9]:IF是一种基于随机森林的无监督异常检测方法。异常得分的计算公式为:

式中,E(h(x))是数据点x的平均路径长度,c(n)是调整因子,n是数据点的总数[10]。

②一类支持向量机(One-Class SVM,OCSVM)[11]:OCSVM是一种基于支持向量机的无监督异常检测方法。优化目标可以表示为:

式中,ν为控制异常率的参数,ϕ(x)为映射函数,ρ为偏置项,ξi为松弛变量[12]。

③高斯混合模型(GMM)[13]:GMM是一种基于概率密度的无监督异常检测方法GMM使用期望最大化算法来迭代估计模型参数。对数概率密度的计算公式为:

式中,πk是第k个分布的权重,μk和Σk分别为第k个分布的均值和协方差矩阵[14]。

④自编码器(AutoEncoder,AE)[15]:AE是一种基于神经网络的无监督异常检测方法。自编码器由编码器和解码器两部分组成,编码器将输入数据x映射到隐含层表示h,解码器则将h重构回原始数据的近似值。重构误差的计算公式为:

式中,g是编码器函数,f是解码器函数,是重构后的数据。异常检测通过比较重构误差与预设阈值,识别出异常点[16]。

随后,将四种无监督检测方法的结果进行整合,通过投票机制确定最终的异常检测结果,构建新的集成方法(Integrated Approach,IA)。通过上述步骤,构建一个基于TL、IGA以及IA的综合检测模型(TL-IGA-IA),实现医院财务数据的异常检测。


2、实验与分析


2.1实验准备

为了验证所提出算法的有效性,文中采用了某三甲医院的财务数据集进行实验仿真。该数据集时间跨度为2019—2023年,涵盖了长达5年的数据,包含多个与医院运营和财务状况密切相关的变量。这些变量不仅包括每日的日期信息,还涵盖了详细的收入和支出数据,例如门诊收入、住院收入、药品收入、医疗器械收入和其他收入。同时,支出方面包括人员支出、设备维护支出、药品采购支出和耗材支出等。

2.2评判指标

为了准确评估所提出异常检测算法的有效性,采用了误报率(False Positive Rate,FPR)和漏报率(False Negative Rate,FNR)两个关键指标。为了确保评估过程的准确性,邀请了经验丰富的财务专家对检测结果进行人工验证,逐一审核模型检测出的异常点,确认其实际情况。两者的公式如下:

通过FPR和FNR两个指标,能够全面评估异常检测模型的性能。

2.3对比研究

在实验一中,将训练集与测试集的比例设定为4:1,比较提出的TL-IGA-IA模型与其他组合方法(TL-IGA-IF、TL-IGA-OCSVM、TL-IGA-GMM、TL-IGA-AE)以及单一检测方法(IF、OCSVM、GMM以及AE)。实验通过在相同的数据集上进行训练和测试,评估不同模型的FPR和FNR。表1给出了基于实验一的不同方法在异常检测的比较结果。

表1不同方法在异常检测中的比较结果

从实验结果可以看出,TL-IGA-IA模型在FPR和FNR两个指标上均表现最佳,分别为0.020和0.026,明显优于其他组合方法和单一检测方法。这表明,TL-IGA-IA模型通过结合TL和IGA的优势,显著提升了异常检测的准确性和鲁棒性。其他组合方法(TL-IGA-IF、TL-IGA-OCSVM、TL-IGA-GMM、TL-IGA-AE)虽然也比单一检测方法表现更好,但在FPR和FNR指标上均不及TL-IGA-IA模型。同时,在单一检测方法中,IF和OCSVM表现较好,进一步证明了单一方法的局限性。

在实验二中,进行了消融实验,评估提出的TL-IGA-IA模型中各个组成部分的实际贡献。随后,将训练集与测试集的比例设定为6:1和9:1,比较了完整的TL-IGA-IA模型与去除不同方法后的模型。消融实验设计了以下几种模型进行对比:

①TL-IGA-IA:完整的综合检测模型,包括TL、IGA和多种无监督检测方法的集成。

②TL-IA:去除IGA,仅保留TL和无监督检测方法的集成。

③IGA-IA:去除TL,仅保留IGA和无监督检测方法的集成。

④IA:仅保留无监督检测方法的集成,去除TL和IGA。图3与图4给出了基于实验二的不同方法在异常检测的比较结果,其中FPR结果对应的为柱状图,FNR结果对应的为折线图。

图3不同方法在异常检测中的比较结果(训练集与测试集的比例为6∶1)

图4不同方法在异常检测中的比较结果(训练集与测试集的比例为9∶1)

消融实验结果表明,完整的TL-IGA-IA模型在FPR和FNR上均优于去除任一算法后的模型。在所有测试模型中,TL-IGA-IA模型的表现最佳,这表明迁移学习、改进遗传算法和无监督检测方法的结合能够最大程度地提升异常检测的性能。去除IGA后的模型(TL-IA),其缺失导致模型在检测准确性上的显著下降。去除TL后的模型(IGA-IA),TL的缺失使得模型无法从相似领域中迁移知识,影响了检测性能的提升。仅保留无监督检测方法的集成(IA),是所有模型中表现最差的。同时随着训练集数量的增加,不同方法得到FPR和FNR也进一步降低。这一结果表明,仅依靠无监督检测方法难以达到最佳的检测效果,TL和IGA的引入是必要的。

通过实验一和实验二的对比研究可以看出,提出的TL-IGA-IA综合检测模型在医院财务数据异常检测中表现出更高的准确性和鲁棒性。相比单一无监督检测方法的组合,TL-IGA-IA能够更有效地识别异常点,降低FPR和FNR,为实际应用提供了有力的支持。


3、结束语


为提高财务数据的异常检测的准确性,提出了一种基于TL的医院财务数据异常检测技术,并结合四种无监督检测方法(IF、OCSVM、GMM以及AE),通过投票机制整合结果,形成新的集成方法。综合检测模型TL-IGA-IA充分利用了TL在知识迁移方面的优势,以及IGA在优化模型参数方面的能力,同时融合多种无监督方法以提升检测的鲁棒性和准确性。在实验部分,进行了两个主要实验来验证所提出模型的有效性和优越性。实验一结果表明,TL-IGA-IA模型在FPR和漏报率FNR上均表现出最低值,显著优于其他组合方法。实验二结果同样显示,完整的TL-IGA-IA模型在FPR和FNR两个指标上均优于去除任一算法后的模型,证明了TL和IGA在提升检测性能中的关键作用。

尽管提出的TL-IGA-IA模型在医院财务数据异常检测中取得了显著成果,但仍存在一些需要进一步研究和改进的方面。首先,TL的效果依赖于源域与目标域数据的相似性,将来可以探索如何在相似性不高的情况下优化TL的效果。在无监督异常检测方法方面,可以引入更多的新型算法,以进一步提高检测的精度和泛化能力。


参考文献:

[2]邓聪颖,邓子豪,赵洋,等.有限样本下基于迁移学习的铣削稳定性预测方法[J].仪器仪表学报,2023,44(9):313-321.

[3]余凯.建筑物基坑支护变形GA-BP神经网络预警检测研究[J].粘接,2023,50(8):158-161.

[4]付杰,李舒洁.基于迁移学习和多角度图像的柿子成熟度判别研究[J].现代化农业,2024(7):52-56.

[5]李路.基于迁移学习的变电站智能巡视系统应用研究[J].电工技术,2023,(S1):27-29,32.

[6]徐慧,何宏,张慧敏,等.黎曼流形切平面空间中运动想象脑电信号的迁移学习[J].中国生物医学工程学报,2023,42(6):659-667.

[7]张旭,宋振乾,古天松,等.改进遗传算法的供应链终端高维数据特征筛选[J].电子设计工程,2024,32(16):121-124,129.

[8]杨慧荣.基于GA改进ANN算法的车载网控系统故障诊断[J].山西电子技术,2024(1):16-18.

[9]陈亚辉.基于深度孤立森林的输电线路缺陷预测算法研究[J].全面腐蚀控制,2024,38(5):61-63.

[10]肖平安.基于孤立森林算法的空调系统运行异常检测研究[J].自动化应用,2024,65(7):185-187.

[13]张俊妍.基于高斯混合模型的汽车车架纵梁故障监测方法研究[J].机械设计与制造工程,2023,52(8):82-86.


文章来源:王顺,黄韬,刘晋熙,等.基于迁移学习的医院财务数据异常检测技术[J].电子设计工程,2024,32(23):27-30+35.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

电子设计工程

期刊名称:电子设计工程

期刊人气:3270

期刊详情

主管单位:九三学社陕西省委员会

主办单位:西安市三才科技实业有限公司

出版地方:陕西

专业分类:电子

国际刊号:1674-6236

国内刊号:61-1477/TN

邮发代号:52-142

创刊时间:1994年

发行周期:半月刊

期刊开本:大16开

见刊时间:10-12个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定