“近日,浪潮信息团队在地球物理学领域的国际顶级学术期刊《Geophysical Research Letters》发表突破性研究成果,首次提出基于掩码自编码器(MAE)框架的闪电自监督学习神经网络模型,成功破解了当前闪电分类模型长期依赖海量人工标注数据的核心瓶颈,提高模型训练效率,为闪电波形识别和分类提供了新的技术路径。
”近日,浪潮信息团队在地球物理学领域的国际顶级学术期刊《Geophysical Research Letters》发表突破性研究成果,首次提出基于掩码自编码器(MAE)框架的闪电自监督学习神经网络模型,成功破解了当前闪电分类模型长期依赖海量人工标注数据的核心瓶颈,提高模型训练效率,为闪电波形识别和分类提供了新的技术路径。
*《地球物理研究通讯》(英文:Geophysical Research Letters),简称GRL,是美国地球物理学会(AGU)旗下的国际顶级地球物理学跨学科期刊。该刊以发表高影响力、创新性强和时效性突出的研究成果著称,要求文章能在地球科学主要领域乃至整个学科范围内产生直接而广泛的影响,在同行评价中受到广泛认可。
夏季强对流天气频发,往往伴随强烈闪电活动。现代闪电定位系统部署成熟,闪电实时监测能力高,世界气象组织(WMO)也已将闪电列为强对流监测的必选参数。但是,如何基于闪电波形特征进行高效、精确的闪电放电事件的识别和分类,是雷电物理研究与防护领域的重要挑战之一。
一次雷雨天气通常会产生数万至数十万个放电事件,往往需要研究团队花费数十个小时才能完成筛选并形成标注数据集。此前,已经有基于AI技术的纯监督模型用于闪电分类领域,但这些模型完全依赖人工标注的数据,且在跨数据集应用时的表现能力比较差。因此,浪潮信息提出自监督预训练模型解决以上问题——首先从大量未标记数据中自动学习鲁棒特征,之后仅需几千条标注数据微调,即可在中科院大气物理研究所的北京闪电定位网(BLNET)数据集上实现98.30%的分类准确率。在迁移至另外两个公开的闪电数据集时,相比原作方法,本模型仅需极少量标注数据即展现出与之相当的分类水平(分别为97.94%和98.29%),展现出优秀的稳定性和泛化能力。
闪电分类存在标注依赖与泛化局限问题
传统闪电分类方式依赖关键波形参数(如上升沿、脉冲宽度)的经验阈值判断,受探测设备和研究者主观经验影响,准确率不稳定。随着AI技术发展,机器学习(ML)和深度学习(DL)技术被引入闪电分类领域。基于电磁监测获取的电场波形数据,经人工标注后训练出的分类模型,准确率可达95%至99%,展现了AI技术在闪电分类中的应用潜力。
然而,当前主流闪电分类模型普遍采用纯监督学习,意味着训练过程需要海量人工标注数据,通常需要几万甚至十几万条标注数据。这不仅需要耗费巨大的人力与时间成本,而且当面对规模庞大的闪电数据集时,标注工作会变得异常繁重,导致模型训练效率低下。
更关键的是,由于不同地区的闪电存在物理特性差异(如波形尺度与形态),且不同监测网络的规模、探测范围、设备配置(如传感器类型、采样频率)和部署环境(站点间距、地形差异)各不相同,使得同一监督模型在进行跨网络分类时会变得困难。结果就是,一个在特定标注数据集上训练出的“学霸”模型,一旦应用到新环境中,往往会出现显著的性能下滑,表现出糟糕的适应性和泛化能力。
对于那些闪电中的“稀客”——比如罕见或全新的闪电类型,也令人头疼。由于其样本量十分有限,这将会导致监督模型难以充分学习其特征规律,从而很难在庞大的数据集中识别出它们独特且细微的差别,自然也就难以准确识别这些特殊的闪电事件。
相比之下,自监督模型利用代理任务,在大型数据集以及标记数据有限或特征提取要求复杂的情况下仍能够提取丰富的数据信息,无需大量标注,具有显著优势。因此,浪潮信息提出的基于掩码自编码器(MAE)框架的自监督神经网络模型,能够大幅减轻手动标注工作量,提高训练效率,并在不同的闪电网数据分类任务中体现了高准确率和良好的泛化能力。
提出自监督预训练模型解决闪电分类难题
浪潮信息团队所提出的自监督模型,首先使用大量未标注闪电波形数据进行自监督预训练,通过重构掩码片段学习闪电信号特征;再用少量标注数据微调,以适应高准确率的分类任务。
MAE(Masked Autoencoder)框架此前已在医学图像、声音信号及自然信号(含电磁信号)的识别与分类任务中广泛应用,凭借其强大的全局特征提取能力、对无标注数据的自适应性以及显著降低人工标注成本的优势,为自然信号处理提供了高效解决方案。
本次提出的MAE框架通过Transformer全局建模能力精准捕获闪电波形的峰值与放电长程特征;经过大量实验尝试,优化片段划分策略,有效解决了传统方法和监督学习中存在的需要手动挑选特征量的人为干预问题;同时通过融合均方误差与交叉熵的混合损失函数,在保持模型收敛速度的同时优化预测精度,实现效率与性能的协同提升。
基于掩码自编码器(MAE)框架的自监督人工神经网络闪电波形分类器
在预训练阶段,模型利用10万个未标注的闪电波形样本,通过随机掩蔽75%数据并重建原始信号的方式,自主学习闪电波形的通用特征表达。这一过程无需人工标注,大幅减少了数据准备成本。在微调阶段,仅需3000个标注样本(涵盖正地闪PCG、负地闪NCG、双极性窄脉冲NBE、预击穿脉冲PB和云闪IC,5种闪电类型)对模型进行优化,即在BLNET数据集上达到98.30%的高分类准确率。这种设计突破了传统监督学习方法对海量标注数据的强依赖,在保证性能的同时极大地提升了数据利用效率。
当迁移至两个独立公开数据集时,该模型仅使用20%的标注数据即达到97.94%和98.29%的准确率,展现出卓越的泛化能力与跨数据集适应性。与原始研究中采用80%以上标注数据的监督模型性能相当甚至更优(支持向量机SVM准确率96.66%、卷积神经网络CNN准确率98.56%)。这一结果表明,模型通过自监督预训练学习到的特征具有普适性,可有效应用于不同地理区域和采集系统的闪电数据。
四种不同模型的T-SNE可视化结果。(a) 随机初始化数据模型(未经过预训练的模型);(b) 在(a)模型基础上使用训练数据集微调后的模型;(c) 基于无标签数据集进行自监督预训练的模型(仅经过预训练的模型);(d) 在(c)模型基础上使用训练数据集微调后的模型(经过预训练和微调的模型)。在图(d)中标注了闪电过程具体类型。
可视化分析进一步验证了该模型架构的有效性。T-SNE降维结果显示:随机初始化模型的样本特征高度重叠,无法有效识别出闪电类型;而自监督预训练后的特征空间已呈现明显的类别分离趋势;经监督微调后,同类样本紧密聚集,不同类别分离度显著提升,类间边界清晰。这说明预训练和微调均对模型性能产生实质性影响,但唯有结合自监督预训练与监督微调,方能实现最优分类效果。
此外,该框架还具有灵活性与可扩展性。新增闪电类别时,只需在微调期间纳入新的类别即可,无需重启整个预训练流程;模型亦可直接迁移至不同闪电监测网络,在保证波形质量和采样率一致的条件下,通过轻量微调或直接推理实现跨系统部署。更重要的是,自监督预训练利用海量未标注数据学习底层规律,相比依赖有限标注数据的监督模型,更擅长捕捉稀有毫秒级脉冲序列闪电事件的特征模式,为发现未知闪电现象提供新途径。
浪潮信息团队在GRL上发表的创新研究,成功破解了闪电分类依赖海量标注数据的难题,不仅降低了人工标注的时间和成本,也为雷电研究、灾害预警和探索未知的闪电提供了新思路。本研究由浪潮信息与中科院大气物理研究所等单位合作完成,得到国家自然科学基金42027803、42230609、42475098,中科院战略先导专项XDB0760100,大气环境与极端气象全国重点实验室自主课题青年项目2024QN09等资助。
分享到:
猜你喜欢