近日,开云网页登录 医疗机器人研究院郑国焱教授团队于IEEE Transactions on Medical Imaging杂志上在线发表论文“LAtent Space-constrained Transformers for Automatic Surgical Phase Recognition and Tool Presence Detection ”(DOI: 10.1109/TMI.2023.3279838)
图源:IEEE Transactions on Medical Imaging
在开发具备状态感知的手术机器人系统时,自动手术阶段识别和手术工具检测是两项基本任务。以前曾有过为这两项任务开发方法的尝试,但大多数现有的方法都是利用单帧的损失函数(如交叉熵),这并不能充分地利用手术视频的潜在语义结构,从而导致次优的结果。在本文中,我们提出了基于多任务学习的LAtent Space-constrained Transformers,简称LAST,用于自动手术阶段识别和手术工具检测。我们设计了一个双分支变换器(Transformer)模型,在网络训练过程中以一种新颖和通用的方式利用视频级语义信息。我们通过基于变换器的变分自动编码器(VAE)来学习手术视频的潜在语义结构信息的非线性紧凑表示,并鼓励深度模型的预测遵循学习到的统计分布。换句话说,LAST能学习到手术视频的全局语义结构信息,并倾向让网络模型的预测位于学习到的低维数据流形上。在胆囊切除手术的两个公共数据集,即Cholec80数据集和M2cai16数据集上进行验证,我们的方法取得了比文献中报道的其它方法更好的结果。具体来说,在Cholec80数据集上,我们的方法取得了平均93.12±4.71%的准确率,平均89.25±5.49%的精确度,平均90.10±5.45%的召回率和平均81.11±7.62%的Jaccard指标,以及平均95.15±3.87%的手术工具检测的精度。当LAST应用于M2cai16数据集时,也观察到类似的卓越性能。
上图:LAST架构的示意图,它包括一个视觉特征提取单元,一个特征增强单元、 和一个隐空间约束单元;(A)训练阶段的设置;(B)测试阶段的设置;(C)图例。