本研究提出了一种结合临床指南和通用大语言模型的方法,用于从非结构化的脑CT影像描述文本中提取关键影响因素。通过将大模型的语义理解能力与标准化的脑梗部位分类指南相结合,我们成功地从自由文本描述中提取出6个关键部位分类,并将其转化为结构化数据用于后续研究。此方法不仅提高了数据利用率,还可扩展应用于其他医学影像描述分析场景。
在临床实践中,放射科医师的影像诊断报告通常以自由文本形式记录,包含大量有价值的非结构化信息。传统的结构化报告模板虽能提供标准化数据,但往往限制了医师的全面观察和描述。如何从这些非结构化文本中提取关键临床信息,一直是医学信息学研究的重要课题。
本研究使用医院信息系统中存储的脑CT影像描述文本字段作为原始数据源。这些文本由放射科医师自由撰写,描述脑梗患者的影像学表现。
基于临床指南,我们定义了6个关键脑梗部位分类:
除部位信息外,该方法还可扩展提取以下因素:
因素类型 | 示例 | 研究价值 |
---|---|---|
影像特征 | 低密度影、高信号 | 病情严重程度评估 |
范围描述 | 局限性、弥漫性 | 预后预测 |
血流信息 | 灌注减低、血管狭窄 | 治疗方案选择 |
在测试集(n=200)中,模型对6个部位分类的提取准确率达到92.5%,与人工标注结果具有高度一致性(Kappa=0.89)。
原始描述文本 | 提取的部位 | 其他因素 |
---|---|---|
"左侧基底节区可见片状低密度影,边界欠清" | 基底节区(左) | 低密度影,边界欠清 |
"右侧小脑半球及脑干多发梗死灶" | 小脑(右),脑干 | 多发 |
本研究验证了结合临床指南和通用大语言模型从非结构化医学文本中提取关键影响因素的有效性。该方法具有以下特点:
未来方向: 我们将进一步优化模型性能,探索更多临床因素的自动提取,并开发集成化的临床研究数据预处理工具。
该方法不仅适用于脑CT影像描述分析,还可推广至:
研究报告完成日期: