本研究基于1,190例临床样本(脑梗患者508例,正常对照682例),采用机器学习方法系统分析了21项生化指标对脑梗的预测价值。通过特征重要性排序和多元建模,发现6个关键预测因子组合的预测效能(AUC=0.976)显著优于单一最佳指标ALB(AUC=0.922)。相关成果已发表于《Journal of Neurological Sciences》(2023)。
数据集 | 样本量 | 特征数 | 处理方式 |
---|---|---|---|
脑梗组(df_p) | 508例 | 21项生化指标 |
|
正常组(df_n) | 682例 |
图1. 研究数据集构成(N=1,190)
TG, TC, HDL, LDL, GLU, AST, ALT, GGT, TP, ALB, TBIL, DBIL, ALP, CREA, UA, UREA, PT, INR, APTT, FIB, TT
# 特征重要性分析示例代码
from sklearn.linear_model import LogisticRegression
# 标准化数据后训练模型
model = LogisticRegression()
model.fit(X_train, y_train)
# 获取特征重要性(回归系数绝对值)
importance = abs(model.coef_[0])
feature_names = X_train.columns
feature_importance = pd.DataFrame({'Feature':feature_names, 'Importance':importance})
feature_importance = feature_importance.sort_values('Importance', ascending=False)
t检验显示21项指标中19项在两组间存在显著差异(p<0.05):
指标 | T值 | P值 | 显著性 |
---|---|---|---|
ALB | -35.08 | 1.26e-185 | *** |
HDL | -26.22 | 5.78e-120 | *** |
TP | -31.27 | 4.19e-157 | *** |
TC | -10.91 | 1.76e-26 | *** |
GLU | 8.23 | 5.07e-16 | *** |
UA | -0.92 | 0.360 | NS |
FIB | -1.61 | 0.108 | NS |
***p<0.001, NS:无统计学意义
图2. 脑梗组与正常组Top6指标水平比较
基于逻辑回归系数绝对值的特征重要性分析:
图3. 21项指标的特征重要性排序
筛选出前6位关键指标:ALB、HDL、TP、DBIL、INR、FIB
模型 | 准确率 | 敏感度 | 特异度 | AUC |
---|---|---|---|---|
支持向量机 | 87% | 85% | 89% | 0.961 |
逻辑回归 | 92% | 91% | 93% | 0.976 |
决策树 | 88% | 87% | 89% | 0.935 |
图4. 三种模型的性能比较
指标/组合 | AUC | 与多因素模型差异 |
---|---|---|
6指标组合(ALB+HDL+TP+DBIL+INR+FIB) | 0.976 | - |
ALB(单指标) | 0.922 | ↓5.8% |
HDL | 0.900 | ↓8.4% |
TP | 0.887 | ↓9.8% |
DBIL | 0.616 | ↓58.4% |
图5. 多因素组合与单指标AUC比较
评估指标 | 实施前 | 实施后 | 改善 |
---|---|---|---|
高风险识别率 | 68% | 89% | ↑30.9% |
早期干预率 | 52% | 78% | ↑50.0% |
不必要检查率 | 35% | 12% | ↓65.7% |
本研究证实基于常规生化指标组合的机器学习模型可显著提高脑梗预测准确性。特别值得注意的是:
注:本案例数据基于真实研究但经过整合处理,详细技术细节请参考原始论文。
© 2023 神经血管疾病人工智能研究组 版权所有