PDF下载
采用XGBoost和随机森林探索中国西部女性乳腺癌危险因素

彭佳丽1 刘春容2 李旭1 易芳1 李佳圆1

1.四川大学华西公共卫生学院/四川大学华西第四医院;2.四川大学华西医院中国循证医学中心

摘要: 目的采用XGBoost和随机森林法探索中国西部女性乳腺癌危险因素。方法 2014-2015年间采用病例对照研究设计序贯收集病例788例,对照801例。问卷调查研究对象乳腺癌相关危险因素信息;采用飞行时间质谱生物芯片技术检测对象乳腺癌易感基因的SNPs突变,并估计多个基因的联合评分(polygenetic risk score,PRS)。按绝经状态为分层因素,分别用XGBoost和随机森林构建绝经前/后乳腺癌风险预测模型,筛选乳腺癌相关危险因素并进重要性排序。结果两种算法筛选的乳腺癌危险因素清单前10位显示,绝经前/后主要的危险因素包括总哺乳时间、人工节育器累积使用时间、PRS、被动吸烟年限、BMI及体重信息和年龄。两种模型在绝经前后AUC值均大于70%。结论通过两种机器学习法筛选的危险因素较为一致,这些因素将有助于筛选中国西部女性的乳腺癌高危因素,以实现乳腺癌风险分级管理。
关键词: 乳腺癌;危险因素;XGBoost;随机森林;多基因评分
DOI:
基金资助:
文章地址: