🐳 模型可解释性 XAI 二 🐳
1、XAI 技术类别
模型可解释性的研究可根据解释的局部性 (具体样本的局部解释、整个模型的全局解释)、解释性实现的阶段 (建模的前、中、后)、模型依赖性 (模型相关、模型无关) 等不同角度进行划分。
下图则是根据 可解释性实现的阶段 所作的划分 (参考 模型可解释性技术概览) 。
2、建模前的可解释性
即通过基本的统计数据分析方法及可视化方法,得出关于待分析样本的初步结论,如阈值检测异常等。
虽然此类方法应用涉及范围广,但几乎不涉及更自动化的 AI 系统。
3、可解释的模型
(1) 可解释的 ML 算法,如线性回归、逻辑回归、决策树、KNN、朴素贝叶斯等。
(2) 优化后的神经网络。
- Interpretable CNN。Interpretable convolutional neural networks,CVPR 2018。
- Attentive Multi-View Learning。Explainable Recommendation Through Attentive Multi-View Learning,AAAI 2019。
(3) 知识图谱及图算法在安全场景中的应用。
- Threat Intelligence Computing,安全日志、告警日志以及流量日志都存储为统一的时序图,进而通过攻击子图描述威胁或者攻击。Threat Intelligence Computing,CCS 2018。
- NoDoze,利用溯源图 (Provenance Graph) 来定义和发现真实的攻击路径。NoDoze: Combatting Threat Alert Fatigue with Automated Provenance Triage,NDSS 2019。
- Holmes,基于攻击链视角将时序上松散的可疑进程事件关联,能够有效提取APT攻击行为。HOLMES: real-time APT detection through correlation of suspicious information flows,S&P 2019。
4、建模后的可解释性
(1) 部分依赖图 Partial Dependence Plot。
- 计算某个特征所有可能值情况下的模型预测均值,并可视化该特征的重要性,表征其与分类结果之间的关系。可参考 sklearn 库 中函数
plot_partial_dependence
,也可配合 sklearn 库中不同分类器的feature_importances_
属性作图。
(2) 计算相应模型下不同特征的 feature importance。
- LIME,KDD 2016。待续。
- LEMNA,CCS 2018。参考 模型可解释性 Lemna 。
- SHAP,NIPS 2017。参考 模型可解释性 SHAP 。
- DeepLift,Learning important features through propagating activation differences,ICML 2017。
- 知识蒸馏 (model distilling),即将复杂的教师模型学到的知识迁移到简化后的学生模型上,再对教师模型进行解释。参考 深度学习模型可解释性研究综述 。
5、XAI 技术总结
下表/图从解释阶段、解释域、模型相关性三个维度对上述可解释技术的特性进行了小结 (参考 模型可解释性技术概览) 。