模型选择或者模型优劣判断的标准主要参考两个指标,一是模型精度,一是模型复杂度,两者通常情况是相互矛盾的,增加变量个数可以提升模型精度,但也会增加模型复杂度,使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡,通常以精度有第一考虑点,其次是复杂度。
评价模型精度的方法有:
- AUC和ROC:两者通常结合在一起使用,ROC(receiver operating characteristic),接收者操作特征曲线,横坐标是FPR,预测为正但实际为负的样本占所有负样本的比例。纵坐标是TPR,预测为正且实际为正的样本占所有正样本的比例。ROC曲线越靠近纵轴越好,但ROC曲线没不是一个指标所以在实际应用中并不多。AUC(Area Under Curve)是一个(0,1)的概率值,表示ROC曲线下的面积,通常情况下大于0.5,值越大越好,1的时候最完美,通常0.75以上表示模型拟合较好。
- 提升图:将预测概率值降序排列,并等分为10/20等份,计算每等份中正样本率与整体正样本率(固定值)的比值,好的模型该比值是单调递减的,前3个等分的比值大于1,且越大越好。
- 洛伦茨曲线
- KS曲线和KS值:拿信贷模型举例,假如信用评分是0,1,2,3,4,5,且符合正太分布,我们的目标是贷款给更多的好用户,拒绝更多的坏用户,实现二者最优。贷款给更多的人则要把他们都判定为好样本,理想情况下都判定为好样本,但这个时候会对坏样本误判。如果要拒绝更多的坏用户,理想情况下都判定为坏样本。其中好样本对应于召回率(TPR):预测为正且实际为正的样本数/所有正样本数 。坏样本对应于误诊率(FPR):预测为负但实际为正的样本数/所有负样本数。
评价模型复杂度的方法有:
- AIC(Akaike Information Criterion):赤池信息准则,提供了权衡估计模型复杂度和过拟合数据优良性的标准,公式AIC = 2K - 2ln(L),K是模型参数个数,L是似然函数,当-2ln(L)相同时,AIC越小越好
- BIC(Bayesian Information):贝叶斯信息准则,公式BIC = kln(n) - 2ln(L),K时模型参数个数,L为似然函数。