博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
模型选择准则
阅读量:4598 次
发布时间:2019-06-09

本文共 974 字,大约阅读时间需要 3 分钟。

模型选择或者模型优劣判断的标准主要参考两个指标,一是模型精度,一是模型复杂度,两者通常情况是相互矛盾的,增加变量个数可以提升模型精度,但也会增加模型复杂度,使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡,通常以精度有第一考虑点,其次是复杂度。

评价模型精度的方法有:

  1. AUC和ROC:两者通常结合在一起使用,ROC(receiver operating characteristic),接收者操作特征曲线,横坐标是FPR,预测为正实际为负的样本占所有负样本的比例。纵坐标是TPR,预测为正实际为正的样本占所有正样本的比例。ROC曲线越靠近纵轴越好,但ROC曲线没不是一个指标所以在实际应用中并不多。AUC(Area Under Curve)是一个(0,1)的概率值,表示ROC曲线下的面积,通常情况下大于0.5,值越大越好,1的时候最完美,通常0.75以上表示模型拟合较好。
  2. 提升图:将预测概率值降序排列,并等分为10/20等份,计算每等份中正样本率与整体正样本率(固定值)的比值,好的模型该比值是单调递减的,前3个等分的比值大于1,且越大越好。
  3. 洛伦茨曲线
  4. KS曲线和KS值:拿信贷模型举例,假如信用评分是0,1,2,3,4,5,且符合正太分布,我们的目标是贷款给更多的好用户,拒绝更多的坏用户,实现二者最优。贷款给更多的人则要把他们都判定为好样本,理想情况下都判定为好样本,但这个时候会对坏样本误判。如果要拒绝更多的坏用户,理想情况下都判定为坏样本。其中好样本对应于召回率(TPR):预测为正且实际为正的样本数/所有正样本数 。坏样本对应于误诊率(FPR):预测为负但实际为正的样本数/所有负样本数。

评价模型复杂度的方法有:

  1. AIC(Akaike Information Criterion):赤池信息准则,提供了权衡估计模型复杂度和过拟合数据优良性的标准,公式AIC = 2K -  2ln(L),K是模型参数个数,L是似然函数,当-2ln(L)相同时,AIC越小越好 
  2. BIC(Bayesian Information):贝叶斯信息准则,公式BIC = kln(n) - 2ln(L),K时模型参数个数,L为似然函数。

 

转载于:https://www.cnblogs.com/mango-lee/p/9713353.html

你可能感兴趣的文章
悲怆:IT人的一声叹息->一个程序员的自白[转帖]
查看>>
[SpringMVC]自定义注解实现控制器访问次数限制
查看>>
日记(序)
查看>>
A == B ?
查看>>
洛谷P3763 [Tjoi2017]DNA 【后缀数组】
查看>>
GSM模块_STM32实现GPRS与服务器数据传输经验总结
查看>>
5.Python进阶_循环设计
查看>>
Android采访开发——2.通用Android基础笔试题
查看>>
UVa 442 Matrix Chain Multiplication(矩阵链,模拟栈)
查看>>
多种方法求解八数码问题
查看>>
spring mvc ModelAndView向前台传值
查看>>
(黑客游戏)HackTheGame1.21 过关攻略
查看>>
Transparency Tutorial with C# - Part 2
查看>>
android 文件上传
查看>>
ASCII 码表对照
查看>>
javascript的DOM操作获取元素
查看>>
Shuffle'm Up(串)
查看>>
20145219 《Java程序设计》第06周学习总结
查看>>
C# 执行bat文件并取得回显
查看>>
基于YOLO的Autonomous driving application__by 何子辰
查看>>