决策树（一）熵、条件熵、信息增益

决策树（一）熵、条件熵、信息增益

黑夜不再来

Email：ht0909@ mail.ustc.edu.cn

原创内容，转载请标明

参考：《统计学习方法》李航

一.熵、条件熵、信息增益

熵（entropy）

熵表示随机变量不确定性的度量。

熵（entropy）定义

熵越大代表随机变量的不确定性就越大。

条件熵（conditional entropy）

条件熵定义

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。

经验条件熵就是在某一条件约束下的经验熵。

信息增益（information gain）

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

信息增益定义

一般地，熵H（Y）与条件熵H（Y|X）之差称为互信息（mutual information）。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集D和特征A，经验熵H（D）表示对数据集D进行分类的不确定性。而经验条件熵H（D|A）表示在特征A 给定的条件下对数据集D进行分类的不确定性，那么它们的差，即信息增益，就表示由于特征A而使得对数据集D的分类的不确定性减少的程度。不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

算法1.（信息增益算法）

二.计算信息增益实例

例

表5.1是一个由15个样本组成的贷款申请训练数据。数据包括贷款申请人的4个特征（属性）：年龄、有无工作、有无房子、信贷情况。表的最后一列是类别，是否同意贷款。

希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。

发布于 2018-08-02 17:31

深圳SEO优化公司常州网站推广系统价格山南网页设计哪家好宝鸡SEO按天收费推荐常德网站优化推荐大芬百度seo价格南昌设计网站哪家好梧州百度竞价哪家好拉萨网站改版报价泰州网站推广系统哪家好青岛百度seo推荐苏州模板制作推荐兴安盟百度网站优化公司达州外贸网站制作公司吉祥关键词排名价格商洛外贸网站制作报价宜昌网站开发多少钱清远网站优化报价威海百度标王多少钱黑河网站关键词优化哪家好黄石关键词按天收费海口企业网站建设价格济南网站优化按天计费哪家好丹东优化公司垦利百姓网标王哪家好自贡企业网站建设报价丹竹头营销型网站建设多少钱漳州英文网站建设哪家好大理百度seo价格张家界关键词按天扣费哪家好巢湖优秀网站设计报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化