信息是用来消除随机不确定性的东西(信息是用来消除随机不确定性的东西举例)

熵、信息量、信息熵、交叉熵-个人小结

一、理解熵

1、首先看到这个词会产疑问,熵是什么?谁定义的?用来干什么的?为什么机器学习会用到熵?有了这些疑问后慢慢的开始探索~复制代码

熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。 克劳修斯(T.Clausius) 于1854年提出熵(entropie)的概念, 我国物理学家胡刚复教授于1923年根据热温商之意首次把entropie译为“熵”。A.Einstein曾把熵理论在科学中的地位概述为“熵理论对于整个科学来说是第一法则”。

为了理解熵,必须讲一点物理学。

19世纪,物理学家开始认识到,世界的动力是能量,并且提出”能量守恒定律”,即能量的总和是不变的。但是,有一个现象让他们很困惑。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,单摆在两侧的最高点,势能最大,动能为零;在中间的低点,动能最大,势能为零,能量始终守恒。)物理学家发现,能量无法百分百地转换。比如,蒸汽机使用的是热能,将其转换为推动机器的机械能。这个过程中,总是有一些热能损耗掉,无法完全转变为机械能。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,能量 E 的转换,总是会导致能量损耗 ?E。)

一开始,物理学家以为是技术水平不高导致的,但后来发现,技术再进步,也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。

后来,这个概念被总结成了”热力学第二定律”:能量转换总是会产生熵,如果是封闭系统,所有能量最终都会变成熵。

熵既然是能量,为什么无法利用?它又是怎么产生的?为什么所有能量最后都会变成熵?复制代码

物理学家有很多种解释,有一种我觉得最容易懂:能量转换的时候,大部分能量会转换成预先设定的状态,比如热能变成机械能、电能变成光能。但是,就像细胞突变那样,还有一部分能量会生成新的状态。这部分能量就是熵,由于状态不同,所以很难利用,除非外部注入新的能量,专门处理熵。

熵、信息量、信息熵、交叉熵-个人小结

(上图,能量转换过程中,创造出许多新状态。)

总之,能量转换会创造出新的状态,熵就是进入这些状态的能量。

现在请大家思考:状态多意味着什么?复制代码

状态多,就是可能性多,表示比较混乱;状态少,就是可能性少,相对来说就比较有秩序。因此,上面结论的另一种表达是:能量转换会让系统的混乱度增加,熵就是系统的混乱度。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,熵低则混乱度低,熵高则混乱度高。)

转换的能量越大,创造出来的新状态就会越多,因此高能量系统不如低能量系统稳定,因为前者的熵较大。而且,凡是运动的系统都会有能量转换,热力学第二定律就是在说,所有封闭系统最终都会趋向混乱度最大的状态,除非外部注入能量。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,冰块是分子的有序排列,吸收能量后,变成液体水,分子排列变得无序。)熵让我理解了一件事,如果不施加外力影响,事物永远向着更混乱的状态发展。比如,房间如果没人打扫,只会越来越乱,不可能越来越干净。复制代码
熵、信息量、信息熵、交叉熵-个人小结

(上图中,如果不花费能量打扫,房间总是越来越乱。)

熵的解释是混乱度的度量单位,一个系统的混乱度越高它的熵就越高复制代码

二、理解信息量

我们知道了熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。

这里有又产生了疑问,熵怎么就合信息论产生了关系?复制代码

信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。

1、信息量和事件发生的概率相关,事件发生的概率越低,传递的信息量越大;2、信息量应当是非负的,必然发生的事件的信息量为零;3、两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;复制代码

用数学表达如下:

熵、信息量、信息熵、交叉熵-个人小结

三、理解信息熵

但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中熵的概念),来解决信息的度量问题。

好了,这里就产生了信息熵!那么怎么解释呢?那信息熵如何计算呢?复制代码

举个吴军在《数学之美》中一样的例子,假设世界杯决赛圈32强已经产生,那么随机变量“2018年俄罗斯世界杯足球赛32强中,谁是世界杯冠军?”的信息量是多少呢?

根据香农(Shannon)给出的信息熵公式,对于任意一个随机变量X,它的信息熵定义如下,单位为比特(bit):

熵、信息量、信息熵、交叉熵-个人小结

把最前面的负号放到最后,便成了:

熵、信息量、信息熵、交叉熵-个人小结

上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思。复制代码

那么上述随机变量(谁获得冠军)的信息量是:

熵、信息量、信息熵、交叉熵-个人小结

其中,p1,p2,…,p32分别是这32强球队夺冠的概率。 吴军的书中给出了几个结论:一是32强球队夺冠概率相同时,H=5;二是夺冠概率不同时,H<5;三是H不可能大于5。 对于第一个结论:结果是很显然的,夺冠概率相同,即每个球队夺冠概率都是1/32,所以H=-((1/32)·log(1/32)+(1/32)·log(1/32)+…+(1/32)·log(1/32))=-log(1/32)=log(32)=5(bit)

对于第二个结论和第三个结论:使用拉格朗日乘子法进行证明,详见《求约束条件下极值的拉格朗日乘子法》。这实际上是说系统中各种随机性的概率越均等,信息熵越大,反之越小。

从香农给出的数学公式上可以看出,信息熵其实是一个随机变量信息量的数学期望。复制代码

日常生活中,我们经常说某人说话言简意赅,信息量却很大,某些人口若悬河,但是废话连篇,没啥信息量;这个电视剧情节太拖沓,一集都快演完了也没演啥内容。这里的信息量/内容与信息熵有什么关系呢?

很多人把这些东西与信息熵混为一谈,得出“说话信息量越大,信息熵越高”“语言越言简意赅,信息熵越高;语言越冗余堆积,信息熵越低。”等等结论。

不是说这些说法错了,而是容易引起误导。个人认为,这里日常语境的信息量与其说是信息量,不如说是信息质量和信息传递效率问题,有没有干货,有没有观点,有没有思想,并且在一定的文字长度/播放时间内,能不能有效的表达出来,这个其实是人的能力问题,和信息熵没啥关系好不!

四、联合熵、条件熵、交叉熵

联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。复制代码

且有此式子成立:H(Y|X) =H(X,Y) – H(X),整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导:

熵、信息量、信息熵、交叉熵-个人小结

熵、信息量、信息熵、交叉熵-个人小结

简单解释下上面的推导过程。整个式子共6行,其中第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和;第三行推到第四行的依据是把公因子logp(x)乘进去,然后把x,y写在一起;第四行推到第五行的依据是:因为两个sigma都有p(x,y),故提取公因子p(x,y)放到外边,然后把里边的-(logp(x,y)-logp(x))写成- log(p(x,y)/p(x)) ;第五行推到第六行的依据是:条件概率的定义p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) = p(y|x)。复制代码

相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:复制代码
熵、信息量、信息熵、交叉熵-个人小结

在一定程度上,相对熵可以度量两个随机变量的“距离”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大于等于0的。附录:联合熵、条件熵、交叉熵、互信息

#交叉熵例子

熵、信息量、信息熵、交叉熵-个人小结

这是公式定义,x、y都是表示概率分布(注:也有很多文章喜欢用p、q来表示),这个东西能干嘛呢?假设x是正确的概率分布,而y是我们预测出来的概率分布,这个公式算出来的结果,表示y与正确答案x之间的错误程度(即:y错得有多离谱),结果值越小,表示y越准确,与x越接近。

比如:

x的概率分布为:{1/4 ,1/4,1/4,1/4},现在我们通过机器学习,预测出来二组值:

y1的概率分布为 {1/4 , 1/2 , 1/8 , 1/8}

y2的概率分布为 {1/4 , 1/4 , 1/8 , 3/8}

从直觉上看,y2分布中,前2项都100%预测对了,而y1只有第1项100%对,所以y2感觉更准确,看看公式算下来,是不是符合直觉:

熵、信息量、信息熵、交叉熵-个人小结

熵、信息量、信息熵、交叉熵-个人小结

对比结果,H(x,y1)算出来的值为9/4,而H(x,y2)的值略小于9/4,根据刚才的解释,交叉熵越小,表示这二个分布越接近,所以机器学习中,经常拿交叉熵来做为损失函数(loss function)。参考文献:K码农-http://kmanong.top/kmn/qxw/form/home?top_cate=28

本文来自投稿,不代表展天博客立场,如若转载,请注明出处:https://www.me900.com/267593.html

(0)

相关推荐

  • 火焰山实际上位于哪里(石缝中会冒火的原因是)

    明代作家吴承恩的《西游记》中就有这样一段描述,唐三藏及师徒4人去往西天取经,在途中受阻于火焰山,孙悟空借铁扇公主的芭蕉扇扇灭了火焰山的火,这才得以通行。 现实世界中也有火焰山,它位于新疆吐鲁番。不过这儿并没有火焰,只有赤红色的地貌,并且光秃秃的。这些“红山”主要是由中生代的赤红色砂、砾岩和泥岩组成。此外火焰山是真的热,夏季最高气温可达47.8度,地表最高温度…

    2023-06-02 知识百科
  • 中尉是什么级别的干部,一位老铁道兵的心意

    特别声明:本文为新华网客户端新媒体平台“新华号”账号作者上传并发布,仅代表作者观点,不代表新华号的立场及观点。新华号仅提供信息发布平台。 康天鑑:一位老铁道兵的心意 他是一名老铁道兵工程技术干部,曾参加过抗美援朝战争,1985年从中铁十四局工作岗位离休。今年春天,当他得知筹建中的中铁十四局博物馆,在征集历史文物和资料,便主动打去电话,表示了要捐赠几件藏品的意…

    2023-02-15
  • 发视频可以赚钱的自媒体平台,有阅读就有推荐的自媒体平台推荐

    看着身边越来越多的人通过做自媒体挣了少钱,真的很难不心动啊,但是对于很多没有经验的人来说,想做却不知如何开始,今天就给大家分享几个自媒体平台,特别适合一个人在家做自媒体的小白来做,门槛低,变现很容易。 很多新手小伙伴都以为只要是自媒体平台发文就有收益,其实不是的,部分自媒体平台是没有直接的流量收益的,比如搜狐号、简书、抖音等,这些自媒体平台就是没有内容收益,…

    2023-02-09
  • 淘金币全额兑换时间(淘金币什么时候可以全额兑换)

    我们在淘宝上看到的淘金币其实是一种虚拟积分。淘金币有固定的使用平台,在这里,金币能够兑换、竞拍到品牌折扣商品;当然也能兑换、抽奖得到免费商品以及现金红包等等,他还能进行线上线下商家的积分兑入。 通常情况下我们浏览购买商品后,就有机会得到淘金币,很多人往往会忽略掉,不知道具体怎么使用淘金币,接下来我们就详细的说一说它的具体用途!   前文说淘金币其实…

    2021-12-09
  • 贵州道真,贵州道真仡佬族聚居地

    多彩妹摆贵州 News Watch 仡佬语:这个贵州高原土著风情你得知道点儿 A colorful day, a wonderful start! 多彩的一天,美好的开始!跟着耳朵去旅行,欢迎收听“多彩妹摆贵州”。今天多彩妹带大家走进贵州高原的土著,揭开仡佬族的神秘面纱,了解与众不同的仡佬族语言。 仡佬(gē lǎo)族,族源和古代僚(lǎo)人有关,民族语…

    知识百科 2023-04-25
  • 票房亦在热忱扩增,说明什么

    爱是檐上雪,是要化的——那是怎么积的雪,怎么化的,以及化了之后怎么办?坂元裕二的新作《花束般的恋爱》讲的就是这么个小故事。嗯,小,绵密,有如俳句,然而,仅豆瓣愿捉笔评论者即数十万人,票房亦在热忱扩增,说明什么?说明大家都是下过雪,化过雪的人。 婚姻存续的判断依据是情感,已成当下之不争,但也因此,对情感的讨论反倒回归——而偏偏情感,才是最为复杂的一种凝视。 第…

    2023-05-30
  • 如何使用CSOL外挂获得更高的游戏体验,cs是最早的射击游戏吗

    无论一款FPS有多么经典,只要前脚发布,外挂这个附带产品就会立刻冒出来,几乎任何的FPS类游戏都没能幸免,在与外挂抗争的十多年里,中国玩家心力交瘁,虽然外挂使用者知道他们会遭受重罚,但仍然乐此不彼继续着。 从最早的CS时代开就有外挂的,到之后的CF,逆战,CSOL等等,只要是FPS游戏就会有外挂的诞生。 CS外挂: AVA外挂: OW外挂: FPS类游戏普遍…

    2023-06-01 知识百科
  • 流量卡信号差怎么办(网上买的流量卡信号差怎么办)

    移动物联网安卡是由移动运营商提供,主要是用来支撑企业智能设备联网传输数据的功能,简单的来说移动物联网卡是智能终端设备用来上网的流量卡,物联网卡三大运营商均有也在各自的方面都占据一定的优势,下面小编就围绕移动物联网卡办理的有效途径为主题来说一下。 一、移动物联网卡的信号稳定性如何? 移动物联网卡信号的稳定性取决于当地信号基站,不过截止目前移动基站是三大运营商中…

    2023-05-24
  • 福州自助餐厅排行榜(福州自助餐排名)

    嘿,小可爱 这是团团为你找到的第410份超值福利 2020年即将结束 在这个有着各种聚餐需求的年底 福州这家神奇的和牛纸火锅自助 炸街来袭!!! 任吃任点的M7/M6和牛 丰富的海鲜拼盘/铁板料理/丸滑时蔬 更有主食小吃生啤饮料水果无限量供应 吃货们的天堂说的就是这呀 跟其他火锅店不同,锅娘娘用的是神奇纸火锅,这种折纸不仅耐高温,重要的是还能吸收杂质、油沫来…

    知识百科 2023-04-24
  • 敏感肌肤保养

    做好敏感肌人群,脸上时常都是“白里透红”,别误会,这个红可不是红润的红,而红血丝的红。尤其是在季节变换的时候,皮肤也变得不安分,更加容易过敏,就连在擦保养品的时候,都会有刺痛感。其实敏感肌肤多半是由后天因素造成的,只要用心护理是可以扭转的。 一:寻找敏感肌原因 皮肤敏感通常是由于神经系统对刺激反应过度而引起的不适和血管扩张的现象。最常见的异位性皮肤炎敏感,是…

    2023-05-24
  • 穿越我是开天第四清(穿越我是开天第四清 小说)

    大家好,我是小马哥,今天推荐玄幻小说排行榜:《诡秘之主》强势夺冠,《圣墟》遗憾落榜 第一本:《诡秘之主》 作者:爱潜水的乌贼 书评:主角作死玩转运仪式,结果穿越到维多利亚时代加魔法朋克的英国(鲁恩),当然,金手指也少不了,他掌握了某个神秘灰雾空间,能够把他人拉入这里,暂时是只能聊天,慢慢地,主角掌握了灰雾空间的更多能力,各种各样地在灰雾成员面前装逼,轻松有趣…

    2023-05-26 知识百科
  • 欧弟 makiyo ,maui什么时候发布

    有人发现,Makiyo于昨晚九点在医院顺利产下一名男婴,母子平安!说起她,也是娱乐圈的传奇了,本来是罗志祥欧弟的前女友,却因为打人打烂一手好牌,现在下嫁医美诊所的小股东,也算是找到一个依靠了。 第一个问题:还有多少人记得Makiyo? 说起来,Makiyo也是时代的眼泪了。想当年,Makiyo是当红美少女,也是一个混血儿,妈妈嫁给日本一个大佬,然后生下她。2…

    2023-06-07