信息是用来消除随机不确定性的东西(信息是用来消除随机不确定性的东西举例)

熵、信息量、信息熵、交叉熵-个人小结

一、理解熵

1、首先看到这个词会产疑问,熵是什么?谁定义的?用来干什么的?为什么机器学习会用到熵?有了这些疑问后慢慢的开始探索~复制代码

熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。 克劳修斯(T.Clausius) 于1854年提出熵(entropie)的概念, 我国物理学家胡刚复教授于1923年根据热温商之意首次把entropie译为“熵”。A.Einstein曾把熵理论在科学中的地位概述为“熵理论对于整个科学来说是第一法则”。

为了理解熵,必须讲一点物理学。

19世纪,物理学家开始认识到,世界的动力是能量,并且提出”能量守恒定律”,即能量的总和是不变的。但是,有一个现象让他们很困惑。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,单摆在两侧的最高点,势能最大,动能为零;在中间的低点,动能最大,势能为零,能量始终守恒。)物理学家发现,能量无法百分百地转换。比如,蒸汽机使用的是热能,将其转换为推动机器的机械能。这个过程中,总是有一些热能损耗掉,无法完全转变为机械能。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,能量 E 的转换,总是会导致能量损耗 ?E。)

一开始,物理学家以为是技术水平不高导致的,但后来发现,技术再进步,也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。

后来,这个概念被总结成了”热力学第二定律”:能量转换总是会产生熵,如果是封闭系统,所有能量最终都会变成熵。

熵既然是能量,为什么无法利用?它又是怎么产生的?为什么所有能量最后都会变成熵?复制代码

物理学家有很多种解释,有一种我觉得最容易懂:能量转换的时候,大部分能量会转换成预先设定的状态,比如热能变成机械能、电能变成光能。但是,就像细胞突变那样,还有一部分能量会生成新的状态。这部分能量就是熵,由于状态不同,所以很难利用,除非外部注入新的能量,专门处理熵。

熵、信息量、信息熵、交叉熵-个人小结

(上图,能量转换过程中,创造出许多新状态。)

总之,能量转换会创造出新的状态,熵就是进入这些状态的能量。

现在请大家思考:状态多意味着什么?复制代码

状态多,就是可能性多,表示比较混乱;状态少,就是可能性少,相对来说就比较有秩序。因此,上面结论的另一种表达是:能量转换会让系统的混乱度增加,熵就是系统的混乱度。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,熵低则混乱度低,熵高则混乱度高。)

转换的能量越大,创造出来的新状态就会越多,因此高能量系统不如低能量系统稳定,因为前者的熵较大。而且,凡是运动的系统都会有能量转换,热力学第二定律就是在说,所有封闭系统最终都会趋向混乱度最大的状态,除非外部注入能量。

熵、信息量、信息熵、交叉熵-个人小结

(上图中,冰块是分子的有序排列,吸收能量后,变成液体水,分子排列变得无序。)熵让我理解了一件事,如果不施加外力影响,事物永远向着更混乱的状态发展。比如,房间如果没人打扫,只会越来越乱,不可能越来越干净。复制代码
熵、信息量、信息熵、交叉熵-个人小结

(上图中,如果不花费能量打扫,房间总是越来越乱。)

熵的解释是混乱度的度量单位,一个系统的混乱度越高它的熵就越高复制代码

二、理解信息量

我们知道了熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。

这里有又产生了疑问,熵怎么就合信息论产生了关系?复制代码

信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。

1、信息量和事件发生的概率相关,事件发生的概率越低,传递的信息量越大;2、信息量应当是非负的,必然发生的事件的信息量为零;3、两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;复制代码

用数学表达如下:

熵、信息量、信息熵、交叉熵-个人小结

三、理解信息熵

但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中熵的概念),来解决信息的度量问题。

好了,这里就产生了信息熵!那么怎么解释呢?那信息熵如何计算呢?复制代码

举个吴军在《数学之美》中一样的例子,假设世界杯决赛圈32强已经产生,那么随机变量“2018年俄罗斯世界杯足球赛32强中,谁是世界杯冠军?”的信息量是多少呢?

根据香农(Shannon)给出的信息熵公式,对于任意一个随机变量X,它的信息熵定义如下,单位为比特(bit):

熵、信息量、信息熵、交叉熵-个人小结

把最前面的负号放到最后,便成了:

熵、信息量、信息熵、交叉熵-个人小结

上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思。复制代码

那么上述随机变量(谁获得冠军)的信息量是:

熵、信息量、信息熵、交叉熵-个人小结

其中,p1,p2,…,p32分别是这32强球队夺冠的概率。 吴军的书中给出了几个结论:一是32强球队夺冠概率相同时,H=5;二是夺冠概率不同时,H<5;三是H不可能大于5。 对于第一个结论:结果是很显然的,夺冠概率相同,即每个球队夺冠概率都是1/32,所以H=-((1/32)·log(1/32)+(1/32)·log(1/32)+…+(1/32)·log(1/32))=-log(1/32)=log(32)=5(bit)

对于第二个结论和第三个结论:使用拉格朗日乘子法进行证明,详见《求约束条件下极值的拉格朗日乘子法》。这实际上是说系统中各种随机性的概率越均等,信息熵越大,反之越小。

从香农给出的数学公式上可以看出,信息熵其实是一个随机变量信息量的数学期望。复制代码

日常生活中,我们经常说某人说话言简意赅,信息量却很大,某些人口若悬河,但是废话连篇,没啥信息量;这个电视剧情节太拖沓,一集都快演完了也没演啥内容。这里的信息量/内容与信息熵有什么关系呢?

很多人把这些东西与信息熵混为一谈,得出“说话信息量越大,信息熵越高”“语言越言简意赅,信息熵越高;语言越冗余堆积,信息熵越低。”等等结论。

不是说这些说法错了,而是容易引起误导。个人认为,这里日常语境的信息量与其说是信息量,不如说是信息质量和信息传递效率问题,有没有干货,有没有观点,有没有思想,并且在一定的文字长度/播放时间内,能不能有效的表达出来,这个其实是人的能力问题,和信息熵没啥关系好不!

四、联合熵、条件熵、交叉熵

联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。复制代码

且有此式子成立:H(Y|X) =H(X,Y) – H(X),整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导:

熵、信息量、信息熵、交叉熵-个人小结

熵、信息量、信息熵、交叉熵-个人小结

简单解释下上面的推导过程。整个式子共6行,其中第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和;第三行推到第四行的依据是把公因子logp(x)乘进去,然后把x,y写在一起;第四行推到第五行的依据是:因为两个sigma都有p(x,y),故提取公因子p(x,y)放到外边,然后把里边的-(logp(x,y)-logp(x))写成- log(p(x,y)/p(x)) ;第五行推到第六行的依据是:条件概率的定义p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) = p(y|x)。复制代码

相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:复制代码
熵、信息量、信息熵、交叉熵-个人小结

在一定程度上,相对熵可以度量两个随机变量的“距离”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大于等于0的。附录:联合熵、条件熵、交叉熵、互信息

#交叉熵例子

熵、信息量、信息熵、交叉熵-个人小结

这是公式定义,x、y都是表示概率分布(注:也有很多文章喜欢用p、q来表示),这个东西能干嘛呢?假设x是正确的概率分布,而y是我们预测出来的概率分布,这个公式算出来的结果,表示y与正确答案x之间的错误程度(即:y错得有多离谱),结果值越小,表示y越准确,与x越接近。

比如:

x的概率分布为:{1/4 ,1/4,1/4,1/4},现在我们通过机器学习,预测出来二组值:

y1的概率分布为 {1/4 , 1/2 , 1/8 , 1/8}

y2的概率分布为 {1/4 , 1/4 , 1/8 , 3/8}

从直觉上看,y2分布中,前2项都100%预测对了,而y1只有第1项100%对,所以y2感觉更准确,看看公式算下来,是不是符合直觉:

熵、信息量、信息熵、交叉熵-个人小结

熵、信息量、信息熵、交叉熵-个人小结

对比结果,H(x,y1)算出来的值为9/4,而H(x,y2)的值略小于9/4,根据刚才的解释,交叉熵越小,表示这二个分布越接近,所以机器学习中,经常拿交叉熵来做为损失函数(loss function)。参考文献:K码农-http://kmanong.top/kmn/qxw/form/home?top_cate=28

本文来自投稿,不代表展天博客立场,如若转载,请注明出处:https://www.me900.com/267593.html

(0)

相关推荐

  • 澳门航空怎么样(珠海机场经营不佳的原因)

    特区政府正就航空新制度进行研究,您认为澳门民航发展定位应如何?澳门航空业的优势在哪? 珠海航空有限公司王长江董事长:目前,珠澳地区两地两场,受总规限制,无论是澳门机场,还是珠海机场都难以达到世界级机场的规模,澳门机场定位打造复合型国际干线机场,国际航线主要覆盖东南亚等地区,珠海机场定位国内市场,刚好形成互补。澳珠两地市场具有同城化、一体化、国际化和协同化特点…

    2023-06-11 知识百科
  • 炒原油黄金是骗局吗能赚钱吗(原油投资骗局)

    现代科技和工业的飞速发展都离不开一种能源——石油,它也被称为“液体黄金”。世界上不少国家因为石油储备量丰富而一夜暴富,可以说,相对于黄金,它的利用价值更高,这也就意味着它更加珍贵。人们秉承着“生于忧患死于安乐”的心态,对世界石油的储量进行了预估,多数人认为它是一种不可再生能源,因此我们要合理的调配使用。 但是同时也存在着另一种看法,与前者完全不同的是,这一看…

    2021-12-02 知识百科
  • 世界上最好的杀毒软件,最佳杀毒软件:保护你的电脑安全

    01. 360(全家桶)国产杀毒软件中的大哥大 很多人一定在疑惑,为什么360后面要加一个(全家桶)呢?相信用过的人都知道,360系列软件在你下载完任意一款之后,后台程序会自动给你下载360全家桶,从此你的电脑就会被360所统治。当然这个问题可以用诸多方式进行制止,但是对于大多数对电脑没有特别深入研究的人是很难做到的。 不过首先,大家要明白,360是通过什么…

    2023-05-21
  • 刘波是谁是什么梗?刘波之妻是什么梗

    [海峡网] 最近在抖音刘波是谁火了,很多网友们不知道这话是怎么红起来的,那么抖音如果你问我刘波是谁是什么梗?有什么含义?下面就和娱乐塘主一起来了解一下吧。 抖音如果你问我刘波是谁含义介绍 这句话的完整版是“你问我什么是艺术我不懂,但是你问我刘波是谁,对不起,刘波就是艺术”。 那么这位刘波是谁呢?网上传闻说是我们很喜欢的药水哥本哥了。最近刚刚驻扎到抖音上! 药…

    2023-02-14
  • 有线电视多少钱一年(东方有线电视一年多少钱)

    市民裴先生最近买了房子,需要新装宽带和电视,他纠结的是,到底要不要申请开通东方有线的电视,如果需求是上网和看互联网电视,现在有啥好的选择吗? 时报回应 据了解,现在东方有线普通直播电视的月租费是23元,如果增加28个高清直播频道,每月再加10元,其它点播类的高清节目包,价格另算。或者也可以选择高清互动家庭频道,30M宽带 点播节目,一年是1050元。但从实际…

    2023-04-10
  • 手机短信笑话手机短信

    置 顶 ” 墨 黑 纸 白 ” ,纸 白 君 每 日 陪 你 聊 聊 社 会 《 短信 》 老爸刚才打来电话着急地问:“你没事吧?” 我说:“挺好啊!怎么了?” 他说:“我收到一条短信说你被绑架了,要我3天之内打给他20万,要不然就撕票!” 我忙安慰老爸:“您别着急,我挺好的,那是个骗子!您什么时候收到的短信?” 他迟疑了一下说:“上…

    2023-06-12 知识百科
  • 民国三年袁大头银元值多少钱,袁大头市场价值

    银元大概是在清末民初的时候才开始慢慢有的,在民国时期成为了当时的主要流通货币,对于银元比较熟悉的收藏者应该都知道,在民国时期银元的种类和版本都非常繁多,然而根据当时的情况分析主要为几个大的类别。我们所熟知的袁大头无论是在当时还是现在都是具有一定影响力的,那么今天我们就来了解一下,袁大头银元版本当中的民国三年,在目前的市场中价值多少呢? 2: 袁世凯像民国三年…

    2023-02-11 知识百科
  • 小踏板摩托车排行榜前十名(国产踏板摩托车排行榜前十名)

    你知道口碑最好的150踏板车都有谁吗?下面就给大家来一一盘点2022年口碑十佳150踏板车,看看你喜欢的车型上榜没有? 第十光阳Racing X 150 这款车最大的亮点就是在设计上沿用了平踏板的设计,在国内150踏板市场当中,这款车的表现也不俗,外观方面采用了大面积的棱角设计,再加上犀利的前脸LED大灯,整车力量感十足,并且辨识度也很高。还凭借着不错的驾驶…

    2023-04-06
  • 丽台专业显卡,买 MSI 丽台专业显卡的最佳选择

    废话不多说,给你整 AMD 和 英特尔两套方案,看哪个顺眼就选哪个吧!相对来说,我更推荐 AMD 方案,毕竟英特尔之前在涉疆问题上,逼叨逼叨地横跳过,不推荐。 AMD 5600X 主机方案:AMD 5600X 处理器;铭瑄(MAXSUN)MS-终结者 B550M 游戏主板;光威(Gloway)32GB(16Gx2)套装 DDR4 3200MHZ;西部数据(W…

    2023-05-20
  • 申qq号账号(腾讯qq最早的一批qq号)

    腾讯找到了QQ首位用户! 2月10日,是QQ诞生24周年。 据腾讯QQ官微,腾讯表示找到了QQ首位注册用户Robert,QQ号为10201。 据悉,QQ对外开放申请注册是从10201号开始的。 而QQ第二位注册用户世伟,因参加中国惠多网全国第二次站长大会,与腾讯创始团队成员同住一间宿舍,顺势得到了10202号QQ。 据悉,当年这名用户怕腾讯维持不下去,特地买…

    2023-06-13 知识百科
  • 网络营销做什么(网络营销是指什么)

    网络营销(On-line Marketing 或E-Marketing)是以国际互联网为基础,利用数字化的信息和网络媒体的交互性来辅助营销且标实现的—种新型的市场营销方式。 网络营销有什么特点? 1.跨时空性   营销的最终目的是占有市场份额。由于互联网具有跨越时间和空间来进行信息交换的特点,基于互联网的网络营销也就使得脱离时空限制达成交易成为可能…

    2022-01-27 知识百科
  • 手机卡没流量又想用流量怎么办(手机卡没有流量怎么办)

     随着网络技术的发展,现代人的出行已经越来越离不开网络,浏览网页打发时间、移动支付、场所扫码等等这些都离不开网络。但在外面有时找不到公共WIFI,手机流量少、信号差就成了的问题。你可能会想要是能够有移动随行的WIFI信号该多好,我走到哪它就跟到哪,这样就不用为网络信号烦恼了。而随身WIFI便是针对这种需求的产物。   作为生产随身WIFI的专业户,飞猫智联在…

    2023-05-25 知识百科