吴军信息论40讲

本资源为吴军信息论40讲,格式为[音频课程/310 MB]百度云资源下载,包含完整版的音频和PDF文稿。

吴军信息论40讲[音频课程/310 MB]百度云资源下载

吴军,约翰霍普金斯大学计算机科学博士、计算机科学家、硅谷投资人、著名自然语言处理和搜索专家。畅销书《浪潮之巅》《数学之美》《文明之光》《大学之路》《硅谷之谜》《智能时代》《见识》《态度》作者。

课程中既包括信息论最基础、最重要的内容,比如香农的两个著名的定律:与信息产生相关的第一定律和与信息传输相关的第二定律,也包括对今天很多热门的技术的剖析,比如IoT和5G等。

信息论很重要,但全世界都没有通俗的教材,想学懂不容易。这门课也许是你仅有的、一探究竟的机会。因为主讲人吴军老师的优势就是把复杂问题讲明白。

资源目录

发刊词:信息时代每个人的必修课

面对不确定性世界的方法论,利用信息消除不确定性(香农)

信息时代的最大特征是不确定性

01:影响世界的三比特信息

对一个未知系统所作出的估计和真实情况的偏离,构成信息损失,偏离越多损失越大

信息量和不确定性有关,大家都知道的事,就没有信息量

信息作用的大小和信息量有关

02:解开世界之谜的三篇诺贝尔论文

信息是我们世界固有的属性

世界上最关键的信息(知识)其实是非常简洁的,信息量与信息长度无关

03:大数据思维的科学基础

发现未知规律:互信息理论

动态调整做事策略:足够多的数据可以帮助我们动态匹配最佳结果

精准服务:从重研究方法到重数据收集的转变

解决人工智能问题:利用数据(信息)消除不确定性

04:信息度量,世界上有稳赚不赔的生意吗?

信息量的大小不在于长短,而在于开创多少新知

复杂交易背后通常都用到了信息的可度量性

充满可能性的系统(信息源),当中的不确定性(信息熵),“信息”是用来消除这些不确定性的,需要的“信息量”就等于黑盒子里的“信息熵”

信息可以衡量,但不是用重要性,而是用信息量,单位是“比特”(香农)

05:信息编码:数字和文字是如何诞生的?

只要编码设计得足够巧妙,就可以找到最短编码(香农第一定律)

由于它们是等价的,因此一个编码系统解决不了的问题,换一个系统同样解决不了

各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在数学上是等价的

数字和文字,都是人类用来消除信息不确定性的编码手段

06:有效编码:10个手指能表示多少个数字?

如何组合信息,保证它高效传递,还不违背第一条原则,需要我们主动思考

有效编码,就是让理论最佳值在应用中落地

采用大量用户反馈信息决定产品的设计和技术方案

信息编码的第二个基本原则——有效性

清晰表达的五个原则——明确、诚实、勇气、责任和同理心

信息编码的第一个基本原则——易辨识

07:最短编码:如何利用哈夫曼编码原理投资?

风险投资的霍夫曼编码应用——分几部分逐步投入,每一次投资呈指数减少,而金额倍增,实现大部分资金集中到最优投资项目上

一条信息编码的长度和出现概率的对数成正比

针对信息组合的信息压缩,会产生更高压缩比

哈夫曼编码原理——MIT教授哈夫曼发明

08:矢量化:象形文字和拼音文字是如何演化的?

象形文字和拼音文字的形成和进化代表了两种不同的信息编码方式

让问题变得简单,但会丢失信息,而平衡便利性和信息的完整性,就成为了艺术

信息的矢量化原理

09:冗余度:《史记》和《圣经》哪个信息量大?

善用“废话”侧面诠释想法,利用冗余便于理解

观点一致性,不要补充可能与主要思想相矛盾或无关的冗余信息

大脑存储信息要压缩,明确主线,过滤细节

信息冗余对沟通的应用

冗余度的问题:信息中混有噪音,过多没用的信息可能导致错误

冗余度的好处——易理解、消歧义、容错性

信息的冗余度——对信息“密集”和“稀疏”程度的描述:(信息的编码长度-一条信息的信息量)/信息的编码长度

10:等价性:信息是如何压缩的?

善用等价信息,是这个时代必须掌握的工作技巧

信息压缩的基本原理:找到周期性信号的等价信息、对等价信息进行压缩、如果要使用原有信号,通过压缩后的等价信息复原原有信号

11:信息增量:信息压缩中的保守主义原则

保守主义(总体原则不变,不断作微调)是由世界渐变的特征决定的

善用信息前后的相关性,对后面的信息做增量编码,达到大幅度压缩信息冗余的目的

12:压缩比和失真率:如何在信息取舍之间作平衡?

没有标准答案和最佳答案,只是针对某个场景好的答案,一切都是妥协的结果

失真率与压缩比直接相关,压缩到哪种程度,通常看具体应用场景

信息的压缩分为有损和无损两种,有损压缩在复原后会出现一定程度的失真

13:信息正交性:在信息很多的情况下如何作决策?

信息处理的两个方法——一是不断叠加,二是不断删除

不同的信息要来自不同的信息源

避免反复使用相互嵌套或者相互包含的信息

看问题要刻意改变一下观察的角度,从不同角度看

如何找到正交的信息

在使用信息上,要选用彼此垂直的正交信息

14:互信息:相关不是因果,那相关是什么?

高手用互信息工具进行预判,而言感觉

世界上大部分相关的信息未必有因果关系,它们之间只是一种动态的相互关联的关系

互信息:衡量两条信息之间相关性的新工具,寻找和利用强相关性

15:条件熵和信息增益:你提供的信息到底值多少钱?

第一个发表意见,以及能够发表与众不同的意见,对提高自己的影响力至关重要

信息增益:定量衡量每一条信息价值的尺度

条件熵:概率分布的信息熵——大众已知的信息对投资和其他决策其实都没有意义

16:置信度:马斯克犯了什么数学错误?

世界上有很多道理其实都很难验证,大到历史事件,由于很难多次重复,总结经验其实是非常难的

提高置信度的办法通常是增加所统计的样本数量

置信度:自己有多么确定这件事也量化地衡量

17:交叉熵:如何避免制订出与事实相反的计划?

猜测和真实情况完全一致,将不损失任何东西,但只是不一致就会或多或少有损失

猜测和真实情况相差越大,损失越大

自大的人非常容易遗漏本应考虑的事情

过分防范各种情况,患得患失,也将存在损失

在信息论中,任何硬性的决定(全力以赴对赌)都要损失信息

库尔贝勒交叉熵:信息误判时的损失

18:复盘:如何识别误导人的错误信息?

以耸人听闻的信息刻意引起你注意——放在更大的时空来考量、看信息的一致性、抽取信息要看失真率

没有出处——信息溯源

缺乏上下文——对信息背景限定条件

误导人的信息有哪些特征及应对?

19:信噪比:历史有真相吗?

历史的细节是不准确的(而且无法准确),但历史的轮廓是可以看清楚的

信号和噪音的相伴存在的——现实中我们不能希望找到全是优点没有缺点的人

信号与噪音的能量叠加,具体到每一个信号点,其置信度是受到干扰的

理解信号和噪音的关系:

信噪比:信号和噪音的比例,决定了我们是否能够有效地获取信息

20:去除噪音:如何获得更多更准确的信息?

利用信息的冗余和比对过滤噪音——最可贵的意见不是所谓客观的而是真正反映自已想法的主观意见

换一个角度看问题——将有噪音的信息分解到不同的维度过滤噪音

如何去除噪音

能够找到噪音来源VS不清楚来源

有规律噪音VS随机噪音、固定频率噪音VS白噪音

噪音分类

21:信道:信息通道的容量有边界吗?

信息的传播是有成本的,其成本就源于信道容量

某一范围内的无线电波,其所能承载的信息也是有限的

量化度量是重要的

信道与生活的关系:

信道容量:当信息传输所用的信道一旦固定,能承载的信息量是有限的,其决定了有效的传输率

22:香农第二定律(一)为什么你的网页总是打不开

在边界内做事情的重要性,如果先天信道容量不足,唯一的方法就是降低速度

香农第二定律:如果谁要试图超越信道容量传输信息,不论怎样编码,出错的概率都是100%(R≤C)

23:香农第二定律(二)到底要不要扁平化管理?

带宽是由通信双方的互信息决定的,这在人际交流中就是信任

拓展带宽是今天我们所有人都需要做的事情

扁平化管理是香农第二定律的应用,保证一定带宽内的沟通效率或者利用科技提高带宽

职级和部门之间的壁垒将人与人通信的带宽变得非常窄,信息传输率非常低

24:纠错码:对待错误的正确态度是什么?

通过增加信息冗余,增强检验甚至纠正错误的能力

考虑到错误的必然存在,通过巧妙的信道编码保证有了错误能够自动纠错

在解决任何问题前,都要考虑世界的不完美和不确定性

不确定性是世界自然的属性,不要高估自己的仔细,以及自己通过努力做到最仔细后,能够达到的效果

25:信息加密:韦小宝说谎的秘诀

如果想让人知道你的观点,就要明确表述

无法减少你传递信息的不确定性

密码的精髓在于,对方拿到你的密文,得不到额外的信息

26:极简通信史:从1G到5G通信,到底经历了什么?

单位能量的信息传输率越来越高

网络不断融合

设备的辐射越来越小

每一代都会有新的主导型公司:1G摩托罗拉;2G诺基亚;3G、4G苹果、谷歌和高通;5G是华为

移动通信的发展要点

一是对信息的发送和接收的描述

二是对信息编码的方式

通信标准的核心:

27:通信趋势:5G和IOT的商机在哪里?

判断的标准是:能否以更少的能量传输来处理更多的信息

每一代互联网都有掌握产业链的龙头公司,未来是由掌握核心芯片、操作系统和通信标准公司占据龙头

第三代互联网是万物互联,会在联网设备、带宽及市场规模上有指数级增长

28:复盘:世界不完美,我们该怎么办?

对世界的态度是,承认噪音的存在,争取在有噪音的情况下,准确传递信息

29:交叉验证:电信诈骗为什么能成功?

跨界的意义 不在于同时做很多不同的事情,而是从另一个领域回望所在领域的问题

交叉验证中,垂直正交信息的组合最有效,因为共同作用能最大程度降低信息熵

大数据的重点不在于数据的体量大,而是数据的多维度

交叉验证:生活中绝大部分时候,一个维度的信息很难消除所有不确定性,解决这个问题的最好办法,不是把那个维度的信息搞得更准确,而是用其他维度的信息进行交叉验证

30:等价性:如何从等价信息里找答案?

等价信息和相关信息不同,后者的要求宽松得多,但是可靠性也差很多

很多时候 无法直接获取某种信息,可使用等价信息解决问题的方法

31:大数据(一):从四个特征把握大数据的本质

有数据、有技术、有应用场景(腾讯、阿里巴巴、今日头条等)

有数据、无技术(移动通讯运营商、银行、零售业等)—需要专业人士

缺乏数据、有技术(数据公司等)—可为第二类企业解决实际问题

大数据时代受益的三类企业:

消除数据间矛盾,亦需要领域知识

在特定应用场景还需要具有实时性

大数据的特征:数据量大、多维度(最好正交)、数据完备性(不是抽样)

32:大数据(二):大数据思维的四个层次

第一层:从大量、混乱的数据中总结出相关性

第二层:不事先作假定,从大数据出发得到结论,再分析原因

第三层:利用大数据准确把控宏观规律的同时,精确到每一个细节

第四层:通过几个维度的强相关性,替代过去的因果关系

大数据思维是一种全新的思维方式和做事情的方法

33:互联网广告:为什么GOOGLE搜索的广告效果好?

使用正交、可叠加信息的作用(如FACKBOOK)

用信息熵来定量衡量个性化服务,但通常喜好上的差异程度比我们通常想的要小很多

GOOGLE的广告系统利用的是用户主动输入的信息,它最为有效

34:幸存者偏差:如何避免被已知信息误导?

通识教育的重要性:避免思维习惯带来的盲点

幸存者偏差:要不断淘汰不好的项目,在生活中要止损,将利益最大化

35:奥卡姆剃刀法则:最简单的往往是最有效的

奥卡姆剃刀法则的应用——做减法、不要制造伪需求、可提高判断力(找到基函数)

世界本身的规律在形式上并不复杂

过于复杂的描述常常是骗局

奥卡姆剃刀法则有实践验证

奥卡姆剃刀法则有科学依据——找到这个领域支撑点的关键信息

简洁的往往是正确的,越是复杂,越容易犯错

36:最大熵原理:确定的答案找到之前,我们该做什么?

光滑——不会遇到黑天鹅事件,方方面面都考虑得很周全

不要把鸡蛋放在一个篮子里

一个“光滑”的模型,可以让预测的风险最小

最大熵原理:当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要作任何主观假设

37:麦克斯韦的妖:为什么要保持系统的开放性?

对于个人而言,引入负熵的方法是:行万里路、读万卷书

一种是直接与外界进行人的交换(能量熵)

另一种是接受外面新的思想(信息熵)

任何一个封闭系统都是越变越无序,要想变得有序,就要引入“负熵”,即能量和信息

38:复盘:如何把信息论学以致用?

需要知道如何把自己领域中的问题,描述成一个信息处理的问题

39:控制论:要不要成为变色龙?

要做变色龙(不断应对环境变化作出调整)

不要做恐龙(架子大,很唬人,但适应性差)

控制论三要点:突破牛顿绝对时间观、系统与外界环境刺激有相互影响、通过反馈回路实现自我调节

40:系统论:如何让整体效用大于部分之和?

发展:空间上作整体考虑,时间要还要考虑影响力,最终决策

科学:分析问题要遵循科学方法,而非简单的经验,方可获得可重复成功

综合:参考IPHONE的方法论

整体:任何局部改进,需要放回到整体中去考察

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注