经典腾讯面试题:小白鼠试毒问题

这是一道非常经典的腾讯面试题,可能对于程序猿来说并不陌生,但是对于第一次看到这道题的同学来说,确实会比较烧脑。今天除了讲解这道题如何解,更多的是希望给大家引入信息论的概念,那么以后不管是遇到试毒药还是称球重这类问题,都是小case啦!

可能有人会说,我用100只小白鼠就可以知道毒药是哪瓶了,所以小白鼠是招你还是惹你了,非要搭上一整个家族来给你找毒药?其实这个问题答案很简单,我们只需要7只小白鼠就够了,而这个问题的解题关键就是数学编码中的二进制。

一、如何用7只小白鼠找毒药 — 二进制编码

Step1:我们对100个瓶子进行1~100号的编码,再转化为7位的二进制码(至于为什么是7位,看到后面你就懂了)。比如1号瓶子就转化为了“0000001”,10号瓶子就转化为了“0001010”:

Step2:找来7只小白鼠,分别对他们进行1~7的编号。对于编号是1的小白鼠,喂它所有二进制编码第1位(从左到右数)为1的瓶子;对于编号2的小白鼠,喂它所有二进制编码第2位(从左到右数)为1的瓶子;以此类推…

Step3:接下来就是看一天后哪几只老鼠挂了:如果某个编号的老鼠死了,那说明毒药瓶子的二进制编码在对应编号位置上的二进制值是1;反之如果某个编码的老鼠没有死,那说明毒药瓶子的二进制编码在对应编号位置上的二进制值是0。假如最后是2,3,5,7号老鼠挂了,那说明对应的毒药瓶子二进制编码是“0110101”,转化成十进制,即第53号瓶子是毒药。

二、为什么至少是7只小白鼠?— 信息熵

前面我们只说明了7只小白鼠是可以完成找毒药这件事情,但是我们并没有证明7只就是最优解,那要论证这个答案就要引入信息论中的“信息熵”这样一个概念。

首先,我们先来了解下“熵”:

在信息论中,熵的概念和热力学中的熵是类似的,如果大家还记得高中化学,里面有提到一个“混乱度”的概念,其实熵在热力学里指的就是系统的混乱度,大概应该还记得“任何化学变化或者化学反应都是往熵增加的这个方向进行”这句话吧。

热力学熵:系统的混乱程度

信息熵:信息的不确定性的度量

而在信息论中,熵指的是信息的不确定性,也就是说信息的不确定程度越大,那么对应的信息熵的也就越大,其实数学的本质就是消除信息中的这种不确定性。

对于抛硬币来说,每次要猜正反面只能靠瞎猜,正反面出现的概率都是1/2,对于这类事件来说其不确定性较大,信息熵也会相对较大;如果让你猜国足拿世界杯冠军的可能性,那这种小概率事件的不确定性就比较小了,信息熵相对来说就会很小。

在信息论中,常用的几个概念也可以给大家定义下,避免混淆:

1、信息熵:用来度量信息不确定性程度的大小,是一个绝对的值。(至于具体怎么计算度量,后面介绍)

2、信息:凡是在一种情况下能减少信息的不确定性的任何事物,都可以叫信息,它的反义词可以理解为是“废话”

3、信息量:是对信息的度量,表示某个具体事情发生后带来的信息的多少,是个相对值。事件发生的概率越低,当事件发生了以后带来的信息越大,说明信息量越大;反之越高概率事件的发生,其产生的信息量就越小。比如某明星出轨的消息被爆出来,而之前他在大众面前的人设是个极品好男人,那么这则消息的信息量就非常大了。

接下来,回到“信息熵”如何计算度量:

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。

所以香农给了我们一个这样的公式(划重点!):

P为X的概率质量函数(probability mass function),我们可以理解为事件xi 发生的概率。

b是对数所使用的底。当b = 2,熵的单位是bit。

我们用抛硬币来举例,“抛一次硬币是正面”这个随机变量X的信息熵为

也就是“抛一次硬币是正面”‍这个事件的信息熵是1 bit,我们也就只需要用1位二进制的数字即可以表示这个信息的大小(0或者1)

#开始解题# 计算小白鼠找毒药中的信息熵:

1、首先,”100瓶药水其中有1瓶有毒“这个随机变量X的信息熵为:

2、1只小白鼠喝水以后的要么活着,要么死去,一共有两种状态,所以”1只小白鼠喝完水以后的状态“这个随机变量Y的信息熵为:

3、n只小白鼠喝完水会有2^n种状态,即”n只小白鼠喝完水以后的状态”这个随机变量Z的信息熵为:

所以根据题目,要用到最少的老鼠来找到那瓶毒药,转化为信息熵就是要满足:

H(Z) >= H(X),即n >= 6.64

那么n的最小值是7,也就是说最少要7只老鼠可以找到毒药

其实,上面的熵计算如果你觉得复杂的话,也可以这么简化来理解:

1只小白鼠活着或者死了,可以代表两种状态,n只小白鼠就代表2^n种状态

而毒药存在1~100号瓶子中的某一瓶对应了100种情况

也就是我们需要找到最小的n满足:

2^n>= 100,即n>=7

三、挑战下高阶版的试毒问题

仔细审题,我们发现这次小白鼠6小时内就会挂掉,题目没有说具体是什么时候会挂,那我们可以理解为:喝了毒药最久6小时会挂,如果6个小时还没挂,说明这瓶水不是毒药。

1、首先,还是”100瓶药水其中有1瓶有毒“这个随机变量X的信息熵为:

2、而这次,小白鼠的状态有点不一样,他在喝完水1天内的状态可能是:

1)在第0分钟的时候喝了一滴水以后,第6小时死去

2)第6小时依然活着,喝了一滴水以后,第12小时死去

3)第12小时依然活着,喝了一滴水以后,第18小时死去

4)第18小时依然活着,喝了一滴水以后,第24小时死去

5)第6小时依然活着,喝了一滴水以后,在第24小时依然活着

可见一只小白鼠在喝了一整天水后,可能会出现的状态有5种,所以”1只小白鼠喝完水24h以后的状态“这个随机变量Y的信息熵为:

3、n只小白鼠喝了一整天水后就会有5^n种状态,即”n只小白鼠喝完水24h以后的状态”这个随机变量Z的信息熵为:

所以根据题目,要用到最少的老鼠来找到那瓶毒药,转化为信息熵就是要满足:

H(Z) >= H(X),即 2.3219n >= 6.64

那么n的最小值是3,也就是说最少要3只老鼠可以找到毒药

留个作业:那具体怎么利用这3只小白鼠找到毒药呢?

根据前面简化版本的二进制编码方式的思路,我们是不是可以利用小白鼠的5种状态构造一个5进制编码方式呢?

四、我是总结

其实小白鼠试毒这个问题,第一次遇到确实会比较难下手,对于做过的人来说,可能大部分人也仅仅停留在知道用二进制编码的方式解决,很少会有人去思考这背后的原理和逻辑的本质

如果把问题变得再复杂点,往往大部分人就会去试,7只小白鼠不行就8只小白鼠,反正只知道用编码的方式,这就是知其然而不知所以然。同样的,当我们仅仅掌握了许多理论知识,但是缺乏应用场景的实操以及面向各种情况的修正与优化,最终也将是纸上谈兵。

所以,这也是我个人比较推崇的一种思考方式:当我们遇到一个好玩的问题以及巧妙的解决方法的时候,我们可以继续去深挖背后的原理和逻辑的本质,再反推更多的应用场景,做到举一反三,这样才能不断的锻炼自己思维能力的广度和深度。

 

本文作者 @WINTER

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部