从产品的角度分析：知乎核心功能——《问答》

2017-02-09 09:20:00

如今，知乎已经不只是一个产品，而是一个品牌。而问答，是知乎最核心的功能。

知乎：一个真实的网络问答社区，帮助你寻找答案，分享知识。

2011年起，知乎的百度指数一路上升。

知乎百度指数

Alxea排名显示，知乎已经成为中国的第三十二大网站。而排列31名和33名的，分别是新华网和cctv。

知乎Alxea排名

虽然知乎后来推出了读读日报/知乎日报/知乎live/知乎专栏等内容，但最核心的流程仍然是提问和回答。本文讨论问答的流程。红色框内的流程将在下文详细讨论。

知乎的问答流程

为了优化问题下的回答质量，我们能做什么？

在单个问题下，将优质答案放置于更加明显的位置。让点进问题的用户第一眼就能看见优质回答。而将质量一般的回答放置于底端较不明显的位置。并且将不友善的问题折叠
让优质答案得到更多的曝光。包括得到点赞，推荐到知乎日报，官方微博，发现页面等。
促进交流：让问题发表后可以得到有质量的评论。
激发归属感和认同感：这里有我喜欢的内容/用户，我希望能加入他们。
设置收藏夹，专栏等，将更多的优质内容沉淀下来。而不是随着时间流逝，消失不见。

下面将从产品的角度分析所有提及的优化点

根据答案的优劣程度排序，将游戏答案放置于最明显的位置怎么实现？

要根据答案的优劣程度排序答案，首先要定义什么是优质答案。

百度知道定义的“优质答案”来自于提问者的选择。只要提问者选择了一个自己心中的优秀答案，问题就会被盖棺定论。未被选择的答案可能会被折叠。如果后人搜索到百度知道的问题，很可能只能看到提问者选择的优秀答案。当然，提问者选择的答案主观性较强，未必是最被认可的答案。

而在知乎，回答好像是以问题为核心的开放性的“命题作文”。大家以问题为中心，各抒己见，更多的是百花争鸣的观点碰撞，而不是将某一个答案作为终极的标准。同时，随着知乎用户量的大幅增加，单个问题下可能会产生成千上万个回答。

当单个问题下答案较多时，根据回答质量来排序答案顺序将是极为关键的。如果点进问题后首先看到的是一些高质量回答，将会极大提高信噪比，提升用户感受。

这类（根据少量样本判断总体情况的问题），非常适合采用威尔逊算法。

旧算法可以简化为：得分=加权赞同数-加权反对数（用户在某个问题下的权重，是根据他过去在相关话题下的回答得到的赞同/反对/没有帮助票数计算的。高权重的投票会对排序有更大的影响。知乎并不计算用户的全局权重，而是分领域计算权重。

旧算法有如下瓶颈：

假如A答案有600加权赞同，400加权反对，而B答案有90加权赞同，10加权反对。此时A答案的赞同率是60%，而B答案的赞同率是90%。B答案赞同率高，被大家认同的概率较大。但是根据旧算法，A答案的得分高于B答案。具体来说，抖机灵却没有帮助的答案，可能会得到大量赞同和大量反对。但是由于加权赞同数大于加权反对数量，仍然会排列在干货满满但得赞较少的答案前面。
最先产生的答案如果质量不错而获得高票，那么新产生的质量较高的答案，由于票数较少会被排列在最下面，难以得到浏览，从而很难得到点赞而名列前茅。

那么直接计算赞同率合适吗？【得分=赞同数/（赞同数+反对数）】当投票量较大的时候，这样做是合理的；当投票量较小的时候，这样就不合适了。假如A问题质量较高，得到9900赞同100反对，赞同率99%，而B问题质量较差，只有1个赞同。将B答案放置在A答案之前显然是不合理的。

如果算法能够弥补投票量较小时候得到的赞同率不准确这一缺点就好了。 1927年，美国数学家 Edwin Bidwell Wilson提出了一个修正公式，被称为[“威尔逊区间”](http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval# Wilson_score_interval)，很好地解决了小样本的准确性问题。（以下内容涉及一部分数理统计知识）

用户的答案有什么特点呢？

用户只有赞同和反对两个选项。（设赞同数=u，反对数=v，总票数n=u+v）
用户之间投票行为独立。
当投票量增加的时候，样本赞同率（u/n)逐渐趋近总体赞同率（n等于无穷大时候的u/n)。

很显然，用户的投票是二项分布。根据用户投票，可知样本赞同率和样本赞同率的置信区间。置信区间的宽窄，取决于样本的数量。计算置信区间的方法有很多，（大学教材中计算置信区间的方法是”正态区间法“，但是这种方法不适用于小样本的置信区间计算）。威尔逊算法能够很好的计算小样本情况下的准确度。

（具体来说，900赞同，100反对的A回答，赞同率90%，有95%的把握可以断定，赞同率在[89%,91%]之间。而9赞同，1反对的B回答，赞同率90%。有95%的把握可以断定，赞同率在[85%,95%]之间。B回答的赞同率下界85%低于A回答赞同率的下界89%，所以B回答应该放置在低于A回答的位置。）

知乎的算法步骤：

计算赞同率（总投票数可能较小，所以将实际赞同率看作样本赞同率，通过样本赞同率，估算可能的总体赞同率）
计算赞同率的置信区间下界，得到得分（计算公式如下图）
根据得分排序（只需要在有用户投票时候重新计算）

（如果在wiki查威尔逊区间，会发现下图公式。知乎算法采用的是威尔逊区间的下界）

新算法有什么影响呢？

（1）旧算法下，排名反应的是加权赞同数和加权反对数的差。而新算法下，排名反应的是经过修正的赞同比。也就是说，一些赞同数远大于反对数，但是赞同比较低的答案将会被放置在靠后的位置上。算法克制了争议性较强的问题。类似的情况包括：

抖机灵爆照但没有帮助，煽动性较强但没帮助，大v用户的低质量回答，攻击性回答（这些问题自带很多赞同和很多反对，赞同比较低）
争议性话题下的优质回答（话题天然争议性较强，明确表达自己观点的回答自带大量赞同和反对，从而被放置在不明显的位置。而较为中庸却没有输出任何实际内容的回答，却被放置在了明显位置。（对于百家争鸣类型的讨论，这样到底合适吗？）
某种程度上鼓励了“知乎政治正确”。一些符合知乎政治正确但是并不客观的回答被置顶，而真正客观理性的回答被放置在不明显的位置。（之前写快手分析报告的时候去知乎查资料，很希望看到一些客观的讨论，但发现倾向性非常强的答案放置在顶端，而较为客观又干货满满的回答被放置在底端）

（2）普通用户也许更愿意答题了。知乎的首页timeline来自用户关注的人。以前知乎大v出场自带500赞（当然可能也自带500反对）。而新算法按照赞同比排序。即使已经有了几千个回答，几个赞同仍然能让新的优质答案被放置在顶端。小透明也不怕被无视了。

（3）专业领域下大v的作用更明显了（新算法本就加强了用户投票对排名的影响，拥有专业领域下投票加权的大v的投票可能更为关键。很可能大v点一次反对，顶端的答案立马下沉，底端的答案瞬间置顶）

总而总之，新算法是有利有弊的，但更多应该是利大于弊。

其他采用威尔逊算法的网站还有：reddit，yelp，digg（我怀疑虎扑步行街评论，网易云音乐评论也是类似算法，但是没有证据……）

让优质答案得到更多的曝光。包括得到点赞，推荐到知乎日报，官方微博，发现页面等。

知乎首页的timeline是用户关注的人的动态。如果你关注了一个人，就会看见这个人所有的动态。这极大地增强了知乎的媒体属性，让话题得到快速的传播（之前的童瑶，血友病吧，阿里巴巴月饼）并且回答详情需点进原文查看，而不是新浪微博的转发。这极大地增强了答案的曝光率。

对于一部分优质内容的生产者来说，被推荐到知乎日报/官方微博等，是非常兴奋非常爽的事情。得到认可是很强大的激励。是马洛斯需求理论最顶端的一层。如果你认真输出过内容，比方写过公众号/知乎回答/帖子。比方认真更快手/美拍/B站，你就明白看见自己作品的点击量与回复数量上升的快感。对于很多知乎用户来说，这比金钱利益激励更重要。

而对于另一部分生产者来说，他们在知乎上花精力输出内容，营造个人品牌，可以产生更多利益。比方说引流到自己的公众号/pr宣传/求职招聘/软广告等。任何平台都有这样的行为。（微博营销号/微信订阅号广告/B站UP主/直播主播/快手小广告/今日头条号/论坛版商等等等等）这样的行为对于内容生产者和平台来说是双赢。而对于平台来说，要合理把控这样的行为，找到平台，内容生产者，用户的平衡点。

促进交流

更好的营造讨论的氛围，让回答发表后可以得到有质量的评论。

激发归属感和认同感

这里有我喜欢的内容/用户，我希望能加入他们

在知乎，一个问题可能对应N条回答。特别是热门话题，可能会看见几千条回答。你可能会在知乎看见针对热门事件的不同角度的分析。（阿里巴巴月饼、支付宝红包、血友病事件等）。

知乎首页呈现的信息是关注人的动态。这极大地加强了知乎的媒体属性，让新鲜热门的话题得到快速的传播。如果大v点赞或者回答某个问题，所有粉丝都能看见（比方说轮子哥观光团）。那么知乎和微博这样媒体属性极强的应用有什么区别呢？

微博的媒体属性极强，转发轻松便捷。信息可以飞速传播，瞬间得到成百上千次转发。但微博呈现出来的是单条内容。信息碎片化极强，信息多而无序。讨论仅限于某条单独的微博，而非整个事件。微博难以形成讨论和知识沉淀的氛围。信息会随着时间而迅速的沉淀。（如果你在微博搜索某关键词，会出现很多很多条信息，但是想要整理出较为完整的信息，想要看到不同种观点和看法，这是比较困难的。在传统bbs、微信公众号也是这样。即使是在bbs的精品区，想要找到对于同一个问题的不同看法的帖子也较为麻烦。而找到自己喜欢的微信公众号也并不容易，公众号也更像是孤岛。）

但是在知乎，搜索某个关键词，看到的是若干个相关问题：一个问题下有N个回答。可能只需要看一个问题下的回答，就能找到自己需要的信息。问题和回答更多偏重于分享思路，而非实现细节（举例：知乎上的问题是“怎样的健身计划是真正合理的？”其他平台上的问题可能是“我在做xx健身操，第三课第六届第十八个动作这样做对吗？”）问题的回答是开放性的，也没有时间限制。

新回答可能会源源不断的产生。问题被提出后，关注问题的人可以不断看到新产生的讨论和回答，从而完整的了解问题全貌。通过点赞和反对，回答将会被恰当的排序。

知乎的产品选型天生适合以问题为核心的讨论。而优质的内容，是对喜爱内容的用户的天然筛选。

有了内容，有了内容的传播机制（点赞，关注等）。自然能够产生内容与用户之间的联系，产生人和人之间的联系。