用数据挖一挖豆瓣 5.3 的《长城》,水军力量到底有多强大

题图 -- 《长城》电影海报

文·blogchong

号称今年最后一部华语大片-- 《长城》 于12月16日正式上映,截止12月18号上午10时,“数据虫巢”爬取豆瓣数据,豆瓣5.3分,累计评价人数47225(下面截图是晚上截的,人数已经飙到了5.7W,好像分数也涨了0.1,先不管,我们继续通过数据来深挖这老谋子史上第二烂的大片)。

《长城》豆瓣截图

“数据虫巢”爬取了截止12月18号上午10时,电影《长城》的所有相关数据,包括评分,评分分布,所有短评(去重后累计 20191条 ),以及对应短评的评分,所有长影评(去重后累计 2458条 ),以及对应长影评的相关属性。

并且,我们对所有影评中的情感特征(褒、贬、哀、怒、惧、惊)进行了提取,且对影评中涉及的相关演员,当然还有张艺谋大导演的姓名特征进行了提取。

“数据虫巢”意图通过数据的角度:

挖一挖豆瓣影评中水军的力量到底有多强大?

挖一挖吃瓜群众的槽点在哪里?

挖一挖吃瓜群众最吐槽的主演是哪位(景甜姑凉,还有TF小男孩是不是已经预感到了不妙)?

挖一挖吃瓜群众最不care的主演是哪个?

我们先来挖一挖影评中到底有多少的水军在“摸鱼”,或许这5.3依然掺水不少?

我们先来看三组占比图,分别为豆瓣整体评分占比、豆瓣短评评分占比、豆瓣长影评评分占比。

三种评分计算对比

从整体评分(所有进行打分的记录) ,到短评(字少的评价),到号称经典的长评(长文影评),5星评分占比一路飙高,通过各个评分计算的整体评分,从5.3到6.0,再到6.7(后两个是通过计算得出),一路飙高。

趋势变化异常之诡异,说好的这个电影很差的呢?!

怎么看影评都好评如潮了都,写长评的竟然有30.7%的占比了,莫非给一星的吃瓜群众都懒得去吐槽了?

不着急,我们再来看一组数据,这回,我们结合影评后面的顶踩(即有用、没用的按钮),来进一步深挖(要知道,影评可以作假,但是吃瓜群众这么多,随手的顶踩量总难作假吧)。

结合点赞之后的实际评分计算

这是一个有意思的分析数据,参与长影评点赞互动的人数为27347,大概是撰写长评人数的10倍多点,参与短评点赞互动的人数是89758,大概是撰写短评人数20191的4.5倍。

从长影评的反馈中,计算的评分应该是7.3分,即使单纯看长评数据计算的评分也有6.7,相对于整体的5.3,俨然不是一个级别的了。

从这里看,是进行长评的人中混杂了大量的水军?还是说吐槽的人都懒得写长评进行吐槽?

再来看看短评数据,单纯的从评论数据计算出来的5.9,再加以点赞的人数进行评分修正,最终获得的评分是5.1,低于整体评分的5.3,比重从22.58%下降到12.19%。

再对比长评的计算的评分情况,是长评区的水太深,还是说短评中吃瓜群众参与的太多,暴露了最终的分数质量本质,5.1?

由于长评和短评的意见已经难以统一了,所以我们把长评和短评的特征拆开来对比分析一下。

正面特征提取

左侧为长评的正面评价特征,右侧为短评的正面的评价特征(只取前100的特征词 )。

我们可以看出短评的正面评价总体偏口语化的正面评价居多,如数量最多的 “不错”、“喜欢”、“值得” 等词,而长评中的正面词则偏向于类价值观的正面评价较多,诸如 “英雄”、“震撼”、“相信”、“信任”、“拯救” 等。

我们再来看一下吃瓜群众的吐槽情况,同样把长评和短评分开进行分析。

负面特征提取

同样,左侧为长评的吐槽特征,右侧为短评的吐槽特征(只取前100的特征词)。

长评中整体槽点也不少,但是整体相对偏委婉、理智,诸如 “失望”、“不好”、“不行”、“不够”、“强行” 等。

但短评中槽点整体偏情绪化,除了“不好”、“失望”等,诸如 “恶心”、“弱智”、“傻逼”、“莫名其妙”、“无聊” 等情绪化明显的特征词占据了不少的比重,其频度也不低。

对比上面两组分析特征,其实是可以看出豆瓣长评与短评的两类评论的特点的,不管是正面评价还是负面评价,长评中整体更趋向于理智的看待影片,而短评中更趋于情绪化的观点表达。

整体来说,长评中正面评价偏多,更多的基于《长城》的价值观进行评析,并且给予正面反馈,而短评中则负面评论特征占据略多,并且整体表现的比较剧烈,更情绪化,甚至在特征的长尾分布中,各种具有中国特色的“国骂”都出现了,精彩绝伦。

我们再来看看吃瓜群众们关注的那些大主演们,在影评中的出境率如何。

涉及人物影评出镜率

排在状元位以及榜眼位的老谋子与景甜姑凉基本垄断了影评区,分别被提及了7K多次,而且大部分都是被吐槽。

吐槽老谋子的更多的是对影片的失望,而景甜姑凉基本和面瘫划上等号了,说到面瘫,还有一位王俊凯小男孩,据说台词加起来不到10句,不过在影评中居然还有这么多人讨论他,是吐槽?还是小男孩的粉丝?

熊士兵鹿晗排第三位,并且与没活过半集的张涵予的提及次数拉开了一定的差距,颜值经济果然还是有一定效果的,而张涵予虽然“早死”,但也可以瞑目了,最起码是被吃瓜群众记住了。

至于我们的绝对第一主角,马特呆萌,这个影评出镜率,真是有点对不起他的大猪脚的名头,看来呆萌被《长城》毁的不轻,奥斯卡还有望么?

接下来就是以彭于晏、刘德华领衔的酱油阵容了,基本来说一改往日影片主角定位的风格,在《长城》中打了一手好酱油,所以基本影评中也涉及的比较少。

黄轩除了跟着将军们完成了三句半和“遵命”的和声和一句 ,打仗的时候感觉就直接消失了,但也有可能因为扮演的是速度最快的鹿军,快到镜头都拍不到。

快到镜头都拍不到,所以吃瓜群众估计在影评中仅有的少数讨论就是:欸,黄轩呢,黄轩哪去了?~~

而对于吃瓜群众来说,最没有存在感的三人:佩德罗·帕斯卡、威廉·达福、余心恬。

余心恬就算了,估计也没有几人认识,但佩德罗·帕斯卡与威廉·达福作为《长城》中戏份数一数二重的配角,吃瓜群众对他们竟然毫不关心,实在是存在感略低。

时间有限,先上这些了~~

(全文完)

文/数据虫巢

关键字:数据, 大数据, 短评

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部