首发于 从零开始学数据分析
怎么写爆款文章?数据分析告诉你

怎么写爆款文章?数据分析告诉你

▉1. 提出问题

自媒体时代,流量为王。众多开放的平台和分享的渠道,使更多人有了输出内容的欲望,也使一夜爆红成为可能。但也许你辛辛苦苦趴在电脑前一整天码了一天的干货,也抵不过大V随便一张图(::>_<::)。与其埋怨自己不是那条锦鲤,不如一起来看看是什么决定了你的文章是否受欢迎吧~


本文将通过Excel数据分析,解决以下问题:

1) 什么时间发文章可以获得更高的转发量?

2) 什么类型的文章最受欢迎?

3) 爆款文章在语言运用上都有什么共同点?

4) 新媒体的运用如何影响文章的受欢迎度?

如果对以上问题感兴趣,就请往下阅读吧(不喜数据分析过程可直接跳至第四部分和第五部分)


▉2.理解数据

本次分析所使用的数据为加州大学欧文分校(UCI)官网的数据集中寻找到了一个基于Mashable新闻网站的在线新闻流行度数据集(地址: archive.ics.uci.edu/ml/

Mashable是一个互联网新闻博客。由Pete Cashmore于2005年7月创办,月访问量超过7百万,Alexa排名300多。它是世界上访问量最多的博客之一。Mashable撰写关于YouTube、Facebook、Google、Twitter、MySpace、苹果等的新闻,同时他们也报道一些其他社会媒体的消息。

该数据集为数据集作者使用Python抓取并计算,抓取时间从2013年1月到2015年1月共709天,有39644条记录,下表为该数据集的字段描述(真是茫茫多):

表1 原始数据字段描述及数据类型

▉3.数据清洗

◥3.1 列名重命名

原始数据中,列名都以英文缩写的形式呈现,看得……有点乱也有点累。

表2 原始数据列名

为方便后续理解,将列名重命名为中文,清爽多了。

表3 重命名后的列名


◥3.2 选择子集

原始数据有61个字段,很多字段的主要用途为建立预测模型。本文的分析手段为趋势分析和描述统计,因此隐藏了暂时不需要的字段,保留了和以下数据相关的字段(还是挺多的):

表4 保留的字段


◥3.3 删除重复值

在本次研究的数据中,每篇文章的网址是该文章对应的唯一标识,因此选择「网址」字段进行重复值的删除(选定列→数据→删除重复值)。结果表明数据没有重复值。


◥3.4 分列

1)观察网址列,发现「网址」字段其实包含了域名、日期、文章标题简写这三部分信息,需要将其分列。

图1 「网址」字段分列示意图

2)观察数据发现,每一条文本的域名和日期的字符串长度是一致的,那么在分列的时候就可以选择「固定宽度分列」,将不同的信息拆分开来。

3)接下来将「日期」列的数据格式修改为”yyyy.mm.dd”,使其以日期的格式显示,同时利用Mid函数 [例:mid(C2,2,len(C2)-2)] 来去掉文章名首尾的「/」号,并隐藏没有用处的「域名」列。

4)利用筛选功能来检查分列完成的数据是否有缺失或是错误,自此对「网址」字段的分列完成


◥3.5 一致化处理

观察和日期相关的字段,发现原始数据中日期是以「是否是周几」为字段名,每个字段用布尔值(0或1)来表示的。这种表示方法有利于计算机识别,能够加快运算速度,在机器学习中比较常用,但不利于本文直观显示结果,因此我们对这部分数据进行一致化处理。

图2 一致化处理星期信息示意图

这里可以选择传统的if函数,但需要大量嵌套,很容易出现语法错误,可读性也较差。因此此处选择了利用VBA建立一个switch2函数,能够比较方便地完成多重条件判断。函数代码为不影响阅读放在最后。

Alt+F11进入VBA→插入→模块→粘贴代码→保存,就可以用下面的格式使用这个函数啦。

同理我们将文章分类也进行类似的处理。

图3 一致化处理文章分类示意图

但分类结束后利用筛选功能发现,分类中出现了错误值。分析原因,是因为原始数据列出的几个分类下,布尔值都是0,也就是说,该文章不属于这六个分类。因此我们将错误值人为修正,改成「其他」。

图4 修正文章分类错误值示意图


◥3.6 数据排序

利用排序功能,我们用「日期」字段进行升序排列。自此,完成对数据的清洗过程。


▉4.分析

◥4.1 挑对时间发文章,事半功倍

1) 首先,利用excel中的数据分析功能,我们对所有文章的分享数进行了一个描述统计分析,如下:

表5 文章分享数的描述统计

可以看出,该网站每篇文章的平均分享量接近3400,但中位数只有1400,且标准差大于10000,可以看出这是一组波动较大的数据。大多数文章的分享量其实在1000出头,但少数的几篇爆款文章可能有10万+甚至50万+的分享量,因而拉高了平均值。

2) 为了不使这些爆款文章影响我们对平均趋势的分析结果,利用四分位数的计算法则,用「分享量>Q3+100(Q3-Q1)」来鉴别爆款文章,得到了共20篇这样的文章。在计算平均趋势时将其剔除。

3) 利用数据透视表对剔除后的文章按月进行分类汇总,我们可以看到每个月的文章数量和平均分享数。

表6 按月汇总文章数量和平均分享数

文章数量上看,作者们似乎更青睐在7月10月发表文章;但从分享数来看,3月12月领跑全年。3月和12月正好对于欧美地区的春假和圣诞假期,可能此时新媒体受众的主力军之一——学生党更有时间阅读文章进行转发吧~

4) 如果按星期分类,则情况变得十分有趣:

表7 按星期几汇总文章数量和平均分享数

文章发表量从周日到周六呈现凸状分布,工作日发表的文章远大于周末,看来Mashable应该有不少职业写手,双休日就去休息了。

然而分享量在周中的分布恰恰相反,呈凹型分布,周末的数据一骑绝尘。不知是大家周末比较有时间阅读呢,还是文章太少没得看(手动狗头~)


◥4.2 热点,你真的追对了吗

1) 如果按照文章分类来看,刨去其他类型(包含话题较多,不具有参考价值),Mashable上国际、科技、商业、娱乐类型的文章数量都比较多,这些领域也的确比较容易发生新闻,可能一个大事件发生,文章便如雨后春笋般冒出。

表8 按类型汇总文章数量和平均分享数

但啪啪打脸的是,分享量的数据完美印证了「物以稀为贵」的道理,偏偏数量最少的社交媒体和生活类文章拥有最高的分享量。也许柴米油盐,亲人朋友才是大家每天最愿意讨论和分享的话题呢。

2) 另外,站在巨人的肩膀上似乎也是不错的博关注方法。

下表明显可以看出,如果你所引用的文章拥有较高的分享数,那么你的文章就更可能获得更高的分享数。看来追热点,跟着大佬走总没错。

表9 按引用文章的分享数汇总文章数量和平均分享数


◥4.3 用词会悄悄决定你是否喜欢这篇文章

接下来我们将分析文章的语言、词汇对其分享量的影响。为了便于分析,我们对文章的火爆等级根据分享数进行了划分:

表10 文章受欢迎程度的阈值划分

划分的实现利用了vlookup函数,将最后一个参数改为1(即模糊查找)就能轻松完成分类啦~再按照该分类进行数据透视表的绘制即可。

1) 首先来看看这个划分方法是否合理吧。从文章数来看,「冷冷清清」和「平平无奇」的文章占了大多数,往上每个类型的人数越来越少,总体呈金字塔分布,说明这个划分是比较符合实际情况的。

2) 在这样的分类汇总下,我们就可以很容易地发现爆款文章的遣词造句特点啦!

表11 按文章受欢迎程度分类汇总的文章数量、平均分享数及语言文字类统计信息

小结一下:标题得长,得有B格;文章长度得适中,既有干货又不像老太太的裹脚布;词得用简单易懂的,不然大家看不下去走人了;不能太多情绪化的用词(积极的也不行,已经不是人人爱喝鸡汤的年代),客观的文章才最棒。


◥4.4 新媒体的应用总是更夺人眼球

表12 按文章受欢迎程度分类汇总的文章使用的平均图片数、视频数

新媒体时代,一篇文章中多媒体的应用当然也会影响其阅读量。很明显的,分享量较高的文章都插入了较多的图片和视频(看起来6-8张图,2个视频比较合适)。在这个快阅读、碎片化的时代,人们对大段的文字兴趣越来越低,图片、视频这种形象化且便于理解的方式才是抓住读者眼球的王道。

不信你看看,视频网站的播放量总是超过文字的阅读量的~大知乎都开始支持视频了,你还说什么?


▉5.结论

经过以上的分析,似乎可以摸到一些写爆款文章的门道了~(不完全科学,慎用),我们来sum up一下吧:

1) 周末发文章,哪怕周三写好了也周六发,转发量杠杠的!同理假期发文章,寒假暑假春节,别人休息我发文!

2) 多写点生活、社交的话题,受众广泛;热点要追对,大佬的腿要抱紧才有饭饭吃。

3) B格长标题,3分钟能读完的干货,简单大众的用词,(jia zhuang)客观的叙述,是你文章受欢迎的四大法宝。

4) 多多插入视频图片音频总没错的~再不成……转行当up主吧,流量高多了(大雾)。

写到这突然感觉自己这篇文章要凉凉,工作日发文,数据分析话题,数据太多,一眼看懂的图片太少……emmmm,实际和理想总是差很远。

不过不急,更深入的分析,更易懂的报告,后续的文章中会慢慢发出~


而且写文章这种事,还是得多读多练嘛,下面放上此次数据集中的top5爆款文章链接(分享量是截至数据抓取时的结果,三年过去肯定有变化),没事读读,说不定就有长进呢?

No.1 分享量843300

No.2 分享量690400

No.3 分享量663600

No.4 分享量652900

No.5 分享量617900

以上。



附:VBA的switch2函数代码

Function Switch2(Test1 As String, Result1 As String, _
Optional Test2 As String, Optional Result2 As String, _
Optional Test3 As String, Optional Result3 As String, _
Optional Test4 As String, Optional Result4 As String, _
Optional Test5 As String, Optional Result5 As String, _
Optional Test6 As String, Optional Result6 As String, _
Optional Test7 As String, Optional Result7 As String, _
Optional Test8 As String, Optional Result8 As String, _
Optional Test9 As String, Optional Result9 As String, _
Optional Test10 As String, Optional Result10 As String, _
Optional Test11 As String, Optional Result11 As String, _
Optional Test12 As String, Optional Result12 As String, _
Optional Test13 As String, Optional Result13 As String, _
Optional Test14 As String, Optional Result14 As String)
 
Switch2 = Switch(Test1, Result1, _
Test2, Result2, _
Test3, Result3, _
Test4, Result4, _
Test5, Result5, _
Test6, Result6, _
Test7, Result7, _
Test8, Result8, _
Test9, Result9, _
Test10, Result10, _
Test11, Result11, _
Test12, Result12, _
Test13, Result13, _
Test14, Result14)
End Function

玻璃钢生产厂家衡阳玻璃钢家具定制吴忠玻璃钢座椅厂家天津玻璃钢花箱定制淮安不锈钢花盆亳州玻璃钢花盆哪家好浙江玻璃钢花盆曲靖玻璃钢垃圾桶定制绵阳玻璃钢机械外壳批发钦州不锈钢花盆批发眉山玻璃钢卡通雕塑厂家直销林芝玻璃钢座椅哪家好自贡商业美陈批发惠州玻璃钢座椅厂眉山玻璃钢雕塑厂金华玻璃钢装饰工程价格安康不锈钢花盆加工开封不锈钢花盆公司怀化玻璃钢医疗外壳加工保山玻璃钢家具制作福州玻璃钢雕塑定制铜陵不锈钢花盆定做保山商业美陈批发昭通不锈钢家具定做郑州玻璃钢景观雕塑制作武威玻璃钢花坛加工菏泽商业美陈定做济宁玻璃钢卡通雕塑多少钱玻璃钢花钵厂乌海玻璃钢茶几哪家好周口玻璃钢树池坐凳价格香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化