酷安应用大数据分析:为努力跟上大数据时代的挣扎

August 18, 2019 · 默认分类 · 21次阅读

事情是这样

个人对计算机比较感兴趣,以前学过很久程序,什么PHP、Python、网页前端都搞过一些,靠外包项目也转过点小钱。

但因为我的专业和计算机没什么关系,又在实习阶段,压力逐渐增大,荒废了编程,很无奈。
最近稍微有空,想复习一下Python,顺便把收藏夹屯了好久感兴趣的东西掏出来研究一下,遂有此文。

PS:本文纯粹是闲暇兴趣所做,没有经过缜密的分析思考,仅仅是在学习过程中觉得可能有意思的东西分享给大家。没有任何参考意义,轻喷(狗头)


装备

语言:Python

工作环境:Linux,Jpyter-Lab

数据来源:酷安网

爬虫:Scrapy

数据储存:Mysql

数据处理:Pandas

数据可视化:Pyecharts


教程时间

首先我们百度一下“Python”,安装好后输入“print('Hello World')”,然后运行,简单的一个程序就完成了。

是不是特别简单!!

接下来,我们对代码润色一下,就能轻松获取到以下数据:

1.png

太简单了,编程实在是太简单了(狗头)


数据获取与处理

本文爬取的是酷安的数据:

2.png

用的是Python的一个模块Scrapy,是我第一次用,比较生疏。

之前都是使用的Request+正则,第一次用这种爬虫库,感觉完全不一样。

Scrapy代码比较简洁,可读性比较好,自带异步,不需要自己写,感觉还是很不错的。不过我还是建议新手先学学Request再学这个,一步一步来,对爬虫的理解会深刻很多。

爬虫这种东西代码就不贴了,爬下来共计3509个APP的数据,不包括被酷安归类为游戏的应用。

我们主要用到APP名字、评分、下载次数、应用大小。

爬下来后先塞进Mysql,避免重复爬取。

当然储存数据的选择有很多,像我这种比较简单的数据又不需要经常修改,直接储存为csv文件可能是最简单的,但我为了顺便复习一下Mysql,还是绕了一下。
3.png

数据处理方面用的是大名鼎鼎的Pandas,其实我主要是为了学Pandas才有文中这些事的,但后来发现Pandas实在太好用了,根本没花时间,反而是调试数据可视化用了很长时间。。。

4ng.png

最让我惊喜的是,从数据库select的数据,完全不需要处理就可以直接扔给Pandas,爽!!

Pandas拿到数据后,对数据简单排一下。

因为下载次数上万的会变成“X万”的格式,需要处理。

APP大小有“KB”、“MB”、“GB”,统一处理为MB。

得到以下结果:

5.png


可视化分析

接下来就是分析这些数据了,可视化目前最火的是Matplotlib,它的强大毋庸置疑,但是这玩意除非你花时间搞,否则默认的效果丑的一批。

之前被安利过Pyecharts,是一款可交互的处理模块,基于Echarts, 是一个由百度开源的数据可视化,默认主题就很好看,想着顺便也学习一下,也搞了起来。

现在就是非常后悔。。。

我整了一晚上都无法正常生成图片,后来才发现这玩意跟Pandas的支持不太好,Pandas的数据格式Pyecharts不一定支持,需要自己转换。。

但是做出来的效果是真的漂亮

代码不贴了,直接发图。

各评分APP数量

各评分APP数量 (1).png
这个结果跟我预想的不太一样,考虑两个原因:

  1. 酷安网放出来的都是已经筛选过的应用,评分都是比较高的。
  2. 酷安基佬都是善良的人。

各评分APP数量占比

echarts.png
其实可以合并一下就不至于那么乱,但我懒(狗头)
Pyecharts里的饼图有很多,这款长得不像玫瑰的叫做“玫瑰图”,其实是可以放入两列数据的,除了周长放一列数据就像普通的饼图一样,可以再放一列数据以每一类的半径来显示,很有意思。

我这里没多搞,只有一列数据,周长和半径意义是一样的。

这张图没什么好说的了,看两眼就懂了。

应用评分与大小和平均下载次数的关系

应用评分与大小和下载次数的关系.png
这张可能是大多数人最想看到的。

  1. 评分较低的应用,下载次数却特别多,例如微信之类的。真香警告:明明评分低,却又离不开。此处应该批评那些银行应用。。。
  2. 总体上,评分越高的应用,程序越小。点名表扬不限于:一个木函、冰箱、FV悬浮球...

应用大小与评分和平均下载次数的关系

应用大小与评分和下载次数的关系.png
这张可能很多人没想到,但其实是我最想看的。

我一直在好奇,是不是应用比较小,用户就会偏向于下载,应用太大的就会望而却步呢?

  1. 评分上,跟各评分APP数量图的原因相近,酷安都是可爱的人。
  2. 120mb左右的高峰,应该是微信淘宝之类的必装应用大小都在120mb附近导致的。
  3. 小应用平均下载次数比较少,可能是宣传不到位或者还没达到必装的程度吧。

喜闻乐见词云图

WordCloud.png

词云图大概是大家喜欢看的了。

这是利用下载次数加权得出的。

  1. 在酷安收集的数据,果然酷安霸主地位稳得一批。
  2. 有些应用平时好像不怎么听到,没想到对我们的生活那么重要。

后记

虽然一直在说分析,但所谓的分析并不严谨,漏洞特别多。

因为是为了学习编程而做的,所以没有多去深究。

都在说现在是大数据时代了,有利有弊,讨论得头头是道,却没多少人深入体会过什么是大数据。

我选择自己学习一下,钻进去看看,这确实也让我获益良多。

无论以后是什么时代,敢于去学习,一定不会落伍。

标签:none

最后编辑于:2019/08/18 19:30

添加新评论