Python爬虫-大数据平台客户群体分析
目录
一、提出问题
二、理解数据
1.获取数据
2.数据处理
三、数据分析及可视化
四、结论
一、提出问题
通过数据分析不同大数据平台的用户特征。
确定研究对象:
参考以下问题的答案,选择帆软、用友、思迈特、亿信华辰做为研究对象。
二、理解数据
1、获取数据
通过爬虫得到各个大数据平台网站的客户信息,对比得出各大数据平台的客户分布。
爬取方式: Requests + Xpath
各平台官网地址:
帆软: 典型客户 - 帆软,专业的大数据BI和分析平台提供商
用友: 案例 -- 用友云-数字企业智能服务
思迈特: 典型客户 | 商业智能BI工具与大数据分析平台-思迈特Smartbi
亿信华辰: 商业智能案例-北京亿信华辰软件
2.数据处理
爬取结果经处理后大致如下:
帆软:
合计样本量 3766
用友:
合计样本量:97
思迈特:
合计样本量:343
亿信华辰:
合计样本量:66
3.数据分析
帆软用户群体分析:
- 搜索指数概况
搜索指数同比增长32%,提升明显。
- 近30天搜索趋势
可以看出搜索主要集中在工作日,周末时会有明显的下跌。说明主要使用人群为上班族。
- 用户地域分布
用户主要集中在江浙、北上广等经济较发达地区。华东地区市场开发得更好。
- 用户特征
19-34岁为主要使用人群,其中男性占比76%,女性占比24%。
- 客户行业分布
软件服务行业占比最多,34%。
用友用户群体分析:
- 搜索指数概况
搜索指数同比下降4%,略有下降,说明市场一定程度上达到饱和。
- 近30天搜索趋势
可以看出搜索主要集中在工作日,周末时会有明显的下跌。说明主要使用人群为上班族。
- 用户地域分布
用户主要集中在北上广、江浙、山东等地。华东、华北地区市场开发得更好。
- 用户特征
19-34岁为主要使用人群,其中男性占比63%,女性占比37%。
- 客户行业分布
食品医药行业占比最多,27%。
SmartBi用户群体分析:
- 搜索指数概况
搜索指数同比上升23%,增长较多,正处于业务增长阶段。
- 近30天搜索趋势
可以看出搜索主要集中在工作日,周末时会有明显的下跌。说明主要使用人群为上班族。
- 用户地域分布
用户主要集中在北上广、江苏、山东等地。华东、华北地区市场开发得更好。
用户特征
19-34岁为主要使用人群,其中男性占比81%,女性占比19%。
- 客户行业分布
政府部门及高校占比最多,分别为20%和23%。银行、保险、证券、基金合为金融行业,占比28%。
亿信华辰用户群体分析:
- 搜索指数概况
搜索指数同比下降2%,略有下降,说明市场一定程度上达到饱和。。
- 近30天搜索趋势
可以看出搜索主要集中在工作日,周末时会有明显的下跌。说明主要使用人群为上班族。
- 用户地域分布
用户主要集中在广东,华南、华东地区市场开发得更好。
- 用户特征
30-39岁为主要使用人群,其中男性占比76%,女性占比24%。
- 客户行业分布
各行业占比相差不大,但是政府部分占比52%。
各平台用户群体对比分析:
- 搜索指数对比:
帆软和SmartBI的搜索指数同比增长更高,相比用友和亿信来说,处于业务增长的阶段。
- 搜索指数趋势对比:
各平台都具有集中于工作日的特征。
整体搜索数量:用友>帆软>SmartBI>亿信华辰,一定程度上可以代表市场占有率。
- 地域分布对比
华东地区:帆软>用友>SmartBI>亿信华辰
华北地区:用友>帆软>SmartBI>亿信华辰
华南地区:亿信华辰>用友=帆软=SmartBI
华中地区:用友=帆软>SmartBI>亿信华辰
西南地区:SmartBI>用友>帆软>亿信华辰
东北地区:亿信华辰=用友>帆软>SmartBI
西北地区:用友>帆软>SmartBI>亿信华辰
- 使用人群对比:
使用人群在20-49岁,主要在30-39岁集中,其中男女比例大致为8:2。
四、结论
1、发展趋势
- 帆软、SmartBI搜索同比增长较多,较与用友及亿信华辰处于业务上升阶段;
2、业务优势地区
- 帆软:华东、华中地区;
- 用友:华北、华中、东北、西北地区;
- SmartBI:西南地区;
- 亿信华辰:华南、东北地区;
3、用户特征
- 20-39之间,位于经济发达地区的上班族,男女比例约为8:2,
4、业务优势行业
- 帆软:软件服务行业
- 用友:食品医药
- SmartBI:金融、高校、政府部门
- 亿信华辰:政府部门