产品经理如何挖掘数据分析

最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?

对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议。

很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,才能把数据挖掘分析做好,实际上并非这样。如果钻入复杂算法和技术开发,只能让你走火入魔,越走越费劲,并且效果不大。在公司实际工作中,最好的大数据挖掘工程师一定是最熟悉和理解业务的人。对于大数据挖掘的学习心得,作者认为学习数据挖掘一定要结合实际业务背景、案例背景来学习,这样才是以解决问题为导向的学习方法。那么,大体上,大数据挖掘分析经典案例有以下几种:

  1. 预测产品未来一段时间用户是否会流失,流失情况怎么样;
  2. 公司做了某个促销活动,预估活动效果怎么样,用户接受度如何;
  3. 评估用户信用度好坏;
  4. 对现有客户市场进行细分,到底哪些客户才是目标客群;
  5. 产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效;
  6. 运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比;
  7. 一些用户购买了很多商品后,哪些商品同时被购买的几率高;
  8. 预测产品未来一年的销量及收益。。。。

大数据挖掘要做的就是把上述类似的商业运营问题转化为数据挖掘问题。

一、如何将商业运营问题转化为大数据挖掘问题

那么,问题来了,我们该如何把上述的商业运营问题转化为数据挖掘问题?可以对数据挖掘问题进行细分,分为四类问题:分类问题、聚类问题、关联问题、预测问题。

1、分类问题

用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题,我们需要掌握分类的特点,知道什么是有监督学习,掌握常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等。

2、聚类问题

细分市场、细分客户群体都属于数据挖掘的聚类问题,我们要掌握聚类特点,知道无监督学习,了解常见的聚类算法,例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。

3、关联问题

交叉销售问题等属于关联问题,关联分析也叫购物篮分析,我们要掌握常见的关联分析算法:Aprior算法、Carma算法,序列算法等。

4、预测问题

我们要掌握简单线性回归分析、多重线性回归分析、时间序列等。

二、用何种工具实操大数据挖掘

能实现数据挖掘的工具和途径实在太多,SPSS、SAS、Python、R等等都可以,但是我们需要掌握哪个或者说要掌握哪几个,才算学会了数据挖掘?这需要看你所处的层次和想要进阶的路径是怎样的。

第一层级:达到理解入门层次

了解统计学和数据库即可。

第二层级:达到初级职场应用层次

数据库+统计学+SPSS(也可以是SPSS代替软件)

第三层级:达到中级职场应用层次

SAS或R

第四层级:达到数据挖掘师层次

SAS或R+Python(或其他编程语言)

三、如何利用Python学习大数据挖掘

只要能解决实际问题,用什么工具来学习数据挖掘都是无所谓,这里首推Python。那该如何利用Python来学习数据挖掘?需要掌握Python中的哪些知识?

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

  • pandas 分组计算;
  • pandas 索引与多重索引;

索引比较难,但是却是非常重要的

  • pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

  • Numpy array理解;
  • 数组索引操作;
  • 数组计算;
  • Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

  • Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

  • seaborn的使用

seaborn是一个非常漂亮的可视化工具。

  • pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

  • 机器学习的定义

在这里跟数据挖掘先不做区别

  • 代价函数的定义
  • Train/Test/Validate
  • Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

  • 最小二乘算法;
  • 梯度下降;
  • 向量化;
  • 极大似然估计;
  • Logistic Regression;
  • Decision Tree;
  • RandomForesr;
  • XGBoost;

6、数据挖掘实战

通过机器学习里面最著名的库scikit-learn来进行模型的理解。

以上,就是为大家理清的大数据挖掘学习思路逻辑。可是,这还仅仅是开始,在通往数据挖掘师与数据科学家路上,还要学习文本处理与自然语言知识、Linux与Spark的知识、深度学习知识等等,我们要保持持续的兴趣来学习数据挖掘。

数据分析虽然不能直接带来业绩增长,但为产品改进和决策提供了方向,让产品以最符合受众需求和体验的方式促进企业业绩提升。结合我在曾经的实际工作中,以及商务部门、运营部门、管理者的数据分析的真实案例,介绍如何应用数据满足不同部门的分析需求、以及企业在数据分析过程中存在的通病和应对之策。商务部门、运营部门、老板关注都有哪些数据分析需求?

商务部门:用户投资转化率

先从商务部门的获客说起,为监测渠道推广的效果,我会给每个渠道分配唯一标识,用来区分各渠道用户的来源。为了让相关渠道的推广人员能清晰了解渠道状况,我会推送一些渠道分析的报表,包含了渠道流量、注册用户数、投资用户数、投资转化率、用户的整体投资额、人均投资额等。

图1 数据驱动下的渠道分析流程

在整个渠道分析的过程中,我们经过异常指标、定位问题、解决问题等流程,最终驱动获客的提升。下面是我工作中真实的案例。

场景1:为何注册用户的投资转化率下降了2%?

当发现这个异常指标,我们要做以下判断:是大部分渠道均有所下降,还是单渠道的影响?在转化过程中,客户会在哪个环节中卡壳?出现问题的原因是什么……

通过分渠道查看并对比近一周的用户转化漏斗,发现前一天注册的用户在申请充值到充值成功步骤的转化率明显降低。为进一步挖掘原因,我通过分时段查看每个时段的充值成功率,发现晚上7点到9点充值成功率出现问题。最终技术调取日志确定是第三方支付平台的问题,因为在晚上7~9点间服务器出现故障。

为此,我们增加充值成功率指标监测,设置预警值,发生异常可及时反馈到相关人员。

场景2:为何注册用户充值成功,却没有转化为投资用户?

用户充值成功,初衷一定是希望在平台上完成投资的,因此没有转化投资用户属于异常情况。通过分析发现,是“标”的供给不足。老客户熟悉秒杀“标”的规则和“标”的发放时间,导致新手抢不到“标”。为此我们开辟了新手专区,从而保障新用户的转化率。

运营部门:资金管理、理财产品管理   

互金行业的运营部门关注资金管理、理财产品管理。在投金额、回款&投资、充值&提现、净流入、沉淀资金等指标是监管平台资金常用的指标。与此相比,更重要的是如何看待和理解这些指标,若指标发生异常波动,要及时定位问题来驱动业务增长。

图2 平台监管常用的数据指标

例如,为什么金融企业需要关注沉淀资金?沉淀资金是金融客户在平台的可用余额,是企业平台所募集的资金,若未能转化为投资额,是无法给企业带来价值的。若发现沉淀资金数值出现异常,背后有各种可能,如产品供给不足造成资金闲置;产品功能异常(自动复投失败);或者大客户回款忘记复投,都可能会产生沉淀资金。

在理财产品管理实践中,数据分析给予了一些指导意义,例如:

我们通过分析发现,临近春节前 3 个月,短期标会供不应求,其中原因不难理解:一些用户尽管手头有很多闲置资金想投资,但春节期间会有较多的花费。这个结论为短期标的管理与发放提供了一些引导。

再如,通过分析发现,不同客户对产品偏好的差异性较大。大客户承受的风险能力很强,该用户群追求高收益,因此在其投资的产品中,长期标占比是最高;而小客户因为资金有限,这部分群体有灵活性的考虑,故短期标的占比最高。

老板:数据报告、目标管理

老板最喜欢看报告!数据部门最基本的工作是提供日报、月报、季度、年报、各团队业绩考核报告等。呈交老板的数据报告通常会包括综合指标统计部门业绩拆分产品分析用户分析等内容。

图3 老板所关注数据报告的常见内容

除了报告之外,老板还希望达到资金与资产的平衡:资金是企业通过营销渠道拓取客户,若资产有限用户无法投资,将导致用户流失,造成营销费用的浪费;若资产较高却没能及时募集相应资金,企业会为资产付出较高的成本。在我们的数据分析工作中,会通过回款和复投率等指标进行资金预测,帮助老板解决目标管理等问题。

图4  老板关注资金和资产的平衡

在这些年的数据分析实践中,以及在神策数据与众多行业客户交流中,不难发现企业在数据分析过程中普遍存在众多问题。如数据资产问题:用户行为数据的采集难以在内部实现,以及数据安全性无法保证;数据孤岛,用户明细数据拿不到,企业内部数据存在孤岛;用户行为数据与业务数据割裂; CRM、第三方数据、业务数据无法打通等;分析效率,即业务人员数据需求求助于分析师,沟通成本高;需求排队、不能得到及时反馈;低价值、重复的工作,人力严重浪费等。

文章由PM28网编辑,作者:海阁,如若转载,请注明出处:http://www.pm28.com/724.html欢迎投稿

联系我们

在线咨询:点击这里给我发消息

邮件:403567334@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息