编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数据分析的整体框架应该如何搭建?本篇文章里,作者以支付业务为例,对数据分析的整体框架、数据如何处理加工做了相应阐述,一起来看一下吧。
我以支付业务为例来讲解。
用户来到支付收银台后,在页面上有很多点击行为,比如选择各种支付方式,微信支付、ApplePay 支付等最后完成支付,也有可能点击左上角返回键或者右上角订单中心离开当前页面。
这个过程会产生很多数据,从数据大类上分成:用户数据、行为数据和业务数据。
谁(用户数据)做了什么(行为数据)结果如何(业务数据)?
用户数据指用户本身的特性,如用户画像,使用你产品的用户男性多还是女性多,年龄多大等。
行为数据指用户使用产品在页面上的各种点击行为,在页面上停留时长等。
业务数据指用户行为之后,实际产生的结果,业务数据会落库业务数据表。分析业务数据的意义,可以衡量商业价值,是业务最终呈现结果,用以推动公司业务的发展。
用户数据和行为数据通常可以从第三方数据工具,如友盟、Google Analytics 直接获取,业务数据一般要内部建设。
今天重点讲业务数据搭建完整过程,以阿里云的Quick BI为例。
在整个数据分析的框架中,分为五大层次,依次是:数据生成、获取数据、数据建模、数据分析和数据应用。
一、数据生成
还是以支付业务为例,用户选择支付方式完成支付后,落库核心的两张业务表:订单表和交易表。一个订单会对应多笔交易(每选择一种支付方式生成一笔交易,一笔订单可以使用多个支付方式尝试支付),其实还会产生其他表,比如收货地址表等。
二、获取数据
通常使用第三方工具如ETL将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,数据呈现在BI的数据源。
三、数据建模
所有数据进到数仓以后,需要根据实际想要看的业务数据进行数据建模,建模后的数据呈现在数据集。数据集作为数据源和可视化展示的中间环节,承接数据源的输入,并为可视化展示输出数据表。
1. 构建数据模型
数据建模是什么含义呢?
底层的业务数据表其实很多,几十张上百张都有,但到了业务数据分析阶段,当需要分析的数据存储在不同的表,可以通过数据关联,把多个表连接起来,形成模型进行数据分析。
比如上述的业务底层订单表到了数据分析阶段衍生的订单表字段发生变化,name 和 city 是从业务地址表取来的数据。
数据模型是完全面向数据分析的业务场景形成的新表。以支付业务为例,我构建的数据模型有:
2. 设计维度和度量指标
对数据字段可以进行下一步分类:
在统计学中,单一数据字段可以被分为离散和连续。离散通常是维度,比如城市名称、用户名字,特征是有限数量的值;连续通常是度量,比如销量、利润或成功率,特征是不可罗列,可能为任一数值。维度和度量中有许多灰色区域,比如金额,可以做维度,也可以做度量。
在上述订单表中,device、city 等是维度,对order_id 计数的总订单数、对status = success 计数的成功订单数是度量。
度量可以再分原子度量和派生度量。
原子度量指从维度里直接获取到,上表中的总订单数和成功订单数。
派生度量并不能直接从数据表中获取,而需要基于已有数据进行加工处理得到,上表中的订单成功率是成功订单数/总订单数得到。
四、数据分析
有了维度和度量的概念后,接着引入聚合概念。对于数据分析来说,往往关心的并不是最底层一行一行的的明细数据,更注重分析数据的角度,关心的是数据的总体特征。
聚合,简单讲就是数据源里的多行数据按照一定的标准计算成一个数据,不管数据集里有1行还是多行,视图里的数据都是聚合后的结果,一行数据也是要聚合的,当然一行数据聚合的结果是一样的。实际上,维度为数据聚合提供依据,而度量是依据维度聚合得到的结果。
配置了聚合计算的计算字段,将根据配置的维度自动进行聚合运算。
如:
求和:SUM([字段])
计数:COUNT([字段])
计数去重:COUNT(DISTINCT [字段])
求平均值:AVG([字段])
表述的业务含义为时间周围为2021.3.1 ~ 2021.3.15 范围内pc端的订单成功率为0.5。
计算过程:根据created_at=2021.3.1 ~ 2021.3.15 和device =pc ,SUM([总订单数])= 2,SUM([成功订单数])=1,SUM([成功订单数])/SUM([总订单数])=1/2=0.5。
Quick BI 提供电子表格和仪表盘两种可视化工具做以上分析。
电子表格:
仪表盘:
通过可视化的图标去分析数据,找出机会点或者异常。
五、数据应用
通过可视化的图表去分析数据,找出机会点或者异常。可以说,前面1、2、3、4 所有的工作都在为了第5部分数据应用上。
数据从用户中来,通过一系列的数据沉淀、处理和分析找出机会点做决策再回到用户中去,提升用户体验,带动业务增长,此即数据驱动业务。
六、结语
本篇文章介绍了分析数据的数据框架拆解、数据处理加工过程。
但是海量数据怎么看,看哪些?度量指标应该怎么设计,度量指标中什么是业务的北极星指标等此文还没提到。
接下来文章将会介绍数据指标体系搭建和数据分析的一些方法,也是整个数据分析体系中最核心的内容。