大数据游戏用户分群思路
本文记录一下用大数据对游戏用户进行用户分群的想法流程。
模块名
用户分群
需求
根据用户在游戏中的信息,对用户进行分群。(重点:挖掘付费能力强的核心用户)
开发和思考流程
首先:根据用户的基本特征进行基本分群。(例如:在线时间 高,中,低;累计充值 高,中,低)
然后:根据多种基本特征 组合 或 聚合,得到最终分群结果。(例如:土豪,肝神)
具体步骤
定义标签
- 基础标签:从原始数据转化而来,通过数据分布模型得到。
- 二次标签:通过基础标签生成,由市场运营人员根据逻辑相关性组合得到。
基本流程
每天,每周,每月,程序自动根据动态数据聚合统计更新出基础标签的配置。(例如:通过昨日用户充值,动态计算出“充值量为 高”的用户充值范围的定义;例如更新“最近三十天总充值为 高”的定义)
然后,通过配置和用户数据生成用户基础标签。(例如:上一步生成的配置是“最近30天充值在12620到38291之间的用户为充值量为 高 的用户”,用户数据为“最近30天充值21321”,那么用户基础标签就多了一个“最近30天充值量:高”)
然后,使用者运营市场人员,通过基础标签的组合模板,定义出他们的二次标签。(例如:市场人员的“土豪”模板定义为,“最近30天充值量:巨高”,“最近30天代币消耗量:巨高”,求交得到“土豪”人群)
基础标签分组
基础标签的分组需要根据不同数值类型,建立不同的分布模型。
正态分布 Normal Distribution
函数表达式
参数 μ 平均数 σ 标准差
特征 对称分布
适用标签 用户游戏时间分布:大部分用户会是在晚上8-11点在进行游戏,此为高峰期,其他时间多为对称分布
曲线分布图
泊松分布 Poisson Distribution
函数表达式
参数 λ 平均数
特征 左倾分布,离散型数值
适用标签 每日用户登录次数:此值为离散分布,且低登录次数的用户显著较多 每日充值次数:此值为离散分布,且低充值次数的用户显著较多
曲线分布图
伽马分布 Gamma Distribution
函数表达式
参数 α 形状参数 β 尺度参数
特征 左倾分布,连续型数值
适用标签 充值总额:此值为连续分布,因为用户充值总额只会增加;且低充值总额的用户显著较多 游戏总时长:此值为连续分布,因为用户游戏时长只会增加;且低时间用户量大
曲线分布图
总结分组
找到合适的曲线分布图后,通过其中位数或者平均数,Q3,Q1,根据业务实际需求,可以最简单的将基础标签分类为六类: 很低,低,中,较高,高,巨高
总结
优点:方法容易理解,效果明确,满足用户自定义需求。
缺点:数据延迟时间一天,定时任务有依赖(基础标签生成任务 依赖于 模板聚合任务)
扩展点:通过基础标签的数据库,使用K-means等进行聚合生成二级标签,可自行缓慢根据业务更变动态增加函数库。