自2006年新东方教育集团赴美上市以后,教育行业开始成为资本市场的宠儿,多家培训机构陆续赴美上市。2010年后,互联网+概念兴起,在线教育也从2014年开始成为风投关注的重点领域。原因无他:重视教育是国人传统,人口结构从年轻化转向中年化,二胎政策开始实行,以及“不让孩子输在起跑线上”的理念在家长群体中风行。因此,大部分投资机构都把在线教育视为现金流行业,市场潜力巨大。
由于在线教育的模式可以打破时空限制,解决各地区师资力量分配不均的矛盾,多家产业资本和风险投资机构近几年进入,导致市场竞争进入了白热化阶段,大部分在线教育企业持续烧钱,获客成本增加,以至于为了获得1元的收入,不得不付出2元的成本。众所周知,教育是“百年树人”的中长期行业。当“润物细无声”的教育行业特征和天生逐利的资本发生矛盾,为了提高估值拿到更多的投资,以满足持续扩张的烧钱模式需要,数据造假或作弊似乎成了通向成功的“捷径”和将企业起死回生的“药方”。
相比以低成本就能依靠脚本语言实现作弊的网络视频行业和广告行业不同,教育产品吸引投资者的“卖点”是用户数据,包括新增用户和活跃用户。而这些用户的判断标准是以能否签订合同和付费为定义的。换言之,教育产品的“门槛”是动辄上万的订单,因此,原数据团队判断该类公司是否数据造假,除了依靠技术和算法模型以外,历史积存数据分析以及端对端流程分析也非常必要。
在线教育公司常见的数据作弊来欺骗投资者的行为主要是用户数据造假。比如媒体报道的2018年DD公司英语刷单数据造假,HF教育公司用户数据造假等等。此类事件近几年多次发生并被媒体曝光,对行业声誉和用户信任度造成恶劣影响,长此以往势必影响整个行业生态健康发展。为维护国民发展之基础,最后政府部门将不得不对整个行业进行整顿,可能导致行业萧条或者活性大为减少。
因此,由独立第三方数据尽职调查公司进行数据甄别、审查和打假是对投资者保护和降低业内风险的有效手段。作为中国第一家独立的互联网数据尽职调查团队,原数据列举了教育产业的部分数据作弊手段和甄别方法:线上教育的服务器数据甄别,通过聚类和神经网络等用户特征分析对造假用户进行甄别,用户留存率和持续活跃程度甄别,以及从签约、教学到课程结束的流程跟踪。
1. 线上教育的服务器数据甄别
服务器数据包括IP地址、终端设备、终端版本操作系统和终端wifi使用情况等四类数据分析。
• IP地址和设备号异常:作弊的连接数据通常有IP地址频繁更换所在地理位置,以及设备号频繁重置IDFA的特征;
• 终端设备:根据在线教育用户的特征分析,用户所使用的终端设备价位通常以中高端为主。如果新增用户或者启动APP的用户所使用的终端以低端设备为主,很有可能这些连接设备的用户为刷量的虚假客户。
• 终端操作系统版本:为了更好的在线教育视频体验,真实的用户所用的终端操作系统版本通常比刷量的操作系统版本更新和更适配。这项特征可以通过用户特征发现和验证。
• 终端wifi使用情况:真实的用户通常会使用wifi来下载和启动App参加网络课程。因此,如果wifi下面使用App的情况少于80%,则刷量的虚假用户数据风险较大。而对于普通App(所需流量较少),wifi下面的使用率在60%-70%之间。下图是普通App在正常情况下wifi和数据漫游服务使用的比率。
2. 聚类和神经网络对用户特征进行甄别:
我们可以运用K-means++对用户特征字段进行聚类分析(Clutering)。根据Lemma 1、Lemma 2和Lemma 3定理,确定聚类中任意一点和中心点的距离最小化,该中心点的SSE是该聚类里面所有点的平均值,而且寻找中心点的过程是有限的。
Lemma 1: