本文来自微信公众号:数据化管理(ID:sjhglwx),作者:黄成明,此话题分为上下两篇来论述,本篇为上篇,下篇详见:《职场中数据分析师是如何耍流氓的?(二)》,题图来自:IC Photo

之前一个系列讲了如何识别数据真假以及如何解读数据报告,来晚了的同学可以翻看之前的几篇文章学习。今天开始写防数据忽悠的系列文章。

防被数据忽悠系列这部分会分四讲阐述,分别是数据忽悠常用手段【1】指标、【2】图表、【3】权重、防数据忽悠策略。

防被数据忽悠系列

先来看个案例:2016年7月24日,贵州省房地产研究院向社会公布《贵阳市住房租赁市场发展报告》。随后在2016年7月25日,贵州的三份报纸均以贵阳房租为头条内容:

2016年7月25日贵州的三份报纸

你看晕了吗?贵阳的房租到底是涨了17.98%,还是涨了10.51%,抑或是下跌了?!其实真实的原因如下:

《贵州都市报》:选取了2011年、2016年每套住宅均价作为数据源,得出的结论是每套住宅均价上涨了17.98%

《贵州商报》:选取了2011年、2016年每平方米月租金均价作为数据源,得出的结论是住房月租金每平方米均价上涨了10.51%

《贵阳晚报》:选取了2015年、2016年两年的租金作为数据源,得出的结论是贵阳房租连续两年下跌

由此看到问题所在:不同的数据源得出不同的结论。也就是说这三份报纸都没有错,只是他们各自选取了不同的数据源,导致得出的结论不一样,进而体现在文章标题的差异,若只看标题的公众就容易产生错觉了。

其实在如今的网络时代,充斥着非常丰富的数据信息,各种市场报告以及成交量排行、市场份额报告、行业分析等等。这些信息名目繁多、主题各异,其中不乏鱼目混珠、偷换概念之作。我们身处这个信息爆炸的时代,不应该被数据忽悠,而是应该去适应,去读懂这些数据信息。

今天的文章主题是数据忽悠常用手段【1】指标, 将重点介绍用指标进行数据忽悠的常见手段。

同一组数据不同的指标

案例1:某个部门共有7名员工,一直处于超负荷工作。本月其中一名员工由于积劳成疾住院。如何向老板申请增加新员工?

方法一:本部门现有1名员工积劳成疾,申请补充新员工数名。

方法二:本部门现有14.3%的员工积劳成疾,申请补充新员工数名。

你觉得以上两种说法中,老板更有可能同意哪一种?

显然案例中绝对值的说法,效果不如相对值,但其实反映的是同一个事实。所以大家看到这种数据报告后,要多加思考,千万别想当然地就作出判断。

注意:绝对值和相对值是不同的指标。再举一个更奇葩的数据,某个业务员本月新开发了两个客户,然后给老板做报告却说本月新开客户同比增长100%,因为去年只开发了一个。


同一组数据不同的指标定义

案例1:相信大家还记得在《数说》第3期的理解数据中的例子:

某个部门共有20名员工(该部门标准编制员工数25名),本月这20名员工全部辞职了,月中新入职10人,月末还剩10人。请问该部门离职率是多少?

答案1:离职率67%,即20÷(20+10)

答案2:离职率80%,即20÷25

答案3:离职率100%,即20÷20

答案4:离职率133%,即20÷[(20+10)÷2]

答案5:离职率200%,即20÷10

同样是离职率的指标,但是它的定义不一样,居然可以有5种不同的结果!所以问清楚指标定义是非常重要的!针对每个指标,企业必须要有一个统一标准化的指标定义,所有部门都要按照这个标准定义来做统计。

案例2:这是真实事件!有次我去参加一个服装行业联谊会,会间正好听见几个人在聊售罄率的事情:

A说:我们公司的售罄率是75%,你们的公司是多少啊?

B说:我们公司的售罄率只有70%,没有你们好啊。

C说:我们公司比你们还差,售罄率是55%左右。

D说:我们公司还不错,有的产品售罄率可以达到95%以上。

于是我就听到A、B、C同时惊叹道:你们公司的售罄率真高啊,怎么做到的?给我们讲讲吧。 (PS:售罄率是检验商品库存消化速度的一个指标。一般采取期货制订货的企业,如鞋服行业用得比较多,可以随时补货的快速消费品一般不用这个指标)

D扬扬头继续说道:我们公司的买手都是花大价钱从外面请的高手,买货非常准的。还有就是我们商品部的数据分析能力非常强。

从她们的对话中,你们直接发现什么问题吗?

首先,ABC说的是公司的售罄率,而D说的却是某些产品的售罄率,没有直接的对比意义。其次,指标只有放在一定的场景下,找到最合适的对象,并且使用最正确的数据源才有意义。

指标之间的对比必须注意一定要几个一致:对象一致,时间属性一致,定义一致,数据源一致!

后来我和她们详细聊完,结合聊的效果,我们来仔细分析下这几个一致:

对象一致:正如ABC的公司和D公司的对比,个体和整体可以对比,但是可对比性会差很多。

时间属性一致:这是最大的问题,事后和她们聊天了解到,C所说的售罄率只是季度售罄率,而A、B和D所说的是季末售罄率。

定义一致:A、B和D三人虽然都是季末售罄率,但是他们的定义却不一样,A所在公司的季末是最佳销售期再加三个月(即夏装销售期为4-6月,季末售罄率则是到9月底的售罄率),而B所在的季末售罄率是销售期加两个月(即8月底的售罄率),D所在的公司是到自然年度才算售罄率(即夏装的季末售罄率是到12月底的售罄率)。三个公司商品的消化期都不一样,售罄率自然就没有对比意义了。

数据源一致:最初我也没有发现她们有数据源不一致的现象,我也想当然的认为他们就是普通服装公司的“期货制“订货模式,最后才发现D公司采用的是”期货制“加”现货制“的订货方式,这种方式由于可以根据销售情况多次补货,所以售罄率高也是自然的。所以A、B、C和D的数据源是不一致的。

看到这个地方你们明白了指标是不能乱用的了吗?对于售罄率每个公司必须制定一个统一标准定义,这样才能更好的标准化,也方便数据分析以及对商品采购的考核。

案例3:以下是2014年12月21日韩都衣舍天猫旗舰店的退款率截图:

韩都衣舍退款率

当时一篇标题为《双十一后时代卖家生悲:韩都衣舍退货率69.8%》的文章在网络上疯传,网上也各种议论:都是双11惹的祸、都是刷单刷出来的销售等等。

之前的文章我就分享过离婚率的例子,当时说的主要问题就是分子和分母根本不是一回事儿!其实在本例中的退货率也是同样的问题:

上图中,计算韩都衣舍的退货率就是用的这种算法,30天内退货除以30天内的发货,即11月21日到12月20日的这30天内的退货率(退货/发货)。大家仔细想想,双11的退货在分子里面(这个数据会比较大),而发货却不在分母里面(相对双11来说这个数据会非常小),这样计算的退货率有意思吗?

其实真是没意思。但是却不能说这种方法是错误的,这是目前各大电商通用的计算退货率的方法,虽然不是错误的,但是却不符合业务逻辑。

那电商退货率到底如何处理呢?虽然退货率的公式非常简单,但是退货率和离婚率一样容易出问题。退货率的公式隐含了时间和对象两个关键信息,即什么对象在什么时间周期内的退货率。如果只用公式硬套,还可能算出退货率高于100%的情况。退货率常见问题有两种情况:

1. 对象不一致:有的公司为了方便顾客,允许顾客就近退货,这样极端状况下就有可能造成退货批次大于发货批次的现象,因为会有非本店购买的顾客来退货,这些退货批次不在分母中,但却在分子中。这种情况一般线下零售比较多。

2. 时间属性不一致:经常出现的情况是上月发的货本月来退,造成本月退货率数据失真。这种情况一般线上零售比较多。

当发货数量巨大,退货比较小时一般问题不大,但是现在电子商务的退货率一直高居不下,影响就比较大了。解决这两种不一致的办法有三种:

1. 扩大统计范围:如果公司允许顾客就近退货,那就不要分析店铺的退货率,直接看城市或全公司的退货率就可以了。

2. 追根溯源:包括把非本店铺发货的退货单从数据上返还给实际发货的店铺,把非本周期发货的退货单从数据上返还给实际发货的周期。例如本月发货200单,退货40单,其中10单是非本月的发货,则本月实际退货率是15%。这种方法可以做到对象和时间数据的一致了,不过这种方法计算起来比较复杂,因为退货源的归属期查起来往往比较麻烦。所以一般用于中长期,如月退货率的计算。这种方法的退货率需要不断的修正,如2013年10月底计算的当月退货率为12%,但11月又有10月发货的商品退货,则11月底时需要修正10月的退货率数据,如果12月时还有10月发货的商品退回,则12月底时还需修正。

3. 实际发生退货率:这种方法就是按当期实际退货数除以当期实际发货数,忽略对象和时间属性不一致的因素。这种方法的好处是简单,就是退货不问出处,可以适用于计算短期退货率使用,如日、周退货率。

不管企业采用何种计算方法,一定要注意标准的统一。只有标准统一了我们才好结合退货率的走势去分析退货背后的原因。

好的,今天的内容主要跟大家分享了用指标进行数据忽悠的常见手段,建议大家看新闻、看报告等各种数据信息的时候,记得要多进行思考。通过学习本期的内容,并不是让大家去忽悠同事、老板,而是希望大家以后不要被数据忽悠了~希望大家练就识别数据忽悠的本领,提升数据思维。

本文来自微信公众号:数据化管理(ID:sjhglwx),作者:黄成明