很多人刚接触数据分析或者看报表的时候,总能盯着correlation这个词发愣,翻译成大白话就是“相关性”,再通俗点说,就是两个东西之间有没有啥“猫腻”或者“连带关系”。
我最开始琢磨这个词,是因为前几年帮家里长辈打理个卖干货的小网店。那时候我天天盯着后台数据看,发现一个特逗的现象:只要那几天的气温一降下来,我店里的红枣和姜茶就卖得飞快。我当时就在本子上记了一笔,气温越低,销量越高。后来翻书才知道,我这就是在搞correlation实践。
我是怎么上手折腾这些数据的
为了搞清楚这中间的弯弯绕,我专门去拉了半年的销售清单。我先把每一天的平均气温列出来,再把当天的订单量摆在旁边,这就凑成了两列数。我当时也没用啥高端软件,就开了个最基础的表格工具,把这两组数选中,点了个“散点图”。
这一画图,结果就直观了:

- 同进同退的叫正相关: 比如我发现,来店里逛的人越多,下单的人通常也就越多。这两个数是手拉手往上涨的,这就叫正相关。
- 你升我降的叫负相关: 就像我发现的气温和姜茶销量,一个往下掉,另一个就往上蹿。这俩不对付,这就是负相关。
- 乱七八糟没规律的: 比如我试着对比了一下当天的风力大小和姜茶销量,发现点出来的图跟麻子脸一样,东一个西一个,完全没啥联系,这就是没啥相关性。
算这个数的时候,我踩过的坑
折腾得久了,我就想算得更准点,于是去整那个叫什么“相关系数”的玩意。这东西算出来的结果就在 1 到 -1 之间晃悠。最开始我一看数值是 0.9,乐坏了,觉得这俩事儿绝对有戏;一看是 0,就觉得这俩事儿彻底没关系。
但我后来发现,这玩意儿最能唬人。最深刻的一次教训是,我发现店里某款零食的差评数和快递公司的发货速度也有很强的相关性,我当时想都没想,就觉得是快递慢导致了差评。结果挨个打电话回去问才知道,那批货本身质量就有问题,快递慢是因为那几天那片区下大雨。这就是老手常说的,相关不代表因果。两个事儿看着挺同步,不代表是其中一个带动的另一个,可能背后还有个“黑手”在同时影响它们。
我悟出的土道理
搞明白了correlation之后,我再看数据就没那么心慌了。它就是个“预警器”。当你发现两个数据走势特别像的时候,它是在提醒你:这俩货可能有故事,你得留神去查查背后的原因。但千万别盯着个系数就拍脑门下那样容易带坑里去。
不管是做生意还是平时看新闻,多留个心眼看看这些数据的连带关系,比瞎猜要靠谱得多。我现在看那些复杂的报表,第一反应就是先把这两组数对比一下,看看它们是不是在“跳双人舞”。如果是,那这一块业务准有规律可循;如果各走各的,那就没必要浪费精力在那儿死磕了。










