大数据时代莫做数据的“奴隶”
杭州网  发布时间:2024-10-27 17:28   

这是一个信息大爆炸的时代,人们每天都在刷新闻刷视频,时时刻刻都在接触海量的信息,这让人们难以及时评估信息并作出正确决策。

因此数据的重要性便越发重要,毕竟数据是不会骗人的。然而事实真的如此么?

举个简单的例子,A、B两组各10人,数据显示A组平均体重60公斤,B组平均体重80公斤。那么是否可以认为B组都是胖子?答案当然是否定的,还要加上身高才能判断胖瘦,即BMI指数(体重公斤数除以身高米数平方)才能正确地衡量人体胖瘦程度。

也就是说,B组虽然平均体重高,但如果BMI指数低(人均大高个),则B组比A组瘦。

发现陷阱了么?第一重陷阱是简单地用平均数代表个体。第二重陷阱则是开头表明“简单”的例子——先引起人的轻视、极易发现的问题:体重不等于胖瘦——故意卖破绽并主动承认让人放松警惕。“专业”的名词:BMI指数——增加可信度的同时引导人忽略真正问题所在,即平均的胖瘦无法代表个体胖瘦。

通过不断加码正确但又无效的数据,提高人们的信服度,往往会使人们忽略数据与结果仅仅是有关联性而不是决定性的因果关系。

小把戏很容易识破,但不完美的陷阱才能筛选出优质的猎物。

再举个辛普森悖论的例子,某大学历史系和地理系招生如下表所示:

image.png

从上表可知两个系女生录取率都比男生高5%,那么可以说该学校对女生的录取率比男生高么?结果为男女同样是13人,但男生录取了7人而女生录取了6人,女生录取率低于男生。

上面的例子其实只要沉下心来仔细思考就能发现问题,但在现实生活中却有太多数据陷阱等着我们。

古德哈特定律告诉我们:当一个指标被设定为目标时,人们往往会围绕这个目标进行优化,而忽视了目标背后的初衷。

通过避重就轻让数据只展现对自己有利的一面是常用的套路。当要表现商品效果时, 实验设置两组各100人,第一组自然痊愈1人,第二组服用该商品后痊愈2人。宣传:痊愈率提高100%;当要表现飞机安全时,大化小只说飞机失事率极低;当表现飞机危险时,小化大只表明飞机失事时死亡率极高。

有一个钱好挣 、“屎”好吃的故事:甲、乙两个富豪散步遇狗屎,甲对乙说:“你吃了这坨狗屎,我就给你5000万。”成交。后又遇一狗屎,乙对甲说:“你吃,同样5000万。”同样成交。甲乙面面相觑一分未赚,凭空吃屎。此时路过一经济学家丁却说:“你们太了不起了,你们创造了1亿的GDP。”而要辨别丁的对错,需要理解GDP的定义,但百度百科对GDP的详细解读约1.9万字,可谓困难。但不管别人如何,想必甲、乙会是丁的拥护者。

正如《乌合之众》所言:凡是能向他们提供幻觉的都能成为他们的主人。

坚信流量为王者,不深耕内容与产品,沉迷买流量刷数据,到头来产品爆雷、带货翻车、明星塌房。

更有甚者,人为地复杂化数据、设立门槛、神化数据,通过掌握解读权树立权威,进一步掌握定价权。但如果一个数据,来源不可知且大多数人都不明其意,需要少数“专家”解读,那这和封建迷信时代巫祝跳大神解读天意(自然现象)又有什么区别呢?

在大数据时代的浪潮下,面对越来越复杂的世界,我们需要的是用数据摆事实讲道理,而不是“讲故事,吹泡泡”。收集数据时要确保准确性、完整性;分析数据时要选择合适的分析方法,识别并处理异常值;解释数据时要考虑现实背景,保持客观谨慎的态度。

数据应该是帮助人们分析问题总结规律的,应该简单明了而不是定义越来越复杂、名称越来越“高级”、结论越来越脱离大众。我们应当保持求真务实的态度,理性客观地看待与分析数据,要做数据的主人而不是数据的“奴隶”。

(原标题:大数据时代莫做数据的“奴隶”)
来源:杭州网、杭州通客户端  作者:汪浩  编辑:方志华
返回
杭州网·杭州新闻门户网站