导航:首页 > 数据处理 > 如何看待数据陷阱

如何看待数据陷阱

发布时间:2024-03-27 16:53:38

⑴ 正确运用避免陷入大数据的“陷阱”

正确运用避免陷入大数据的“陷阱”
通常,对于新的IT关键词必定会出现“反对派”。最近,“大数据”就成为被攻击的对象,诸如“大数据失败论”等论调也明显增加。
业界对大数据抱着极大的期待,这一点从大量的大数据研讨会和展示会风潮就足以证明。这些年来,除了云计算浪潮,缺乏热烈话题的IT业界而言,大数据是期待已久的大型关键词,也许大数据会成为恢复业界活力的强心剂。

与此同时,日本政府提出新的IT战略--“将行政数据向民间开发,以便不断创造新商务”。也就是说,如何有效利用数据,推动商业成功,业已成为国家战略的一环。
虽然笔者既不是强烈的赞成派也不是反对派,但通过以往的采访经验,对处理数据的难度有着清醒的认识。更何况涉及到大数据,其难度显而易见。
笔者周边很多人对大数据也有着各种不同的看法,提出各种问题。当然这些对于IT业界的读者而言,都是理所当然的事情,笔者说这些也许是班门弄斧了。但是,正是这些众所周知的道理通常也是非常重要不可忽视的。因此,下面笔者将重新提出大数据的“陷阱”,探讨如何才能避免运用大数据的失败。
是否真正需要大量的数据
首先,必须明确的一点是,是否真正需要大量的数据。
在一次活动中,一位统计分析的专家在谈到大数据时说:“本来统计分析学是如何通过少量的取样,去了解事务整体的学问。例如,电视的收视率调查就是一个典型的事例,这类调查就是通过极少的样本,来掌握日本全国的收视状况。如果目的明确,并不需要大量的数据。”
由于上述言论出自目前作为“数据科学家”备受瞩目的统计分析方面的专家之口,让笔者不禁大吃一惊。这就是说,只要有一定量的数据,无关数据数量,分析的结果并不会有很大的差别。如果果真如此,不禁让人产生怀疑,即到底大数据是为何而存在。
听到上述观点,使人感到大数据所面临的矛盾的应当不仅仅是笔者一人。本以为通过大数据分析,满怀期待能够发现以往没有认识到的新的东西,但有时其结果不过是已有所知的事实而已。如果企业为系统开发投入数十亿日元,得出的不过是证明资深职员“经验”的结论,这也未免让人难以接受。
正因为如此,就有必要重新考虑为何需要大数据这一问题。例如,企业需要明确通过将有交易往来的公司和社交媒体等本企业外的大量数据进行组合,是为达到何种目的等,即有必要事先制定大数据的目标。
数据的“质量”有无问题
第二点是由谁来维护大量的数据,即数据的“质量”如何能够得到保障。
笔者曾听说这样一件事。某企业的总经理每个月都会收到有交易往来的IT供应商的宣传(PR)杂志,但收件人的头衔不是“总经理”,而是他曾经兼任公司CIO时的头衔“常务董事”。虽然将头衔搞错,但还是都能收到,因此并没有太在意。但当这家IT供应商的总经理到公司进行礼节性拜访时,就提出了希望改一下头衔的想法。
而这家IT供应商的新的卖点是大数据,公司的总经理当场表示回去马上会进行修改。起初以为这点事情对于运营大数据业务的IT供应商而言不过是举手之劳,一定会进行纠正。但是,等到下一个月他收到的的PR杂志时,发现收件人的头衔仍然是“常务董事”。这位总经理通过两本PR杂志感到仿佛看到了大数据的现状,因此他非常失望地说:“归根到底IT供应商并没有维护顾客数据库”。
上述例子虽然是顾客数据,而不仅仅是顾客数据,说到大数据必然还需要处理很多各种各样的企业外部的数据。但是,这些数据是否是最新数据,其数据的精确度又如何等数据的“质量”就会非常重要。分析出处不明的数据将毫无意义。如果顾客数据不能随时进行维护,也就不会产生任何价值。不应当将当初以为是宝山的大数据,变成一座堆满垃圾的山。
是否忽视了现场职工的工作干劲
第三点就是企业不仅应当努力培养数据科学家,同时也需要提升现场职员的分析数据的能力。如果在店头等现场直接接触顾客的员工变得“擅长数字”,他们也能够常常通过数据考虑事情并进行判断,这样的企业必定会强大起来。
例如,有一家超市的店头销售员就从与顾客的对话中得到启发,通过购进新的商品或是改变商品陈列的方法,提升了销售额。又比如,在特快列车上负责销售的员工,发现似乎“可吸烟座位的咖啡畅销”,当他整理出不同列车的销售业绩,结果发现确实是如此。于是决定在吸烟车厢集中推销咖啡,结果咖啡的销售量明显增加。
当然,通过现场增加的销售额,也许和利用大数据获得的销售数字相比很小,而且其分析能力也远远不及数据科学家。但是即便如此,如果通过将这种方式横向拓展到其他现场,积累的数字也会非常可观。同时,最为重要的是,这种方式能够提升现场员工的工作动力。
实际上,某零售企业自从将其销售分析统一由总公司实施后,店头员工就失去干劲,甚至出现退职的员工。这说明只依靠上级的指令,则会降低现场的职业道德。因此,这家公司决定给予现场员工自由分析判断的职能,由此店头又重新恢复了活力。虽然大数据非常重要,但是如果将权限集中在某些部门,则会导致现场丧失工作干劲。
以上三点实际上不仅仅对大数据而言非常重要,而且同时适用于整个信息系统。大数据是IT业界期待已久的关键词,为使其成长壮大,就需要脚踏实地的努力,而不应被其华丽的部分所束缚摆弄。正因为如此,笔者认为提出的上述三点需要重新铭记心中。

⑵ 为什么统计数据有时会“撒谎”

你知道该如何看待统计数据,以避免被数据愚弄吗?

收集统计数据是一项复杂而又精细的工作,每一步都有出错的可能。即使所有的细节都万无一失,最终得到的数据里也会隐藏大量的陷阱。如果盲目地对统计数据进行分析,有时会得出一些甚为荒谬的结论。

统计学家曾经调查过铀矿工人的寿命,其结果让人大跌眼镜:在铀矿工作的工人居然与普通人的寿命相当,有时甚至更长!难道统计结果表明在铀矿工作对身体无害甚至有益吗?当然不是!事实上,只有那些身强体壮的人才会去铀矿工作,他们的寿命本来就可能长一些;正是因为去了铀矿工作,才把他们的寿命拉低到了平均水平,造成了数据的伪独立性。这种现象常常被称为健康工人效应。

类似地,有数据表明打太极拳的人和不打太极拳的人平均寿命相当。事实上,打太极拳确实可以强身健体,延长寿命,但打太极拳的人往往体弱多病,这一事实也给统计数据带来了虚假的独立性。

有虚假的独立性数据,就有虚假的相关性数据。统计数据显示,去救火的消防员越多,火灾损失越大。初次听到这样的结论,想必大家的反应都一样:这怎么可能呢?仔细想想你就明白了:正是因为火灾灾情越严重,损失会越大,所以才会有更多消防员去救火。这里的因果关系弄颠倒了。数据只能显示两个事情有相关性,但并不能告诉你它们内部的逻辑关系。

事实上,两个在统计数据上呈现相关性的事件,甚至有可能根本就没有因果关系。统计数据表明,冰激凌销量增加,鲨鱼食人事件也会同时增加。但这并不意味着,把冰激凌销售点全部取缔了,就能减小人被鲨鱼吃掉的概率。真实的情况是,这两个变量同时增加只不过是因为夏天到了。又如,统计数据显示,篮球队的获胜率,竟然与队员的球袜长度成正比。难道把队员的球袜都换长一些,就能增加球队实力吗?显然不是。数据背后真正的因果关系是,球队的获胜概率和队员的球袜长度同时受第三个因素——队员身高——的影响,这导致了获胜概率与球袜长度之间表现出虚假的相关性。

类似的例子还有很多。如果观察大气层二氧化碳的含量变化和肥胖症人口的数量变化,会发现一个非常有趣的现象:在1950年左右,两者都出现了一次非常剧烈的增长。但科学研究并没有发现,二氧化碳含量的增加会导致人类出现过度肥胖的趋势。事实上,这个数据背后的真实原因是,20世纪50年代,汽车产业形成了一定的规模,尾气排放导致大气中的二氧化碳含量陡然增加;同时,人们也更多地用汽车代步,活动的时间越来越少,自然就越来越胖了。

可见,要想从统计数据中挖掘出正确的结论,并不是一件容易的事。如果只从表面上观察数据,往往会得到一些错误的信息。正如着名作家马克·吐温所言:“世上一共有三种谎言:谎言,糟糕的谎言,还有统计数据。”

⑶ 大数据分析的四类陷阱

大数据分析的四类陷阱

科技领域的人们正摩拳擦掌以迎接大数据(Big Data)时代的到来。大数据技术的本质是能够对数十亿的信息进行分析,从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来,其它行业只要具备合适的工具,就能对社会网络进行数据分析。但是事情并非如此简单。首先,分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于,它提升了分析的速度,扩展了数据规模,使小型企业也能使用这种技术。而另一方面,大数据也会造成更严重的错误。针对上例,普林斯顿大学就得出了不同的研究结论:Twitter并不能真的预测票房成绩。对同一个问题,研究者怎么会得出相反的结论呢?我们来看一下数据分析中最常见的四类陷阱。1、样本缺乏代表性大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是:统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高,其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房,其统计结论可能就不会合理了。提示:确保你得到的样本数据代表了研究总体。否则,你的分析结论就缺乏坚实的基础。2、事物是变化的对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果,但这还不够。你应该进行后续实验看能否得到相同的结果,还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候,这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔,在这段时间中Twitter用户有可能发生了改变。同样的道理,如果观察到公司的增长速度发生变化,这有可能是客户群的情绪变化,也可能是使用了错误的数据收集或分析方法。提示:不要只进行一次分析。要定期验证你之前的结论。3、理解数据方式不同惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型,来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术,来研究在三个不同时间段(影片上映之前、期间或观影后)用户的推文情绪特征(正面或负面)。也就是说,这两个研究团队都表示,他们在研究Twitter的预测能力。但实际上,他们除了使用twitter数据之外还利用了其它数据资源,例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起,它或许是预测票房成功的一种影响因素,这要取决于研究人员如何理解和使用它。提示:一组数据可以提供多种类型的信息。你需要找到不同的解释方式,并加以分析4、错误和偏差人会犯各种错误。有可能是某个研究小组出现了某个错误。例如试图将所有的推文都归为正面或负面的情绪,这种方法也许有些粗糙。又或许研究人员不自觉地选择数据,以支持他们的论点。例如普林斯顿大学研究人员假设,是推文本身而非推文的数量,蕴含着消费者的情绪表达。提示:不要只使用一种方法。用事实来检验你的假设是否奏效。大数据技术能很好的改善企业产品和服务,并更好地满足市场。但是,信息需要人来解释,而人的错误有时是致命的。所以大数据是一柄双刃剑,成功与否还得看持剑人的功力。

以上是小编为大家分享的关于大数据分析的四类陷阱的相关内容,更多信息可以关注环球青藤分享更多干货

⑷ 怎样有效识别数据分析模型中的认知陷阱

避免误导:怎样识别数据中的认知陷阱?

这一篇看看怎么防止别人操纵数据来误导我们。

首先要澄清一点,虽然我们使用了“操纵数据”这个说法,但是我们不关心动机问题,到底是有意欺骗、存心误导,还是水平不够犯了错误,我们不做判断和分别。

我们就是从数据思维的角度,看看如何防止被误导,不管对方是有意的,还是无意的。

还要澄清的一点是,我们这里讨论的都是数据是真实的,只是被错误的使用,造成了误导,不包括伪造数据的情况。

举个例子:

有一家印度的承包商接受印度政府的委托,负责为难民提供食物保障,包括提供日用品和生活保证品。

但是,由于没有难民的确切人数,所以这家承包商说要多少钱,政府就得掏多少钱。可是支出看起来实在是太大了,于是就有人建议请统计学家帮忙。

统计学家瞄准了三样东西——大米、豆类食品和盐。

如果一个人群的人数是稳定的,那么这三种食品的消费量就是基本稳定的,因此它们可以交叉印证。结果发现,盐估计出来的人数最少,大米估计出的人数最多。因为盐的价格低、总量少,所以没有人在这个地方夸大。而大米价格高、总量大,所以就有动机在这个地方做假账。

这个案例就是通过伪造数据来达到非法的目的,是技术水平最低的骗子。这就不属于我们在这里讨论的内容。

利用真实的数据,通过各种操作手段误导人,才是技术含金量比较高的工作。我们在这里主要讨论这个方向。

通过操纵数据来误导受众大致有三个方向,分别是操纵数据的使用、操纵数据的产生和操纵数据的解释。

操纵数据的使用――

这方面的案例太多了,给你举几个例子:

用平均数掩盖分布:

“某公司有3003名股东,平均每人持股660股。”误导你的真相是这样的:公司总共200万股,其中3名大股东持有3/4,其余3000人总共持有1/4。

用百分比掩盖规模:

“霍普金斯大学1/3的女生嫁给了大学老师。”但其实,总共只有3名同学录取,其中1个人嫁给了老师。

用短期波动代替长期效应:

“卫生部最新公布,大雾的一周内伦敦市郊的死亡人数猛增至2800人。”这是因为大雾带来的吗?这个地方平均死亡人数如何?接下来的几周死亡人数又是如何?

遗漏变化的原因:

“最近25年,癌症死亡人数增多。”听起来吓人,但其实很多因素更有解释力。比如,以前很多病因不明的案例现在被确诊为癌症;尸体解剖成为常用方法,便于明确诊断;医学统计资料更全面;易发病年龄段人数增多。还有,现在的人数远远超过从前。

偷换概念――

“某议员提议:我们可以让囚犯离开监狱,去住酒店,这样反而更便宜。因为囚犯一天的费用是8美元,而住酒店只要7美元。”但其实,这里的8美元指囚犯所有的生活费,但是议员拿来比较的仅仅是住酒店的房租。

定义不统一:

几家平台都说自己流量第一,证据是平台播出的电视连续剧收视率第一。但是,各家的定义不一致,有的用平均收视率,有的用单集最高收视率,有的用首播重播合计收视率。

忽略测量误差――

“李蕾的智商101,韩梅梅智商99,所以李蕾比韩梅梅聪明。”但是,任何测量都有误差,结果应该加上一个区间,比如±3%。这样,李蕾和韩梅梅的智商范围有重合,不能断定谁比谁聪明。

差别过小没有现实意义:

“某次大规模的智商测试结果,男生平均106.1,女生平均105.9。”即使这个差异在统计上存在,由于差异过小也没有现实意义。

参照对象不清――

“这款榨汁机的榨汁功能增强了26%。”这是跟谁比?如果是跟老式手摇榨汁机比呢?

比较时忽略基数:

“高速公路晚上7点的事故是早上7点的4倍,所以早上出行生还几率高4倍。”其实,晚上事故多,只是因为晚上高速公路上的车和人更多。

对象不同强行比较――

“美国和西班牙交战期间,美国海军的死亡率是9‰,同时期纽约市居民的死亡率是16‰,所以海军士兵更安全。”其实,这两组对象不可比。海军主要是体格健壮的年轻人,而城市居民包括婴儿、老人、病人,这些人在哪里死亡率都高。

变换基数让人产生幻觉:

50%折扣再打20%折扣,会让你以为有70%的折扣。实际上,折扣只有60%,因为后面20%的折扣是用5折后的价格计算的。

用数字游戏控制听众感觉:

投资回报率第一年为3%,第二年为6%。下面两个说法都是对的:1.提高了3个百分点;2.增长高达100%。怎么呈现,取决于你要让听众感受到什么。

操纵数据的产生――

这方面的案例也很多,比如:

算法采用的规则有差异:

试验用两种算法来判断交通违规行为:一种是“严格遵守法律条文”,简称条文版,车速一过线就开罚单。另一种是安全原则,如果车速在当时的状况下是安全的,就不判罚。比如周围没有车,或者大家速度都很快,你慢下来就是一个移动的石头,反而对安全不利。这种规则能“准确反映法律意图”,因此简称意图版。

试验做下来,同样的交通状况,条文组的算法开出了500张罚单,而意图组的算法只开出了1张罚单。你说,交通违规的现象是严重还是不严重呢?

实验条件设置错误:

有一份得了省级奖的论文,说阿胶的营养效果好,做法是先把老鼠搞到营养不良,然后给老鼠吃阿胶,结果各种数据都优于对照组。看起来,阿胶似乎真的有效,但是一看对照组,只给那些营养不良的老鼠喝清水。这相当于给东西吃和不给东西吃的区别,而不是阿胶和普通营养方式的区别,实验结论当然不可靠。

为了防止杠精,强调一下,是说这篇论文的结论不可靠,不是讨论阿胶有没有营养。

提问的次序影响回答者的选择:

调查显示,向女性调查时,如果先提问关于服装广告的问题,再问一般性广告的问题,女性对广告的态度就更多是正面的。

向一般人调查,类似的次序问题也存在。比如,先问婚姻生活是不是幸福,再问整体生活是不是幸福,回答者会自动把自己婚姻生活的感受排除,评价整体生活。反过来则相反。

操纵数据的解释――

还是举几个例子给你感受一下:

归因错误:

一位飞行教官非常自信地说,“批评使人进步,表扬使人退步。”因为教官发现,只要他表扬了学员,第二天学员的表现肯定会变差,批评学员就会反过来,第二天的表现会更好。

实际上,这是一个回归现象。如果今天学员达到了被表扬的程度,就说明他今天的表现超过了自己的平均线,第二天向自己的平均水平回归是正常的。

因果关系不成立:

在印度,研究人员发现,看电视的人对男女平等的态度更加积极。这指示我们应该普及电视来改变印度农村地区对女性的态度吗?

真实的情况是,教育程度好的人才买得起电视,而教育程度好的人对男女平等的态度更开明。经常看电视与男女平等积极的态度之间不是因果关系,而是伴随关系。

理论适用错误:

网上有段子说,汉朝是8000人养1个公务员,唐朝是3000人,明朝是2000人,清朝是1000人,而今天是18个人,暗示这个时代的公务员太多了。

这个错误是没有条件地按比例放大或缩小。随着人口规模的上升,公共服务需要的人数不是按线性比例增加的,应该是按几何程度增加的。只有在合理的理论框架下,才能评价18个人养1个公务员是多还是少……

与如何看待数据陷阱相关的资料

热点内容
数据专业课程有哪些 浏览:647
产品设计策划案怎么写 浏览:529
大数据做什么代理好 浏览:1000
已经提交的信息如何修改 浏览:781
物流一级代理商是什么意思 浏览:156
高新技术类产品指的是哪些 浏览:122
雪球上如何导出自选股数据 浏览:468
电脑和手机传输数据怎么设置 浏览:337
早春养蜂有什么技术 浏览:237
数据流转哪个好 浏览:357
福建有哪些大的市场 浏览:888
电子应用技术委培生怎么样 浏览:80
祥天上市了股票多久能交易 浏览:619
wub软件技术是什么 浏览:500
如何实现技术自助 浏览:993
医学影像ai需要做哪些数据准备 浏览:963
上城区代理记账公司一年多少钱 浏览:404
cad程序去哪里弄了 浏览:133
云南机电职业技术学院哪些专业在经贸校区 浏览:316
交易猫安全性怎么看 浏览:919