CPDA数据分析师讲堂:如何避免大数据项目的危害

一些组织并不仅仅是为了增强现有系统来处理大数据

相反他们将其现有系统替换为使用Hadoop生态系统技术和/或基于云的数据平台构建的大数据湖,您如何避免陷阱和危害,从而可以利用大数据来获得更多的客户见解,改善运营并实现其他关键目标?您可以立即开始大数据项目,然后对其进行管理以更快,更轻松地实现目标,与许多项目一样,如果知道前进的方向,则可以缩短实现价值的时间,以便更快地实现收益。

研究指出了缩短实现价值的时间的两个常见障碍

较差的项目定义和范围以及缺乏熟练的技术人员,根据他的建议,您的团队应仔细定义业务案例,并阐明项目将如何为关键目标做出贡献,例如增加销售和市场份额,降低成本或为合作伙伴或客户提供新产品和服务,一旦知道要去哪里,提供增量收益就很重要,传统的BI和数据仓库项目通常要几个月(或几年)才能交付结果,而此时目标可能已经改变了,通过使用支持业务领导者,分析师,数据科学家,开发人员和数据工程师之间强大的团队合作的敏捷方法,组织可以利用更短的增量开发周期,用户可以根据中间交付成果进行合作并提供反馈,并相应地调整项目。

制定项目计划时,请考虑使用蓝图和模板

而不是从空的画布开始,其中的许多蓝图和模板都是免费提供的,这些概述可防止您在制定可靠的计划之前就投资技术,并帮助您处理大数据项目的复杂性和细节,模板和蓝图还支持重复使用经过验证的流程和例程,从而避免不必要地重新发明轮子,从而可以节省组织的时间和金钱, 通常可以对它们进行自定义以适应您的特定需求和目标,优化技术平台以进行数据摄取和转换,释放大数据平台的潜在价值,以及如何利用集中化各种数据来支持创新应用程序。

建议您的企业将数据治理和管理工作放在优先位置,而不是事后考虑

信息治理要求我们辨别信息及其来源背后的意图,而不是识别数据治理所要求的技术来源和处理的光头事实,研究一下这种看似矛盾的陈述如何在自己的领域中应用。结果可能是我们在现代数字业务中捕获和处理的通常质量较差的数据量不断增加的信息治理领域的新见解,每天我们创建2.5兆字节的数据-如此之多的数据中有90%仅在过去的两年中就创造了今天的世界,我相信您在过去几年中已经多次看到此声明,我知道我有 我很好奇:如果我们生活在一个“呈指数”增长的数据量世界中,那么每天2.5兆字节的数据必须追溯到特定年份。

我去寻找报价的原始研究

该错误信息的影响是相当有限的,除非,当然,除非某些磁盘存储供应商使用它来向您出售一些非常大的设备,实际上如果他们将适当的复合增长率应用于2011年的数字,他们的情况可能会更强,但是朱利安尼似乎很有道理。真理不一定是真理-出于多种原因:错误,粗心大意甚至恶意的虚假信息(所谓的假新闻)。

数据丰富,信息匮乏

不管正确的数字是什么,不可否认的是,当今的业务正在处理来自外部源的海量数据,并且数量在不断增长,这些数据不仅比传统的内部来源的数据大几个数量级,而且还存在各种有时描述不充分的结构,这些结构的可靠性常常令人怀疑,随着这些劣质数据越来越多地推动重要的业务决策,数据科学家和BI专家必须反复问:“是的,但这是真的吗?”挑战来自两个主要方面。第一个且已经是长期存在的关注点与社交媒体有关,后者是人类信息的子集。在过去的五年中,显而易见的是,随着社交媒体的博弈和政治化,社交媒体正越来越不可靠地反映现实世界中的观点和行为。

问题的部分原因是企业提取和分析的统计数据未能反映出在社交媒体上发现的当前人力资源信息的复杂性和细微差别

帖子是来自真人的真实意见,还是有偿帖子或邪恶的机器人农场的产物?我们区分真实信息,错误信息(真正的错误)和虚假信息的能力使那些从扭曲系统中获利的人们的兴趣和动力滞后。数据收集者和其他各方开发的简化但庞大的数据模型推动了大量个人详细信息的收集和使用,这些详细信息旨在提供针对性的广告,这是基于建立在监视之下的互联网业务模型所驱动的。

我们对来自物联网的机器生成数据的最新痴迷提出了第二个挑战

人们普遍认为,由电子传感器生成并通过Internet传递的数据代表着有关物理世界的真相。现实更加混乱,传感器可能有故障或被黑客入侵。通信可能会中断或被拦截。由于数据量和速度远远超过了传统的基于社交媒体的大数据,因此,诱惑是尽可能快速,高效地“处理和破坏”,此外数据科学家经常在不完整的上下文中分析数据,甚至在寻找真相之前就让它们掌握实际的信息内容。

CPDA数据分析师讲堂:如何避免大数据项目的危害CPDA数据分析师

信息治理是对真理的追求

数据治理,一个长期以来被忽视的学科,最近引起了人们的兴趣,因为数据湖的挖掘者终于意识到了它们所造成的沼泽(每天2.5亿字节)。数据目录和元数据存储,业务词汇表和企业数据模型(通常通过机器学习技术来填充)是必不可少的,再次拯救技术,并且及时!问题在于,不需要管理数据,而是需要真正治理的信息。数据治理是必要的,但不足以辨别通往真相的道路,对于数据,根据我们的数据仓库历史记录,我们假设存在“事实的单个版本”,但是当我们考虑信息时,很明显,真理有许多种,有些真正矛盾,有些确实必须调和。

信息治理要求我们辨别信息及其来源的意图

而不是数据治理所要求的技术来源和处理的光头事实,例如,汽车工业已反复证明,其测量燃油效率和排放的目标与监管机构的目标和公众的期望有很大不同,信息治理超越了企业中数据所有者的干and角色和数据管家的质量证明,从而探索了信息如何在企业内外的世界范围内出现并变形为人类影响,现在听起来更有趣!

内容来源:腾讯网

未经允许不得转载:物联网的那些事 - Totiot » CPDA数据分析师讲堂:如何避免大数据项目的危害