实时分析的障碍

已发表: 2016-08-30
目录显示
网络爬取和数据提取产生的大数据分析
这些年来数据分析是如何发展的?
实时数据分析的需求
实时数据分析的挑战
总结

大数据在多个层面为多个行业的企业提供价值。 以零售业为例。 该行业正在努力应对日益复杂的生态系统,其需求和偏好每时每刻都在变化。 客户对更快的服务交付、更高的质量和更低的价格的三重需求,使得大数据成为应对这些需求并适当满足它们的武器,以避免收入损失。

实时分析的障碍

满足这些需求的第一步是了解客户对特定品牌的评价。 这将帮助零售商确定客户的需求。 在专业数据提取公司提供的有针对性的网络爬虫的帮助下,公司现在有能力从潜在的数百万网页和社交媒体平台中提取数据,效果非常好。

网络爬取和数据提取产生的大数据分析

下一步是对通过网络爬虫收集的数据进行分析。 这将帮助数据科学家和营销经理了解客户的需求、需求、偏好和选择。 因此,零售行业的决策者可以迅速采取行动,填补需求缺口或调整产品种类,以满足客户的需求。 但是,当您有数百万行数据可供分析时,数据分析将不是一件容易的事。 根据Gartner 的说法,未来 5 年数据将以前所未有的 800% 的速度增长,并且 80%​​ 的数据将是非结构化的。 因此,对大数据分析的需求只会在未来几年内爆炸式增长。

这些年来数据分析是如何发展的?

虽然数据分析已经存在很多年了,但现在数据进入的规模和速度给数据科学家和分析师带来了问题。 正如沃尔玛全球电子商务高级副总裁兼联合创始人@WalmartLabs 的Anant Rajaraman所说:“很多人都知道如何处理数据,但现在数据量越来越大,所以你可以做的事情越来越多。使用它和使用它的方式可能会大不相同...... [用于大数据的] 工具非常不同。 预测分析的许多基本算法都非常依赖于将数据保存在主内存中,并使用单个 CPU 来访问它。 大数据打破了这种状况。 数据不可能同时在内存中,因此需要以分布式方式处理。 这需要一个新的编程模型。

实时数据分析的需求

如果我们回顾几年,实时分析的优势在数字营销人员的计划中严重缺失。 这种限制给广告商、营销经理和决策者带来了多方面的问题 尽管他们使用的统计数据只有几天或几周的时间,但由于大数据的巨大速度,这段时间足以使数据过时。 这就产生了对更快地获取洞察力并在更短的时间内完成分析的需求。

大数据提供的价值足以让公司寻找更快的数据分析结果和洞察力。 作为 EMC 拥有的 Greenplum 的首席技术官,Duke Lonergan 说:“每家企业都在寻找与客户建立更紧密联系的方法,以改进预测并推动他们沿着发展轨迹前进。 我们看到了围绕大数据的某种紧迫性。

这表明商业和技术世界越来越倾向于实时大数据分析,这些数据是从该领域专家的网络爬虫和数据提取能力中提取的实时数据。 在实时数据分析的帮助下,营销经理和高级管理人员可以实时查看各种绩效指标,例如,有多少人在看特定产品,有多少人在网上响应产品,有多少人在实际购买它。 对于一家公司来说,它有助于根据人们实际谈论的内容以及当时的趋势来增加或减少他们的数字支出。 优化数字支出有助于品牌加强与客户的关系并建立长期品牌价值。

实时数据分析的挑战

然而,虽然实时数据分析在理论上可能看起来很棒,但在实际设计和交付中变得有点复杂。 在数据提取公司执行的网络爬虫的帮助下生成的实时数据分析基本上应服务于以下目标:

  • 长期分析数据,以帮助发现模式和解锁值得了解的趋势
  • 创建用于预测未来的模型或设计控制系统
  • 帮助关联看似无关的参数。 例如,可以通过检查有关加速度和速度的物联网传感器数据等参数来探索对驾驶行为的更多见解。

很明显,在实时分析的投资回报率变得有吸引力之前,还有很多重大挑战需要克服。 以下是一些主要挑战——

  1. 对遗留系统的依赖:几年前——大约在 2009 年,一个简单的查询和发现数据来回答查询需要很多时间。 假设您有一个查询“有多少客户正在通过 Android 手机浏览我的网站”,获得此查询答案的第一步是改进数据仓库中的模式。 这一步本身平均需要几个月的时间。

因此,数据管理员的普遍趋势是在设计模式和仓库时预先找出问题,以便在实际遇到查询时能够回答问题。 但是,在动态环境中,这不再是可行的情况。 因此,依赖遗留系统而不升级到面向未来的实时数据分析工具(如 Vertica、Hive 和 MapReduce)是实时分析数据的一大障碍

  1. 今天的速度有多快:技术环境的改进确保了过去需要数月、数周和数天的整个分析过程,现在只需几分钟、几秒钟和几微秒。 数据科学家只需要想到一个查询和中提琴! 他们几乎没有时间就将实验结果和假设摆在他们面前。 更短的数据分析处理时间现在导致期望值增加。

正如Cloudera 的高级产品经理 Justin Erickson 所说,“这是关于以更快的速度解决以前未知的问题,定义新的见解,并缩短世界某地发生事件与有人对该事件作出响应或反应之间的时间。 ” 因此,对缩短数据分析和洞察生成时间的需求日益增加,这成为通过实时数据分析提供价值的障碍。

  1. 决策制定:可以肯定的是,技术、流程和人员现在能够通过数据提取网络爬取快速收集数据 他们现在还可以实时使用和分析数据。 然而,在基于数据分析采取行动和做出决策时,我们的表现如何? 这里有两种选择——
  • 以人为本——高级人员或决策者查看分析结果,然后根据这些见解和可视化做出决策的传统方法
  • 自动化系统——自动化过程可以帮助根据特定结果集做出决策,而无需等待人们进行干预。

很明显,拥有一个自动化系统将有助于提高实时数据分析和后续决策过程的效率。 然而,它无法匹配决策过程中所采取行动的可信度,这使得以人为中心的决策占据了上风。 这又是提高实时数据分析效率的障碍。

  1. 文化转变:实时分析可用且可访问也将影响公司当前的运作方式。 实时洞察力将淹没那些习惯于每周进行一次或两次洞察力的公司。 想象一下,如果一家公司在每周一次的洞察行动采取方法上建立了人员、流程和绩效指标? 由于实时数据分析,当洞察力开始每天而不是每周出现时,指标、生产力和性能会发生什么变化?

如果没有以战略方式规划过渡,结果将是混乱。 这是因为每天每秒钟接收并根据见解采取行动将需要不同的文化和方法,而不是每周根据见解采取行动的传统方法。 在企业工作场所采用实时数据分析的这种文化障碍也并不少见。

总结

总而言之,实时大数据分析提供的巨大价值主张将有助于推动当今的主要行业部门在为客户提供满意服务方面超越竞争并获得竞争优势。 前提是他们能够令人满意地应对挑战。

计划从网络获取数据? 我们是来帮忙的。 让我们知道您的要求。