数据提取和可视化之间发生了什么
已发表: 2017-08-08大数据在过去十年中显示出惊人的增长,它作为增长催化剂被企业广泛应用,继续产生积极的结果。 数据规模巨大,数据的数量、速度和种类需要更有效的处理以使其机器就绪。 尽管有多种方法可以提取数据,例如公共 API、自定义 Web 抓取服务、内部数据源等,但始终需要进行一些预处理以使数据完全适合业务应用程序。

数据预处理涉及一系列需要大量计算基础设施的关键任务,而这反过来又将为您的大数据策略带来更好的结果。 此外,数据的清洁度将决定分析的可靠性,在制定数据策略时应优先考虑这一点。
数据预处理技术
由于提取的数据往往具有冗余和缺陷,因此数据预处理技术是绝对必要的。 数据集越大,在分析和可视化之前需要更复杂的机制对其进行处理。 预处理准备数据并使分析可行,同时提高结果的有效性。 以下是数据预处理中涉及的一些关键步骤。
数据清理
清理数据通常是数据处理的第一步,用于删除不需要的元素并减少数据集的大小,这将使算法更容易对其进行分析。 数据清理通常通过使用实例缩减技术来完成。
实例减少有助于减少数据集的大小,而不会影响可以从数据中提取的洞察质量。 它删除实例并生成新实例以使数据集紧凑。 有两种主要的实例减少算法:
实例选择:实例选择用于从具有许多实例的非常大的数据集中识别最佳示例,以便将它们作为分析系统的输入进行管理。 它旨在选择一个数据子集,可以作为原始数据集的替代品,同时完全实现目标。 它还将删除冗余实例和噪音。
实例生成:实例生成方法涉及用人工生成的数据替换原始数据,以填充主数据中没有代表性示例的问题域中的区域。 一种常见的方法是重新标记似乎属于错误类别标签的示例。 因此,实例生成使数据变得干净并为分析算法做好准备。
您可以使用的工具: Drake 、 DataWrangler 、 OpenRefine

数据标准化
规范化通过调整分布来提高数据的完整性。 简而言之,它将每一行归一化以具有单位范数。 范数由参数 p 指定,该参数表示使用的 p 范数。 一些流行的方法是:
StandardScaler:进行归一化,使每个特征服从正态分布。
MinMaxScaler:使用两个参数将每个特征标准化到特定范围——上限和下限。
ElementwiseProduct:使用标量乘数来缩放每个特征。
您可以使用的工具:表格分析仪、 BDNA
数据转换
如果一个数据集的实例或预测变量的数量太大,就会出现维度问题。 这是一个关键问题,它将阻碍大多数数据挖掘算法的运行并增加处理成本。 通过降维进行数据转换有两种流行的方法——特征选择和空间转换。
特征选择:这是发现和消除尽可能多的不必要信息的过程。 FS 可用于显着降低学习算法中可能降低其泛化能力的意外相关的概率。 FS 还会削减特征占用的搜索空间,从而使学习和挖掘的过程更快。 最终目标是从能很好地描述它的原始问题中导出一个特征子集。
空间变换:空间变换的工作方式类似于特征选择。 然而,空间变换技术不是选择有价值的特征,而是通过组合原始特征来创建一组新的特征。 可以使这种组合服从某些标准。 空间变换技术最终旨在利用变量之间的非线性关系。
可以使用的工具: Talend 、 Pentaho
缺失值插补
大数据的常见假设之一是数据集是完整的。 事实上,大多数数据集都有经常被忽视的缺失值。 缺失值是由于预算限制、采样过程错误或数据提取过程中的其他限制而未提取或存储的数据。 缺失值不容忽视,因为它可能会扭曲您的结果。
修复缺失值问题具有挑战性。 不加注意地处理它很容易导致数据处理的复杂性和错误的结论。
有一些相对有效的方法可以解决缺失值问题。 丢弃可能包含缺失值的实例是常见的,但它不是很有效,因为它可能导致统计分析中的偏差。 除此之外,丢弃关键信息并不是一个好主意。 更好和更有效的方法是使用最大似然程序对数据的概率函数进行建模,同时还要考虑可能导致缺失的因素。 到目前为止,机器学习技术是解决缺失值问题的最有效方法。
噪声识别
数据收集并不总是完美的,但数据挖掘算法总是假设它是完美的。 带有噪声的数据会严重影响结果的质量,解决这个问题至关重要。 在大多数情况下,噪声会影响输入特征、输出或两者。 在输入中发现的噪声称为属性噪声,而如果噪声蔓延到输出中,则称为类噪声。 如果输出中存在噪声,则问题非常严重,结果的偏差会非常高。
有两种流行的方法可以从数据集中去除噪声。 如果噪声影响了实例的标注,则使用数据抛光的方法来消除噪声。 另一种方法涉及使用噪声过滤器,该过滤器可以从数据中识别和去除带有噪声的实例,这不需要修改数据挖掘技术。
最小化预处理任务
根据应用程序的独特需求,为您的数据分析算法准备数据可能涉及更多过程。 但是,如果您选择正确的数据提取源,则在大多数情况下可以避免清理、重复数据删除和规范化等基本过程。 原始数据源极不可能为您提供干净的数据。 就 Web 数据提取而言,像 PromptCloud 这样的托管 Web 抓取服务可以为您提供干净且随时可用的数据,这些数据已准备好插入您的分析系统。 由于我们的 DaaS 解决方案提供的数据是干净的,您可以为特定应用程序的数据处理任务节省最大的努力。
