數據提取和可視化之間發生了什麼
已發表: 2017-08-08大數據在過去十年中顯示出驚人的增長,它作為增長催化劑被企業廣泛應用,繼續產生積極的結果。 數據規模巨大,數據的數量、速度和種類需要更有效的處理以使其機器就緒。 儘管有多種方法可以提取數據,例如公共 API、自定義 Web 抓取服務、內部數據源等,但始終需要進行一些預處理以使數據完全適合業務應用程序。

數據預處理涉及一系列需要大量計算基礎設施的關鍵任務,而這反過來又將為您的大數據策略帶來更好的結果。 此外,數據的清潔度將決定分析的可靠性,在製定數據策略時應優先考慮這一點。
數據預處理技術
由於提取的數據往往具有冗餘和缺陷,因此數據預處理技術是絕對必要的。 數據集越大,在分析和可視化之前需要更複雜的機制對其進行處理。 預處理準備數據並使分析可行,同時提高結果的有效性。 以下是數據預處理中涉及的一些關鍵步驟。
數據清理
清理數據通常是數據處理的第一步,用於刪除不需要的元素並減少數據集的大小,這將使算法更容易對其進行分析。 數據清理通常通過使用實例縮減技術來完成。
實例減少有助於減少數據集的大小,而不會影響可以從數據中提取的洞察質量。 它刪除實例並生成新實例以使數據集緊湊。 有兩種主要的實例減少算法:
實例選擇:實例選擇用於從具有許多實例的非常大的數據集中識別最佳示例,以便將它們作為分析系統的輸入進行管理。 它旨在選擇一個數據子集,可以作為原始數據集的替代品,同時完全實現目標。 它還將刪除冗餘實例和噪音。
實例生成:實例生成方法涉及用人工生成的數據替換原始數據,以填充主數據中沒有代表性示例的問題域中的區域。 一種常見的方法是重新標記似乎屬於錯誤類別標籤的示例。 因此,實例生成使數據變得乾淨並為分析算法做好準備。
您可以使用的工具: Drake 、 DataWrangler 、 OpenRefine

數據標準化
規範化通過調整分佈來提高數據的完整性。 簡而言之,它將每一行歸一化以具有單位範數。 範數由參數 p 指定,該參數表示使用的 p 範數。 一些流行的方法是:
StandardScaler:進行歸一化,使每個特征服從正態分佈。
MinMaxScaler:使用兩個參數將每個特徵標準化到特定範圍——上限和下限。
ElementwiseProduct:使用標量乘數來縮放每個特徵。
您可以使用的工具:表格分析儀、 BDNA
數據轉換
如果一個數據集的實例或預測變量的數量太大,就會出現維度問題。 這是一個關鍵問題,它將阻礙大多數數據挖掘算法的運行並增加處理成本。 通過降維進行數據轉換有兩種流行的方法——特徵選擇和空間轉換。
特徵選擇:這是發現和消除盡可能多的不必要信息的過程。 FS 可用於顯著降低學習算法中可能降低其泛化能力的意外相關的概率。 FS 還會削減特征占用的搜索空間,從而使學習和挖掘的過程更快。 最終目標是從能很好地描述它的原始問題中導出一個特徵子集。
空間變換:空間變換的工作方式類似於特徵選擇。 然而,空間變換技術不是選擇有價值的特徵,而是通過組合原始特徵來創建一組新的特徵。 可以使這種組合服從某些標準。 空間變換技術最終旨在利用變量之間的非線性關係。
可以使用的工具: Talend 、 Pentaho
缺失值插補
大數據的常見假設之一是數據集是完整的。 事實上,大多數數據集都有經常被忽視的缺失值。 缺失值是由於預算限制、採樣過程錯誤或數據提取過程中的其他限製而未提取或存儲的數據。 缺失值不容忽視,因為它可能會扭曲您的結果。
修復缺失值問題具有挑戰性。 不加註意地處理它很容易導致數據處理的複雜性和錯誤的結論。
有一些相對有效的方法可以解決缺失值問題。 丟棄可能包含缺失值的實例是常見的,但它不是很有效,因為它可能導致統計分析中的偏差。 除此之外,丟棄關鍵信息並不是一個好主意。 更好和更有效的方法是使用最大似然程序對數據的概率函數進行建模,同時還要考慮可能導致缺失的因素。 到目前為止,機器學習技術是解決缺失值問題的最有效方法。
噪聲識別
數據收集並不總是完美的,但數據挖掘算法總是假設它是完美的。 帶有噪聲的數據會嚴重影響結果的質量,解決這個問題至關重要。 在大多數情況下,噪聲會影響輸入特徵、輸出或兩者。 在輸入中發現的噪聲稱為屬性噪聲,而如果噪聲蔓延到輸出中,則稱為類噪聲。 如果輸出中存在噪聲,則問題非常嚴重,結果的偏差會非常高。
有兩種流行的方法可以從數據集中去除噪聲。 如果噪聲影響了實例的標註,則使用數據拋光的方法來消除噪聲。 另一種方法涉及使用噪聲過濾器,該過濾器可以從數據中識別和去除帶有噪聲的實例,這不需要修改數據挖掘技術。
最小化預處理任務
根據應用程序的獨特需求,為您的數據分析算法準備數據可能涉及更多過程。 但是,如果您選擇正確的數據提取源,則在大多數情況下可以避免清理、重複數據刪除和規範化等基本過程。 原始數據源極不可能為您提供乾淨的數據。 就 Web 數據提取而言,像 PromptCloud 這樣的託管 Web 抓取服務可以為您提供乾淨且隨時可用的數據,這些數據已準備好插入您的分析系統。 由於我們的 DaaS 解決方案提供的數據是乾淨的,您可以為特定應用程序的數據處理任務節省最大的努力。
