監督與無監督機器學習技術 – PromptCloud
已發表: 2017-10-21監督與無監督學習:
通過採用智能算法從數據中發現模式通常是機器學習的核心概念。 這些發現通常會帶來可行的見解、對各種趨勢的預測,並幫助企業獲得競爭優勢,有時甚至為新的創新產品提供動力。 我們最近在這篇博文中解釋了機器學習的概念以及如何訓練機器學習算法。 由於我們沒有深入研究不同類型的 ML 算法及其工作原理,因此我們提出了這篇文章,我們將根據機器學習算法“學習”進行預測的方式來解釋它們的分類。

概括地說,機器學習技術有兩大類——監督式和無監督式。 讓我們看看它們之間有何不同。
有監督和無監督的機器學習技術
正如我們之前提到的,有監督和無監督 ML 技術代表了機器學習算法學習進行預測的“方式”。
在監督學習中,ML 算法的創建者俱有機器所期望的明確定義的輸出。 輸入及其各自的輸出是預定義的,並且 ML 算法只學習完善根據輸入提供輸出的藝術,並且隨著時間的推移具有更高的準確性。
監督學習也像和老師一起學習。 老師,在這種情況下是提供給機器學習系統的訓練數據集。
在與老師一起學習時,學生被告知什麼代表什麼。 例如,您可以教孩子狗的獨特特徵,以幫助將其與其他動物區分開來,例如:
- 臉型(長)
- 它們聽起來如何(吠聲)
- 體型(中小型)
- 其他特定特徵(狗經常搖尾巴)
有了這些數據,孩子應該能夠識別各種品種的狗。 每次他/她發現新的未知品種的狗時,要尋找的特徵都會隨著更多數據而更新。 例如,哈巴狗不像大多數其他品種的狗那樣長臉,但卻是一隻狗。 這是有監督的學習,因為我們首先給了孩子一組要尋找的特徵,他只是通過經驗來完善它。
然而,在無監督學習的情況下,孩子是靠自己的。 只是簡單地向他展示了各種動物,而沒有任何關於什麼是什麼的暗示。 他學會了通過根據觀察到的特徵對它們進行分組來識別不同的動物。 簡而言之,這是無監督機器學習。
簡而言之,監督學習是基於具有預期結果的數據的機器學習,而在無監督機器學習的情況下,ML 系統學會自己從數據中識別模式。
監督機器學習
機器學習的大多數實際應用都使用監督學習。 在監督學習中,您定義輸入變量 (x) 和輸出變量 (Y),並啟用算法來學習如何將輸入映射到輸出。
這可以定義為 Y = f(X)
這個想法是讓機器在這個映射上完美,這樣它就可以準確地預測你扔給它的任何新輸入數據的輸出變量 (Y)。 該算法在達到可接受的準確度水平時會減慢學習活動的速度。

監督學習可以進一步分為分類和回歸問題:
分類:分類問題的輸出變量是一個類別,如大、小、中或“紅色”或“綠色”。
回歸:在回歸問題中,輸出變量是一個實際值,例如“公斤”或“美元”。
一些流行的監督機器學習算法是:
線性回歸
回歸算法主要用於檢測數值變量之間的統計相關性。 線性回歸模型基本上試圖為您的數據表示找到最佳線性近似值。 當這種近似成功時,您可以輕鬆預測因變量的任何值的獨立變量的值。 這樣,該算法可用於確定輸入數據集中任意兩個數值列之間的依賴關係。 例如,您可以使用線性回歸來預測來年的銷售額,方法是使用歷史數據作為輸入,或者根據季節性趨勢預測訪問您網站的人數。
隨機森林
隨機森林非常像所有數據科學算法的瑞士軍刀。 稍微輕鬆一點,當您想不出針對您的問題的特定算法時,請選擇隨機森林。 隨機森林是用於對功能組中的數據點進行聚類的監督機器學習算法的另一個示例。 這對於具有大量變量的大型數據集特別有用,因為通過考慮所有變量來手動對數據進行聚類變得困難。
由於其通用性,這種機器學習算法可用於回歸和分類任務。 它還可以處理降維方法,處理缺失值、異常值和許多其他數據探索方法。 隨機森林是一種集成學習方法,其中將一組弱模型組合成一個強模型。
支持向量機
支持向量機是另一種可用於回歸或分類問題的監督機器學習算法。 在 SVM 中,每個數據項都被繪製為 n 維空間中的一個點(n 是您擁有的特徵數),每個特徵的值是特定坐標的值。 然後通過識別以最佳方式區分這兩個類別的超平面來執行分類。
SVM 通常用於涉及文本分類的任務,例如檢測垃圾郵件、情感分析和類別分配。 它在基於顏色的分類和基於方面的識別是重要方面的圖像識別項目中也很有用。 另一個值得注意的應用是手寫數字識別,這對於自動化郵政服務很有用。
無監督機器學習
在無監督機器學習中,只有輸入數據(X),沒有定義相應的輸出變量。 這裡的想法是在不對模型施加限制的情況下揭示數據的潛在分佈或結構。 在無監督機器學習模型中,就像沒有老師一樣,沒有正確答案。 算法自行發現和呈現數據中有趣的結構。
無監督學習可以進一步分為聚類和關聯問題:
聚類:在聚類挑戰中,您基本上是在嘗試發現數據中的潛在分組,例如按客戶的購物行為對他們進行分組。
關聯:在關聯問題中,目標是確定定義大部分數據的規則,例如購買 iPhone 的人也傾向於購買電池組。
無監督算法的流行示例是:
K-means 聚類
K-means 聚類是一種無監督機器學習算法,用於您擁有的數據未標記(具有未定義組或類別的數據)的情況。 該算法用於識別數據中的組,其中組的數量由變量 K 表示。K-means 的工作原理是根據提供的特徵將每個數據點分配給 K 組之一。 然後它繼續根據特徵相似性對數據點進行聚類。
簡而言之,K-means 聚類揭示了未標記數據中未定義的組。 這對於從大型複雜數據集中確認業務假設特別有用。 運行算法並定義組後,可以輕鬆地將新數據點添加到正確的組中。
先驗算法
Apriori 是一種經典的無監督機器算法,用於挖掘相關的關聯規則和項集。 它非常適合部署在具有大量交易的數據庫上,例如客戶從商店購買的商品。
先驗原則將減少需要檢查的項目集的數量。 該原則指出,如果一個項目集不是頻繁的,那麼它的子集也不會是頻繁的。 先驗算法非常適合基於關聯規則的機器學習,目前已被零售公司廣泛使用。
可以從啤酒尿布的故事中理解基於關聯規則的學習的有趣結果。 一家零售店分析了他們的數據,發現週五下午購買尿布的年輕美國男性也傾向於購買啤酒。 然後他們繼續將啤酒島放置在靠近尿布島的地方,正如預期的那樣,啤酒銷量上升了。
這可能表明撫養孩子可能會很辛苦,父母不謹慎地轉向啤酒來緩解壓力。 無論如何,這個故事是機器學習中關聯規則的完美例子。
結論
機器學習正在幫助企業達到前所未有的效率水平,並為新技術創新鋪平道路。 由於網絡上可用數據的數量和質量每過一分鐘都在增長,機器學習技術可以從這些數據集中發現突破性的見解。 如果您希望釋放可用數據的真正潛力,那麼熟悉這些機器學習技術將是必不可少的。
