常工作中,我們會遇到想要使用機器學習的客戶。他們認為機器學習很神奇。媒體有時對機器學習能力的描述不準確。有時他們想要的任務甚至不需要機器學習,“它是如此簡單”,有時非常困難“不可能做到(直到現在)”。因此,我寫這篇文章是為了向您提供一些 ML 不應該做什麼、不能做什麼以及可以做什麼的範例。
機器學習不該做什麼?
有時任務非常簡單,或資料中有明顯 南非 WhatsApp 號碼數據 的模式。因此,我們可以編寫幾行程式碼來自動化它,而無需使用機器學習。這種基於規則的自動化比機器學習更好。它的成本(時間和資源)更少,並且 100% 準確。
之前有一位客戶要求我建立一個 ML 模型來對他每天收到的一些文件進行分類。透過對這些文件進行簡單的視覺化,我發現有一個區分這些文件的關鍵字清單。他在未來的數據中也確認了這些關鍵字。因此,我編寫了幾行程式碼來在每個文件中尋找這些關鍵字並傳回屬於哪個類別。他只是想讓這個過程自動化,並認為唯一的方法是機器學習。
假設我們要建立一個機器學習模型來完成這項任務。第一步是在訓練模型對其中一些文件進行分類之前對其中一些文件進行註釋。這將耗費時間和金錢。最後,由於 ML 模型會做出錯誤的預測,所以我寫的幾行程式碼將優於該模型。
我的同事要求對衛星影像中的水池和綠地進行分割。他使用顏色(基於靜態規則的閾值)對其進行分割,並且沒有使用任何機器學習模型。這對於我們的案例來說非常理想,並且在很短的時間內完成了。
我的一個朋友告訴我,他使用一個解析器進行句子分割,該解析器的表現優於他公司的機器學習模型。這是一個在不使用任何機器學習模型的情況下執行相同操
在文件分類案例中,很明顯我們根本不需要機器學習。但在其他情況下,例如句子分割和池分割,尚不清楚使用機器學習或基於規則是否更好。文獻中的許多研究人員都使用了兩者並進行了比較。 Raiyani 和他的同事使用基於規則和機器學習將高解析度光學衛星影像分類為形態類別(例如地面、水等)並比較結果。
所以這取決於場景。例如,我的同事使用的基於規則的方法在多樣性方面有其限制。
請注意,我在這裡談論的是傳統的基於規則的手工規則。它與基於規則的機器學習不同。後者會自動識別有用的規則,但需要資料。
機器學習不能做什麼?
有一天,客戶來要求我們建立一個模型來完成客戶服務代表所做的所有任務(回答問題、回應投訴、確保客戶對服務滿意等)。 ,我們可以建立一個模型來分析客戶評論。但我認為很難建立一個可以回應投訴的模型,而且(到目前為止)還沒有模型可以完成所有這些任務。
機器學習能做什麼?
文獻中有很多關於 ML 現在可以做什麼的例子,例如將 為什麼公司和企業需要消防值班警衛? 一種語言翻譯成另一種語言、檢測圖像中的人臉等。他說:「如果一個典型的人可以用不到一秒鐘的思考來完成一項腦力任務,那麼我們現在或在不久的將來可能可以使用機器學習將其自動化」。但這只有在擁有大量訓練資料時才有可能實現。沒有數據,就沒有學習。
最後,乍一看,機器學習是否可以幫助專案並不總是 临时邮箱 很清楚。因此,在實務中,工程師會對專案進行技術盡職調查,以確保其可行。