資料科學家還在自己做資料清理與特徵工程?怎麼不讓 AutoML 來幫你!

未來,每個人都可以是資料科學家!這句話不是一個噱頭,隨著自動化機器學習 AutoML 問世,透過系統自動化建立人工智慧 AI 模型,節省了大量時間,甚至讓不具資料科學背景的產業人士也能跨越寫程式、理解各方法論的門檻,借助 AI 來解決企業題。

一般透過機器學習技術建立 AI 模型過程可分成四步驟,分別為資料取得、資料前處理、模型最佳化與實際應用。其中費最多時間精力的步驟,就是資料前處理與模型最佳化。據統計,光是資料前處理,就會耗費專案 80% 的時間,全球人工智慧領導者 SAS,台灣業務顧問部陳新銓副總經理就指出,SAS 過往曾協助某製造業進行模型最佳化,相關參數的排列組合高達 9 萬個,若以人工測試,最快也要兩個月的時間才能找出準確度最高的模型,但現在透過 AutoML 大幅縮短到 15 分鐘! 且 AutoML 不只提升效率,還能克服人為誤差或偏頗。

AutoML 方案怎麼選?掌握這三大挑選重點

第一、能否提供多元層次的自動化

要判斷不同 AutoML 的差異性,先看自動化層次是否夠多元,例如在建模初期、中期到後期模型解釋,都有相應的自動化流程,且能還自動產出流程圖(pipeline)以及最佳化模型運算框架與各參數間的關聯(pattern)。

第二、使用者介面(UI)友善度

操作介面友善度,絕對是能否快速上手、願意持續使用的關鍵。

較領先的系統是使用下拉式選單的設計,透過低程式碼或 少程式碼 介面來降低分析門檻,才能讓有領域知識的人也能自行操作。

第三、系統設計能否兼顧效率與未來擴充性

AutoML 運算時間長短,除了取決於硬體設備的規格,也和 AutoML 系統框架有關,同樣一份資料倒入不同 AutoML 解決方案中,產出模型的時間有些只要 30 分鐘、有些卻要跑 3 天,另外框架設計得好,才能依據應用需求,彈性地選擇要垂直或水平擴充硬體。

陳新銓認為,企業將建構模型的工作交給 AutoML 就像把「資料工程外包」,讓資料科學家能夠將工作重點放在探索問題本質等更有價值的作業,同時也藉由 AutoML 培訓具備產業知識的人轉型成為資料科學家,最大化導入 AI 應用的價值。

記者