【我們為什麼挑選這篇文章】AI 數據標註和資料清洗的流程,等於是 AI 模型極為重要的前期基礎建設,但往往需耗費時間成本、大量人工細心投入來過濾資料,對於工程師來說是一大負擔,如果企業把這樣的工作流程外包,會帶來什麼助益呢?(責任編輯:徐宇儂)
AI 產業裡的工程師每天都在做什麼?大部分的人應該認為是:「寫 Coding 演算法吧!」
其實在導入 AI 的公司裡,「取得訓練用的數據(Training Datasets)」才是佔絕大多數 ,因為只有乾淨、良好的 AI 數據用於機器學習(Machine Learning),AI 工程師或是數據科學家,才能確保自己建造的神經網路模型能夠預測出有價值的東西。
善用數據外包,AI 模型開發更能事半功倍
AI 市場上需要機器學習的領域涉及廣泛,如自動駕駛汽車,發票收據識別,道路瑕疵檢測,互動電影推薦等需要許多來自不同領域的大量數據:由簡單到複雜、由普遍至特定專業領域的數據類型,如視覺影像、文字、音檔、感測器數據等。
說到底,工程師遇到的困難,就是人一天只有 24 小時。根據團隊觀察,愈成功好產品、 越成功的 AI 公司,關鍵往往在於:比起完全花心力建立演算法模型,他們更專注在前期快速、大量地蒐集有用的數據!
但如何讓 AI 工程師及數據科學家,能擁有足夠經過訓練的數據,專注於改進模型呢?
「數據外包策略」(Data Annotation Outsourcing)的概念,為這項棘手的核心問題提供解答 。將數據標註外包給專業團隊,有兩大好處:
1. 透過專業團隊控管,釐清數據標註原則並確保標註品質
2. 讓工程師可以專業分工,將時間精力專注在 AI 模型訓練上
AI 數據外包後,如何確保外包商品質?
人工智慧是發展中的產業,許多 AI 專案的投入都處在研發或概念驗證(POC)階段,因此在讓電腦學習人腦的過程中,餵養數據和訓練演算法,必須仰賴雙向且多循環的驗證,不斷累積小成功才能讓 AI 專案順利進行。
因此,當企業考慮「外包數據」時,能及時回應和持續保持高品質產出,進而協助 AI 模型開發加速是重要關鍵。包括: 前期數據標註原則的確定、數據收集、數據清洗,後段的圖資確認、標註成效回饋 ,都需要 外包團隊的 PM 具備高度產業知識,及花費大量的時間與客戶頻繁的溝通 以確保專案的成效。
不只與客戶對接需要專業溝通,外包團隊能否讓眾多 AI 數據標註師,在面對不同產業的數據時都能保持專業與品質,也是一大要件。若水 AI 團隊累積過去幾年處理上百個案子的經驗,透過科技與數據力,打造以下四項數據處理機制。
1. 數據智慧派工:
若水針對過往上百例的 AI 專案進行 大數據分析,根據專案屬性由系統自動推薦擅長處理該數據類型的 AI 數據標註師並進行標註工作的指派 。透過大數據智慧派案實踐「Right people in the right loop」的精神,並提升專案管理的效能及數據標註的品質。
2. 線上工作平台即時監控:
為了同時與全台數百位居家遠距的 AI 數據標註師即時互動,PM 除了線上即時監控標註師的工作狀況,以確保產能符合交付期程外,全數位化的流程設計,當專案出現問題時可以直接找出問題點即時處理,後續也能不斷優化流程。
3. 多元智慧標註工具:
為了解決 AI 數據專案的多元性,整合對身障者友善的 UX/UI 智慧標註工具箱,讓身障者在減輕身體負擔的同時提升品質與速度。
4. 彈性人力後援制度:
除了導入科技工具強化管理效能外,當產線出現問題時,後援機制隨時能夠進場讓產線快速恢復產能。 若水以資深 AI 標註師及標註品管人員(QC)組成「機動後援小組」,他們因過去豐富的 AI 數據標註經驗,累積了專業的標註技能及深厚的產業知識,因此能夠在專案出現狀況時,快速的補位進入專案中,協助提升產能並確保專案品質。
當人工智慧產業發展與需求不斷變化,不只開發團隊,合作的數據外包團隊也需要與時俱進,才能夠彼此產生良好且即時的回饋,為 AI 模型落地助攻。
(本文經合作夥伴 若水 AI Blog 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈工程師自己標註 AI 數據,划算嗎?數據外包策略的兩大好處〉;首圖來源:Shutterstock。)
看更多 AI 好文
• 企業要防疫、又要防勒索病毒?AIOps 解決方案讓 IT 網路管理不再艱鉅
• 沒有大數據如何做 AI ?4 個方式用「小數據模型」進行機器學習
• Google、軟銀都陣亡過!盤點 AI 專案失敗的 4 大原因