數據標籤 - 克服AI項目最大的障礙

Reatha

2020-10-20

數據標籤可能不是性感的，但至關重要且必要的gruntwork
這可能是室內艱鉅的任務，而新的數據標籤初創公司的新生態系統則出現以滿足需求

構建人工智能（AI）模型不像構建軟件。它需要持續的“測試和學習”方法。算法正在不斷學習，並且正在完善數據 - 盡可能多的相關，高質量的數據是關鍵。

數據標記是用於機器學習的數據預處理的組成部分。例如，如果您正在訓練一個系統以識別圖像中的動物，則可以為其提供數千種動物的圖像，以了解每種動物的共同特徵，最終使其能夠在未標記的圖像中識別動物。

在自動駕駛汽車系統中，數據標記用於使汽車的AI系統能夠說出穿過街道或紙袋的人之間的區別，例如，標記這些對像或數據點的關鍵特徵並在它們之間尋找相似之處。在語音識別中，機器需要隨附的文本筆錄以及音頻作為學習的基礎。

數據標籤“障礙”

儘管數據標記是培訓AI系統的基本組成部分，但是，在AI實施和生產方面，幾乎每個組織（96％）（96％）面臨挑戰。這是根據發布的報告Allegia，最終發現，儘管對AI和機器學習項目充滿了興趣，但只有一半的人成功地將AI/ML項目投入生產，而81％的人表示，使用數據培訓AI的過程比預期的要困難得多。

Alegion首席執行官兼聯合創始人納撒尼爾·蓋茨（Nathaniel Gates）說：“將機器學習模型實施到生產中的最大障礙是培訓數據的數量和質量。”在新聞稿中。

至關重要的是，培訓數據不僅是廣泛的，而且可以準確，正確地註釋。這項工作的絕大部分留給了人類，儘管他們可以在圖片中識別出貓甚至X射線中的腫瘤，但它們卻是昂貴，緩慢且容易出錯的人。因此，對自動化和AI應用程序的需求不斷增長，這引起了高級數據標籤工具和服務的興趣激增，這些工具和服務可以加速和增強流程，最終使項目更快地部署。

在過去的幾年中，數據標籤行業已經出現了對解決方案和服務的需求的回答，這些解決方案和服務有助於消除希望開發AI模型的組織的“障礙”，或者一旦將數據標記為盲點和偏見，就可以分析數據。

一些組織已轉向眾包。例如，refunite開發了一個應用程序這使那些被沖突連根拔起的人通過從智能手機中“培訓” AI算法來賺錢。

出現了整個技術初創公司的生態系統，可以收費有助於數據標記過程。在許多情況下，此Proccess也使用了AI程序。例如，Arturo.ai（從美國家庭保險中脫穎而出）專門研究機器學習軟件，可以分析保險行業的攝影和衛星圖像。聖地亞哥初創公司Lytx出售用於卡車業務的系統，以通過相機和傳感器數據訪問駕駛員的行為，並聲稱需要大約10,000小時的20秒視頻剪輯（或4至500萬小時的視頻）來培訓可以識別駕駛員分心的原型AI系統。

其他公司（例如Scale AI和Labelbox）提供了工具來幫助公司分析數據後分析數據，從而使他們能夠識別盲點和偏見。例如，這可能是男人的過度代表，或者太少的某物圖像。

同時，總部位於特拉維夫的SaaS啟動Dataloop結合了人工和人工智能用於培訓計算機視覺程序。平台饋送“實時”數據回到人類用戶，為了確保該過程（雖然加急）仍以高標准進行。這也意味著某些數據集可能已經從以前的項目中獲得，因此企業不必從頭開始啟動數據標記過程。 Dataloop首席執行官Eran Shlomo說：“由於數據標記限制和缺乏實時驗證，許多組織繼續努力將其AI和ML項目轉移到生產中。

數據標籤的需求將繼續為AI計劃的開發過程帶來不便的真相，以及組織是否決定將工作從內部，眾包或外包進行工作，最終產品的質量和有效性都會取決於準備工作。