數據標注是對企業(yè)原始數據進行加工處理,形成可服務于人工智能模型訓練、數據挖掘分析、開展檢驗檢測等活動必須的高質量數據集的過程,主要包括篩選、清洗、分類、注釋、標記、質檢等環(huán)節(jié)。《關于促進數據標注產業(yè)高質量發(fā)展的實施意見》(以下簡稱《實施意見》)的出臺,開啟了我國數據標注產業(yè)高質量發(fā)展的嶄新階段?!秾嵤┮庖姟访鞔_了一系列目標及舉措,清晰界定了數據標注產業(yè)的范疇、發(fā)展方向、重點領域與核心任務,為培育數據標注新業(yè)態(tài)新模式、筑牢人工智能創(chuàng)新根基提供了路徑指引。數據標注產業(yè)的繁榮將成為促進人工智能賦能新型工業(yè)化的關鍵力量。
一、堅持需求牽引,深入挖掘制造業(yè)企業(yè)數據標注需求
目前,我國制造業(yè)企業(yè)數字化普及率穩(wěn)步提升,骨干企業(yè)基本實現智能化轉型,數據規(guī)模和復雜度也逐漸增大,這為釋放制造業(yè)企業(yè)數據要素價值帶來了巨大的挑戰(zhàn)。數據標注是銜接物理世界信息和數字世界應用的樞紐,是開發(fā)利用制造業(yè)海量數據、打通各系統(tǒng)環(huán)節(jié)數據孤島、促進新一代信息技術與先進制造技術深度融合、實現數據技術雙輪驅動的關鍵。
有效需求是拉動數據標注產業(yè)規(guī)?;l(fā)展,促進數據技術和制造業(yè)深度融合的強大動能。一方面,實施“國有企業(yè)數據效能提升行動”,以龍頭國有企業(yè)為主體,打通產業(yè)生態(tài)內數據壁壘,促進數據歸集匯聚,深入挖掘制造業(yè)數據應用場景,釋放國有企業(yè)數據標注需求,支持一批規(guī)模化專業(yè)化數據標注服務商成長壯大。另一方面,加強重點制造業(yè)領域數據標注,打造制造業(yè)通用高質量數據集,服務制造業(yè)大模型訓練和落地應用,推動人工智能大模型和制造業(yè)企業(yè)小模型結合,推動人工智能賦能新型工業(yè)化走深走實。
二、加強創(chuàng)新力度,精準服務制造業(yè)企業(yè)數據標注需求
創(chuàng)新是數據標注產業(yè)高質量發(fā)展的核心引擎,高端化發(fā)展是數據標注產業(yè)發(fā)展的方向。圍繞核心技術攻關、標準體系完善和創(chuàng)新載體打造三方面重點發(fā)力,建立健全數據標注產業(yè)創(chuàng)新體系和生態(tài),促進數據標注產業(yè)。
先進標注工具與技術的研發(fā)應用,是實現制造業(yè)多源數據融合驅動的技術基礎。以國際前沿人工智能技術需求為導向,開展數據標注領域的關鍵技術攻關,加強跨模態(tài)語義對齊、4D標注、大模型標注等關鍵數據標注技術研發(fā),加快研制先進自主可控的軟硬一體標注設備,實現數據、模型、工具、系統(tǒng)和制造業(yè)場景等要素的融合,促進數據標注和制造業(yè)機理融合,對于深化人工智能在制造業(yè)的應用具有重要意義。
開展相關標準研制推廣,推動與制造業(yè)先行標準的融合應用,是提升制造領域數據標注質量的關鍵。圍繞數據標注的關鍵環(huán)節(jié),結合制造業(yè)企業(yè)實際,引導數據標注企業(yè)和制造業(yè)企業(yè)共同開展標準研制,解決包括行業(yè)先驗知識、數據安全保障、標注質量控制等關鍵核心問題,開展制造業(yè)數據集打造和質量提升行動,推動數據標注產業(yè)和制造業(yè)協(xié)同發(fā)展。
創(chuàng)新載體是實現制造業(yè)領域數據標注創(chuàng)新成果轉化的重要平臺。支持制造業(yè)企業(yè)聯(lián)合數據標注產業(yè)鏈上下游企業(yè)、科研機構、高等院校等主體聯(lián)合建立打造高水平創(chuàng)新載體,促進數據標注和制造業(yè)協(xié)同創(chuàng)新,培養(yǎng)具有制造業(yè)背景的高水平數據人才,加快科技成果轉化和應用落地,鼓勵有條件的制造業(yè)企業(yè)支持和參與開源生態(tài)建設,推動各類創(chuàng)新要素充分涌流。
三、深化產業(yè)融合,深度賦能制造業(yè)企業(yè)全鏈條智能化
數據標注是人工智能深入賦能新型工業(yè)化落地的重要環(huán)節(jié),需要將數據標注與制造業(yè)關鍵環(huán)節(jié)深度融合,結合具體行業(yè)、場景、數據特點,開展數據標注模型設計?!秾嵤┮庖姟穼⒂行苿訑祿俗⒎蘸椭圃鞓I(yè)需求精準匹配,打破數據標注環(huán)節(jié)的技術和能力限制,充分利用人工智能算法對制造業(yè)企業(yè)數據資源進行深度挖掘與分析,實現制造業(yè)關鍵環(huán)節(jié)的智能化變革。
(一)數據標注賦能創(chuàng)新研發(fā)
智能化研發(fā)設計通過結合人工智能算法、數據分析以及虛擬仿真技術,突破傳統(tǒng)研發(fā)設計方法的局限。例如在制造業(yè)圖紙自動生成場景,需結合相關行業(yè)機理,對圖紙關鍵信息、關鍵節(jié)點、關鍵流程進行標記和注釋;在三維結構智能生成場景,需對用于模型訓練的圖片數據、點云數據進行跨模態(tài)標注;在分子和藥物智能研發(fā)場景,標注環(huán)節(jié)需結合相關知識,對原子、電荷、化學鍵、官能團、靶點、功能、活性等關鍵信息進行標記和對齊。
(二)數據標注賦能高效中試
中試驗證環(huán)節(jié)在制造業(yè)中起著承上啟下的關鍵作用,是工藝、設備、產品從設計概念走向大規(guī)模生產的重要驗證環(huán)節(jié),智能化技術在中試環(huán)節(jié)的應用主要集中在過程監(jiān)測、產品質檢、智能控制、系統(tǒng)仿真、機理研究等場景。例如在產品質檢場景,需對圖像、點云、深度等融合數據中體現的缺陷尺寸、位置、類型等信息進行標記和注釋;在過程監(jiān)測場景,需對中試對象各類傳感器數據進行篩選、清洗、對齊,識別和標記異常信號。
(三)數據標注賦能敏捷生產
生產制造是制造業(yè)的核心環(huán)節(jié),直接決定了制造業(yè)企業(yè)的效率、成本與效益,智能化應用空間較大。例如在設備預測性維護場景,需結合工業(yè)機理和經驗,對生產設備運行數據進行融合標注,以精準捕捉設備潛在的故障信號;在智能
過程控制場景,需對傳感器、化驗分析、控制器、人員等不同來源類型的數據進行篩選、清洗、對齊、標注等。此外,在制造業(yè)企業(yè)工業(yè)互聯(lián)網、數智平臺、邊緣計算設備等中引入數據標注工具,將暢通從數據管理到人工智能應用的通路,重塑企業(yè)傳統(tǒng)數據管理和應用模式。
(四)數據標注賦能智能營銷
智能營銷可實現客戶群體精準定位、客戶需求深度洞察、行為偏好模式識別等,打破傳統(tǒng)營銷服務的盲目性與局限性。例如在智能推薦場景,需結合推薦算法、模型的實際需求,對客戶訂單、行為數據等進行精確標記;在智能售后和智能客服場景,需收集和標注包括產品數據、檢維修數據、客服業(yè)務數據、語音數據等在內的原始數據。
(五)數據標注賦能精益管理
智能化運營管理可實現企業(yè)供應鏈協(xié)同、生產調度、人力資源管理、財務管理等多個子系統(tǒng)的貫通,數據標注起到統(tǒng)一數據格式,打破系統(tǒng)壁壘的關鍵作用。例如在汽車制造智能供應鏈場景,零部件供應商與整車制造商等不同主體通過數據共享和協(xié)作標注,實現敏捷研發(fā)與生產;在市場智能預測場景,企業(yè)需對宏觀市場數據進行趨勢分析和準確標記,通過人工智能模型指導企業(yè)精益規(guī)劃、研發(fā)、生產等,實現對市場需求的精準化掌握。
《實施意見》的發(fā)布為數據標注產業(yè)與制造業(yè)雙向賦能,融合發(fā)展指明了方向,數據標注憑借其在精準數據支持、智能化決策、產業(yè)鏈協(xié)同、創(chuàng)新驅動以及質量控制等方面的重要作用,將成為推動智能制造產業(yè)蓬勃發(fā)展的關鍵力量,助力制造業(yè)企業(yè)在數字化時代實現轉型升級與創(chuàng)新發(fā)展,邁向更高質量的發(fā)展階段。