安吉智能算法負責人說:“我們的目標是通過引入標準化的數據管理工具,讓算法團隊能夠以最簡單快速的方式對海量數據集進行訪問與操作。很高興TensorBay這款優秀的產品能夠進入市場,不同于傳統的本地文件系統管理模式,它提供了一個全新的云端數據管理解決方案,讓我們看到了AI非結構化數據管理的全新未來。”
以數據為中心驅動AI創新
今年MLOps形成了一股AI開發新趨勢吹進全球,隨之而來的是“以模型為中心”還是“以數據為中心”的爭議熱度不減。幾年前,機器學習社區更強調構建模型、調整超參數或選擇正確架構,來提升AI模型效果。人工智能和機器學習領域國際最權威學者之一吳恩達上半年發布了最新課程《MLOps:從以模型為中心到以數據為中心的AI》,他認為“以數據為中心”的時代已然來臨,人們應該以數據為中心來開發機器學習系統。?
對于規模精簡的算法團隊而言,以數據為中心的策略相比于以模型為中心的策略更具可操作性。一個機器學習項目的生命周期會經歷“定義項目-收集數據-訓練模型-模型部署生產”四個階段,從數據收集到模型部署都會持續往復迭代。數據好比AI的食物,機器學習需要定制化的數據集持續投喂到模型訓練中。決定模型效果的影響因素有兩個:數據和算法。現實中的數據集往往都是有噪聲的,對于有噪聲的數據,一種是修改算法,提出能處理噪聲、有泛化能力的算法(顯然難度較大);還有一種修改數據集,提升數據集的質量。用工具鏈和系統化的方法來提升數據質量,通過不斷地喂給數據,讓模型保持輕微調整,這會使模型的效果批量提升成為可能。
安吉智能正在為汽車制造、機械加工、電子電商、煙草醫藥、日化服裝等各領域客戶提供一體化智能物流解決方案,為了實現供應鏈過程的數字智能化創新,在算法負責人看來,通過調整數據集來實現模型快速迭代,將極大改善算法團隊工作效率。
激發物流行業新動能
據安吉智能算法團隊負責人介紹,2020年我國物流行業占整體GDP的14.7%,物流行業數字化轉型蘊含巨大潛力,且有大量的數據價值待挖掘,這是安吉開發安眸視覺管理系統的雄心所在。
利用大數據和人工智能等前沿技術為傳統行業賦能,一個不容忽視的現象是視頻監控和傳感器等積累的非結構化數據呈指數級增長,如果缺少與之匹配的工具鏈和工作流程,將會對數據驅動的AI產品開發創新帶來挑戰。格物鈦與安吉智能合作調研了目前行業內在AI開發流程中的痛點與挑戰,并梳理出數據管理上的核心訴求:
1.標注數據格式、標簽的一致性:方便靈活地根據特性抽取合并數據;
2.統一的數據存儲路徑:方便搜索和獲取從傳感器端采集的全量數據,并覆蓋盡可能多的場景和稀缺的數據樣本;
3.數據版本可追溯性:記錄并比較訓練過程中數據集的版本變化,以用于誤差分析和反復迭代。
安眸智能視覺管理系統基于自研深度學習AI算法引擎,形成數據采集標注、深度學習算法迭代、視頻數據結構化、模型部署自化,實現AI數據閉環,為港口、園區、倉庫等物流業務中的核心元素“人員、貨物、設備”提供安全保障。
格物鈦TensorBay是一款面向AI開發者的非結構化數據管理工具,為AI開發者和團隊提供統一的數據云端托管、版本管理、在線可視化和高效協同等功能,專注解決AI開發中的數據痛點。TensorBay為安吉智能提供了如下解決方案,包括:
1、讓AI開發更便捷——在云端統一托管數據
通過授權云存儲的方式,TensorBay可以全面托管安吉智能的原始數據,標注數據與meta信息。個人和團隊的工作區可以輕松切換,權限管理功能也在保障數據訪問安全的前提下,促進跨團隊協作,實現數據訪問民主化。
安吉智能團隊在研發過程中需要運用同一批原數據集來進行不同的訓練嘗試。借助TensorBay平臺,團隊成員無需復制數據,就可以在不影響原有數據的情況下生成fork數據集,并根據具體的模型研發目標靈活地對數據進行調整。
2、所見即所得——數據集分布實時洞察和數據版本追溯
安吉智能算法團隊在研發過程中,針對不同客戶的物流監控場景,需要定制化準備數據集進行模型訓練。通過TensorBay的版本管理功能,安吉智能可以快速增加新數據和迭代新版本,清晰記錄和追溯歷史版本過程,精細化比較各領域客戶數據和標注的差異,大幅提升版本迭代效率。
通常標注數據在質檢之后會被直接灌入模型用于訓練,但如果標注數據存在錯誤(如漏標、錯標等),會對模型的識別能力產生很大干擾。TensorBay的可視化組件讓算法工程師既能從宏觀層面了解數據集的特征分布,又能從微觀層面查看單個文件和標注數據。這一功能可以讓算法工程師在將數據用于訓練前,直接查看標注結果,有效避免了因數據質量不達標,而產生的模型調試和標注返工損耗。
3、Model is Temporary, Pipelines are Forever
機器學習的工作流程優化和自動化,所帶來的增效復利效應將會更深遠影響產品進程。未來安吉智能將繼續選擇TensorBay與其現有AI工作流程實現更深層次的融合。包括:
1)TensorBay的Action功能,將安眸智能攝像頭的數據收集、篩選、觸發任務、數據上傳流程自動化。改變原本由人工把數據上傳至網盤再到算法團隊下載的方式,實現數據自動上傳至云端數據集進行管理。
2)TensorBay的AI數據管理周期還可擴展至標數據標注環節。標注結果能夠直接導入云端數據管理平臺進行進一步數據處理,并能實現標注結果實時修改。這讓AI生產環境數據的實時反饋、追溯和優化成為可能。
更好的數據帶來更優的模型性能。格物鈦認為整個AI行業正在由以模型為中心的開發模式,向著以數據為中心的開發模式發展。通過優化現有的AI項目工作流程來提升數據質量,從而加速AI產品的迭代,這一創新未來將在更多智慧物流場景中產生長遠價值。
安吉智能算法負責人高度評價:“格物鈦的機器學習數據平臺TensorBay是我們AI開發流程中的關鍵部分,其強大的數據管理平臺能夠和我們的開發流程無縫銜接,為我們的數據準備過程提供了非常便利的功能和開發者工具。與格物鈦的產品團隊的密切合作,幫助我們安吉智能可以更加順利地實現安眸產品的研發目標。”