2024年上海進博會上,依圖科技發(fā)布了天問大模型4.0版本,引起業(yè)界廣泛關(guān)注。作為AI落地的重要場景,天問大模型在安防領(lǐng)域的應(yīng)用,實現(xiàn)了視頻理解的細微化赫淋、語義檢索的豐富化,支持多條件組合場景布控,實現(xiàn)精細化布控和風(fēng)險管理,并且通過極少樣本的冷啟動和Agent代理輔助訓(xùn)練,實現(xiàn)了“想法既算法”的智能飛躍妖职。
這無疑標(biāo)志著依圖科技在AI安防領(lǐng)域的技術(shù)實力達到了新的高度,有力推動了安防行業(yè)向更高層次的智慧化轉(zhuǎn)型,為安防行業(yè)創(chuàng)新發(fā)展帶來了革命性的變革,而本文筆者將進一步詳細介紹天問大模型4大技術(shù)亮點和優(yōu)勢:
一、安防領(lǐng)域?qū)S枚嗄B(tài)大模型訓(xùn)練及構(gòu)建
雖然行業(yè)內(nèi)出現(xiàn)大量開源的多模態(tài)大模型,但其對于視頻監(jiān)控場景來說,它們距離實戰(zhàn)都有明顯距離,主要有如下原因:
視覺數(shù)據(jù)分布缺陷:差異點來自拍攝視角期庆、場景和關(guān)注點歇懂。有無對應(yīng)分布的領(lǐng)域數(shù)據(jù),誤報差距有 2個量級,是可用和不可用的區(qū)別。
精度目標(biāo)不同:通用模態(tài)大模型主要應(yīng)用場景是對話耐陵、圖文問答等,更強調(diào)全面性,也就是能處理任務(wù)多,但對精度要求低,錯誤率到 1%基本滿足訴求;對于監(jiān)控場景而言,誤報率通常要求到百萬分之一甚至更高晃尖。
領(lǐng)域知識缺失:對于不同場景 (如小區(qū)、工廠俏蛮、交通等),對于安全隱患定義是有明顯差異的;通用多模態(tài)大模型通常會欠缺這部分知識
上述問題的解決重點在于領(lǐng)域數(shù)據(jù)的積累,特別是低概率出現(xiàn)的數(shù)據(jù),針對性的解決方案是數(shù)據(jù)飛輪撑蚌。其主要挑戰(zhàn)在于:
對應(yīng)用場景的深刻理解,開發(fā)出針對特定場景的可落地的應(yīng)用;
標(biāo)注標(biāo)注效率,確認大規(guī)模訓(xùn)練的可行性;
3. 技術(shù)水平的先進性,保證對領(lǐng)域數(shù)據(jù)的充分利用,提升整體迭代效率;
二、少樣本學(xué)習(xí)解決視覺基礎(chǔ)任務(wù)
在現(xiàn)實世界中,許多視覺識別任務(wù)屬于長尾分布,即大部分類別的樣本數(shù)量非常有限搏屑。特別是針對特定領(lǐng)域的應(yīng)用落地,領(lǐng)域數(shù)據(jù)往往稀缺且難以獲取争涌。這些所謂的“冷啟動”問題對于傳統(tǒng)的機器學(xué)習(xí)模型來說是一個巨大的挑戰(zhàn),因為它們需要大量的標(biāo)注數(shù)據(jù)來訓(xùn)練。少樣本學(xué)習(xí)技術(shù)通過從少量樣本中快速學(xué)習(xí),使得機器能夠識別這些長尾類別,從而極大地擴展了機器視覺的應(yīng)用范圍辣恋。在制造業(yè)中,新產(chǎn)品的設(shè)計和生產(chǎn)周期越來越短亮垫。少樣本學(xué)習(xí)技術(shù)可以幫助快速部署視覺識別系統(tǒng),以識別和處理新產(chǎn)品,無需等待大量數(shù)據(jù)的積累。在安全監(jiān)控領(lǐng)域,需要檢測的異常行為往往是罕見的伟骨。少樣本學(xué)習(xí)技術(shù)能夠快速適應(yīng)這些罕見事件的檢測,提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性饮潦。
獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)通常需要耗費大量的時間和資源。在某些領(lǐng)域,如工業(yè)圖像分析,獲取標(biāo)注數(shù)據(jù)可能涉及到專業(yè)知識,使得數(shù)據(jù)采集更加困難携狭。少樣本學(xué)習(xí)技術(shù)減少了對大量標(biāo)注數(shù)據(jù)的依賴,從而降低了數(shù)據(jù)采集和標(biāo)注的成本继蜡。企業(yè)可以減少在數(shù)據(jù)采集和標(biāo)注上的投入,將資源更多地用于產(chǎn)品開發(fā)和市場推廣等其它方面,同時也有助于適應(yīng)快速變化的市場。在快速變化的市場中,企業(yè)需要快速推出新的產(chǎn)品和服務(wù)逛腿。少樣本學(xué)習(xí)技術(shù)使得視覺識別系統(tǒng)能夠快速適應(yīng)新的市場需求,加速產(chǎn)品創(chuàng)新稀并。
傳統(tǒng)的機器學(xué)習(xí)模型在面對新任務(wù)時,通常需要重新收集數(shù)據(jù)、訓(xùn)練模型,這一過程可能非常耗時单默。少樣本學(xué)習(xí)技術(shù)通過快速從少量樣本中學(xué)習(xí),顯著縮短了模型的迭代周期梗力。一是體現(xiàn)在研發(fā)效率的提升」囿希縮短模型迭代周期意味著研發(fā)團隊可以更快地測試和優(yōu)化他們的產(chǎn)品,提高研發(fā)效率葵张。二是有助于快速適應(yīng)客戶需求。在客戶提出新的需求時,可以迅速調(diào)整視覺識別系統(tǒng),快速響應(yīng)客戶需求,提高客戶滿意度汗绰。
三哀擒、2D向3D視覺大模型的范式升級
在治安監(jiān)控領(lǐng)域,精確的深度信息可以顯著提升視頻監(jiān)控系統(tǒng)的智能分析能力。通過精確的深度信息,系統(tǒng)能夠更準(zhǔn)確地識別和追蹤嫌疑人或可疑行為,從而提高公共安全。例如,在擁擠的公共場所,深度估計可以幫助監(jiān)控系統(tǒng)區(qū)分人群中的個體,即使在視角受限或光照條件不理想的情況下也能進行有效監(jiān)控讳董。此外,深度信息還可以用于自動計算安全距離,當(dāng)檢測到有人過于接近關(guān)鍵設(shè)施或禁區(qū)時,系統(tǒng)可以及時發(fā)出警報渗蚁。在建筑工地,單目深度估計技術(shù)可以用于提高工地安全監(jiān)控的效率和效果。工地環(huán)境復(fù)雜多變,存在許多潛在的安全風(fēng)險豺章。利用深度估計技術(shù),監(jiān)控系統(tǒng)可以精確識別工人與危險區(qū)域之間的距離,當(dāng)工人過于接近危險機械或邊緣時,系統(tǒng)可以發(fā)出警告,防止事故發(fā)生尖洞。
四、基于視覺語言大模型的視覺搜索
基于視覺語言大模型的視覺搜索技術(shù)是安防領(lǐng)域的核心訴求,它通過結(jié)合視覺和語言信息處理的能力,為各種應(yīng)用場景提供了強大的技術(shù)支持搅厕。它的技術(shù)應(yīng)用價值主要體現(xiàn)在如下方面:
1.支持長尾物體和屬性的解析:傳統(tǒng)的視覺搜索算法往往在處理常見物體和場景時表現(xiàn)良好,但在面對長尾(即不常見或罕見)物體和屬性時,其性能會顯著下降煞秤。基于視覺語言大模型的視覺搜索技術(shù)通過融合語言模型的深度語義理解能力,能夠更好地理解和識別這些長尾物體吉捶。這種能力在安防監(jiān)控夺鲜、生物多樣性研究、文化遺產(chǎn)保護等領(lǐng)域尤為重要,因為這些領(lǐng)域經(jīng)常需要識別和分析不常見的物體或行為呐舔。
2.接受不同模態(tài)的輸入并在相同特征空間中進行搜索:多模態(tài)視覺搜索技術(shù)能夠處理多種類型的輸入,包括圖像币励、視頻和文本。通過將這些不同模態(tài)的信息映射到一個統(tǒng)一的特征空間中,該技術(shù)能夠?qū)崿F(xiàn)跨模態(tài)的搜索和匹配珊拼。這種跨模態(tài)的能力在電子商務(wù)食呻、內(nèi)容推薦、社交媒體分析等領(lǐng)域具有廣泛的應(yīng)用前景澎现。例如,用戶可以通過上傳一張圖片或輸入一段描述,快速找到相關(guān)的商品或信息,極大地提升了用戶體驗仅胞。
2.理解圖片的上下文信息:除了識別圖像中的物體,多模態(tài)視覺搜索技術(shù)還能夠理解圖像的上下文信息,包括場景的背景、物體間的關(guān)系以及可能的情境昔头。這種上下文理解能力使得該技術(shù)在城市管理饼问、環(huán)境監(jiān)測影兽、公共安全等領(lǐng)域具有重要價值揭斧。例如,通過分析街道的圖片,可以識別交通擁堵、非法占道等城市問題,為城市管理提供決策支持掂篷。
4. 理解復(fù)雜的語義描述:多模態(tài)視覺搜索技術(shù)通過結(jié)合自然語言處理技術(shù),能夠理解和處理復(fù)雜的語義描述焊握。這意味著用戶可以使用自然語言來表達他們的搜索需求,而系統(tǒng)能夠準(zhǔn)確理解這些描述并返回相關(guān)的搜索結(jié)果。這種能力在公安鳖弱、政府园赴、教育等領(lǐng)域尤為重要,因為這些領(lǐng)域經(jīng)常需要處理復(fù)雜的查詢和分析任務(wù)。
依圖科技的天問大模型4.0版本,以其先進的技術(shù)實力和創(chuàng)新能力,為安防行業(yè)提供了一個更加智能益丘、高效和靈活的解決方案宴凌。我們有理由相信,隨著技術(shù)的不斷進步和應(yīng)用的深入,天問大模型將在更多細分市場和復(fù)雜場景中發(fā)揮關(guān)鍵作用,為社會的安全與穩(wěn)定提供更為堅實的保障,并引領(lǐng)安防行業(yè)進入一個全新的智能化時代。