隨著人工智能深入各行各業(yè),多模態(tài)大模型正在成為AI發(fā)展的重要方向之一。近期,由中國(guó)圖象圖形學(xué)學(xué)會(huì)、中國(guó)人工智能學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)和中國(guó)自動(dòng)化學(xué)會(huì)聯(lián)合主辦,上海交通大學(xué)承辦的第八屆中國(guó)模式識(shí)別與計(jì)算機(jī)視覺學(xué)術(shù)會(huì)議(PRCV 2025)順利舉行。大會(huì)期間,“多模態(tài)文本智能大模型前沿技術(shù)與應(yīng)用”論壇(簡(jiǎn)稱“論壇”)獲得了廣泛關(guān)注。論壇匯集了來自華南理工大學(xué)、哈爾濱工業(yè)大學(xué)、南開大學(xué)、華中科技大學(xué)、小紅書及合合信息技術(shù)團(tuán)隊(duì)的頂尖專家與學(xué)者,深入探討多模態(tài)文本智能領(lǐng)域的最新技術(shù)突破與場(chǎng)景應(yīng)用案例。
![]()
中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)常務(wù)理事、華南理工大學(xué)教授金連文
如同人類需要同時(shí)調(diào)用視覺、聽覺、觸覺等多感官來全面地理解外部世界,大模型也需要綜合處理文字、圖片、表格等文本信息后做出判斷。“實(shí)戰(zhàn)”應(yīng)用標(biāo)準(zhǔn)對(duì)大模型的多模態(tài)內(nèi)容深度整合能力提出了新的要求,語(yǔ)義割裂、場(chǎng)景理解局限、決策失誤等常見的模型缺陷制約了其在行業(yè)中的應(yīng)用發(fā)展。論壇期間亮相的“多模態(tài)文本智能技術(shù)”方案,可通過文本相關(guān)空間位置理解深層語(yǔ)義邏輯,實(shí)現(xiàn)對(duì)多模態(tài)信息的“立體化綜合化理解”,賦予模型真正的文本“閱讀理解”能力。
文本智能技術(shù)助力解決多模態(tài)AI應(yīng)用難題
多模態(tài)指利用多種不同形式或感知渠道的信息進(jìn)行表達(dá)、交流和理解的方式,數(shù)據(jù)模態(tài)包括文本、圖像、音頻、視頻等。2025年Gartner人工智能技術(shù)成熟度曲線顯示,多模態(tài)AI將在未來五年成為各行業(yè)提升所有應(yīng)用和軟件產(chǎn)品功能的核心技術(shù)。圍繞多模態(tài)大模型性能優(yōu)化及行業(yè)應(yīng)用等問題,論壇嘉賓開展了一場(chǎng)深刻的討論。
為了助力大模型實(shí)現(xiàn)跨越模態(tài)的推理能力,哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部長(zhǎng)聘教授、博士生導(dǎo)師車萬(wàn)翔重點(diǎn)分享了“多模態(tài)思維鏈”技術(shù),該技術(shù)將推理邏輯分解為一系列可解釋的跨模態(tài)推理步驟,最終生成更為精準(zhǔn)和可靠的結(jié)論。除了幫助大模型理清邏輯,解決“胡編亂造”問題也是提升AI能力的重要方向。南開大學(xué)教授周宇則介紹了一種系統(tǒng)化的OCR幻覺緩解方案,為多模態(tài)大模型的可視文本感知能力提升提供了有效路徑。
![]()
哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部長(zhǎng)聘教授、博士生導(dǎo)師車萬(wàn)翔教授進(jìn)行主題分享
![]()
南開大學(xué)教授周宇進(jìn)行主題分享
真實(shí)的應(yīng)用場(chǎng)景是技術(shù)不斷迭代更新的動(dòng)力。論壇現(xiàn)場(chǎng),合合信息圖像算法研發(fā)總監(jiān)郭豐俊重點(diǎn)分享了文本智能技術(shù)的創(chuàng)新應(yīng)用,幫助用戶解決復(fù)雜場(chǎng)景下的文檔圖像問題。小紅書hi lab團(tuán)隊(duì)算法工程師燕青結(jié)合行業(yè)實(shí)踐,分享了一款基于單視覺語(yǔ)言模型的多語(yǔ)言文檔布局解析工具“dots.ocr”。
![]()
合合信息圖像算法研發(fā)總監(jiān)郭豐俊進(jìn)行主題分享
![]()
小紅書hi lab團(tuán)隊(duì)算法工程師燕青進(jìn)行主題分享
除了商業(yè)應(yīng)用,在文保領(lǐng)域,多模態(tài)大模型也發(fā)揮出了巨大價(jià)值。華中科技大學(xué)教授劉禹良在主題演講中介紹了首個(gè)覆蓋甲骨文專家破譯全流程的輔助考釋框架AlphaOracle,通過人類工作流啟發(fā)的音形義理破譯流程,實(shí)現(xiàn)字形分析、拓片用法總結(jié)和傳世文獻(xiàn)做證的思路,成功在“勞”等字的輔助破譯上取得突破。
![]()
華中科技大學(xué)教授劉禹良進(jìn)行主題分享
多模態(tài)文本智能技術(shù)構(gòu)建“感知-認(rèn)知-決策”技術(shù)新范式
實(shí)現(xiàn)具備自主感知、認(rèn)知與決策能力的通用人工智能(AGI),首要前提是讓機(jī)器充分理解作為知識(shí)載體的“文本”。基于此,合合信息的“多模態(tài)文本智能技術(shù)”方案,將技術(shù)處理對(duì)象從傳統(tǒng)的文檔(如PDF、Word等格式文件)延伸至多種承載文本信息的媒介,無(wú)論是論文、財(cái)報(bào)還是視頻、自然場(chǎng)景,都能成為系統(tǒng)的理解對(duì)象,還建立了從復(fù)雜場(chǎng)景文本感知到深層語(yǔ)義理解的技術(shù)閉環(huán),讓AI不僅能夠“看清”文本,更能夠理解其布局關(guān)聯(lián),解決不同模態(tài)間的信息割裂問題。
目前,“多模態(tài)文本智能技術(shù)”方案已將文本智能認(rèn)知程度從語(yǔ)義理解拓展到類人推理及自主機(jī)器決策,形成了從感知到認(rèn)知再到?jīng)Q策的技術(shù)實(shí)現(xiàn)路徑。
隨著多模態(tài)大模型融入產(chǎn)業(yè)進(jìn)程,行業(yè)對(duì)AI系統(tǒng)的需求正從“功能實(shí)現(xiàn)”向“業(yè)務(wù)賦能”深化。例如上述方案已在金融、醫(yī)藥、教育等專業(yè)領(lǐng)域開展應(yīng)用,通過對(duì)復(fù)雜文本的精準(zhǔn)感知、綜合理解和可靠決策,實(shí)現(xiàn)對(duì)業(yè)務(wù)流程的智能重構(gòu)。
何禾 曉風(fēng)