亚洲av美国av产亚洲av图片,亚洲欧美自偷自拍另类视

用文本智能助力AGI落地，多模態(tài)文本智能大模型前沿技術(shù)與應(yīng)用論壇召開

來源：紫牛新聞

2025-10-21 12:43:00

隨著人工智能深入各行各業(yè)，多模態(tài)大模型正在成為AI發(fā)展的重要方向之一。近期，由中國(guó)圖象圖形學(xué)學(xué)會(huì)、中國(guó)人工智能學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)和中國(guó)自動(dòng)化學(xué)會(huì)聯(lián)合主辦，上海交通大學(xué)承辦的第八屆中國(guó)模式識(shí)別與計(jì)算機(jī)視覺學(xué)術(shù)會(huì)議（PRCV 2025）順利舉行。大會(huì)期間，“多模態(tài)文本智能大模型前沿技術(shù)與應(yīng)用”論壇（簡(jiǎn)稱“論壇”）獲得了廣泛關(guān)注。論壇匯集了來自華南理工大學(xué)、哈爾濱工業(yè)大學(xué)、南開大學(xué)、華中科技大學(xué)、小紅書及合合信息技術(shù)團(tuán)隊(duì)的頂尖專家與學(xué)者，深入探討多模態(tài)文本智能領(lǐng)域的最新技術(shù)突破與場(chǎng)景應(yīng)用案例。

中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)常務(wù)理事、華南理工大學(xué)教授金連文

如同人類需要同時(shí)調(diào)用視覺、聽覺、觸覺等多感官來全面地理解外部世界，大模型也需要綜合處理文字、圖片、表格等文本信息后做出判斷。“實(shí)戰(zhàn)”應(yīng)用標(biāo)準(zhǔn)對(duì)大模型的多模態(tài)內(nèi)容深度整合能力提出了新的要求，語(yǔ)義割裂、場(chǎng)景理解局限、決策失誤等常見的模型缺陷制約了其在行業(yè)中的應(yīng)用發(fā)展。論壇期間亮相的“多模態(tài)文本智能技術(shù)”方案，可通過文本相關(guān)空間位置理解深層語(yǔ)義邏輯，實(shí)現(xiàn)對(duì)多模態(tài)信息的“立體化綜合化理解”，賦予模型真正的文本“閱讀理解”能力。

文本智能技術(shù)助力解決多模態(tài)AI應(yīng)用難題

多模態(tài)指利用多種不同形式或感知渠道的信息進(jìn)行表達(dá)、交流和理解的方式，數(shù)據(jù)模態(tài)包括文本、圖像、音頻、視頻等。2025年Gartner人工智能技術(shù)成熟度曲線顯示，多模態(tài)AI將在未來五年成為各行業(yè)提升所有應(yīng)用和軟件產(chǎn)品功能的核心技術(shù)。圍繞多模態(tài)大模型性能優(yōu)化及行業(yè)應(yīng)用等問題，論壇嘉賓開展了一場(chǎng)深刻的討論。

為了助力大模型實(shí)現(xiàn)跨越模態(tài)的推理能力，哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部長(zhǎng)聘教授、博士生導(dǎo)師車萬(wàn)翔重點(diǎn)分享了“多模態(tài)思維鏈”技術(shù)，該技術(shù)將推理邏輯分解為一系列可解釋的跨模態(tài)推理步驟，最終生成更為精準(zhǔn)和可靠的結(jié)論。除了幫助大模型理清邏輯，解決“胡編亂造”問題也是提升AI能力的重要方向。南開大學(xué)教授周宇則介紹了一種系統(tǒng)化的OCR幻覺緩解方案，為多模態(tài)大模型的可視文本感知能力提升提供了有效路徑。

哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部長(zhǎng)聘教授、博士生導(dǎo)師車萬(wàn)翔教授進(jìn)行主題分享

南開大學(xué)教授周宇進(jìn)行主題分享

真實(shí)的應(yīng)用場(chǎng)景是技術(shù)不斷迭代更新的動(dòng)力。論壇現(xiàn)場(chǎng)，合合信息圖像算法研發(fā)總監(jiān)郭豐俊重點(diǎn)分享了文本智能技術(shù)的創(chuàng)新應(yīng)用，幫助用戶解決復(fù)雜場(chǎng)景下的文檔圖像問題。小紅書hi lab團(tuán)隊(duì)算法工程師燕青結(jié)合行業(yè)實(shí)踐，分享了一款基于單視覺語(yǔ)言模型的多語(yǔ)言文檔布局解析工具“dots.ocr”。

合合信息圖像算法研發(fā)總監(jiān)郭豐俊進(jìn)行主題分享

小紅書hi lab團(tuán)隊(duì)算法工程師燕青進(jìn)行主題分享

除了商業(yè)應(yīng)用，在文保領(lǐng)域，多模態(tài)大模型也發(fā)揮出了巨大價(jià)值。華中科技大學(xué)教授劉禹良在主題演講中介紹了首個(gè)覆蓋甲骨文專家破譯全流程的輔助考釋框架AlphaOracle，通過人類工作流啟發(fā)的音形義理破譯流程，實(shí)現(xiàn)字形分析、拓片用法總結(jié)和傳世文獻(xiàn)做證的思路，成功在“勞”等字的輔助破譯上取得突破。

華中科技大學(xué)教授劉禹良進(jìn)行主題分享

多模態(tài)文本智能技術(shù)構(gòu)建“感知-認(rèn)知-決策”技術(shù)新范式

實(shí)現(xiàn)具備自主感知、認(rèn)知與決策能力的通用人工智能（AGI），首要前提是讓機(jī)器充分理解作為知識(shí)載體的“文本”。基于此，合合信息的“多模態(tài)文本智能技術(shù)”方案，將技術(shù)處理對(duì)象從傳統(tǒng)的文檔（如PDF、Word等格式文件）延伸至多種承載文本信息的媒介，無(wú)論是論文、財(cái)報(bào)還是視頻、自然場(chǎng)景，都能成為系統(tǒng)的理解對(duì)象，還建立了從復(fù)雜場(chǎng)景文本感知到深層語(yǔ)義理解的技術(shù)閉環(huán)，讓AI不僅能夠“看清”文本，更能夠理解其布局關(guān)聯(lián)，解決不同模態(tài)間的信息割裂問題。

目前，“多模態(tài)文本智能技術(shù)”方案已將文本智能認(rèn)知程度從語(yǔ)義理解拓展到類人推理及自主機(jī)器決策，形成了從感知到認(rèn)知再到?jīng)Q策的技術(shù)實(shí)現(xiàn)路徑。

隨著多模態(tài)大模型融入產(chǎn)業(yè)進(jìn)程，行業(yè)對(duì)AI系統(tǒng)的需求正從“功能實(shí)現(xiàn)”向“業(yè)務(wù)賦能”深化。例如上述方案已在金融、醫(yī)藥、教育等專業(yè)領(lǐng)域開展應(yīng)用，通過對(duì)復(fù)雜文本的精準(zhǔn)感知、綜合理解和可靠決策，實(shí)現(xiàn)對(duì)業(yè)務(wù)流程的智能重構(gòu)。

何禾曉風(fēng)

中文字幕欧美日韩va免费视频,亚洲aⅴ在线无码播放毛片一线天,亚洲无码一区二区三区,自拍偷自拍亚洲精品熟妇人,中文字幕人妻高清乱码