好看的亚洲欧美日韩综合久久久,久久九九久久九九久久精品,国语92电影网午夜福利

論文 RefMask3D: Language-Guided Transformer for 3D Referring Segmentation 提出了一種新的方法來解決3D點(diǎn)云中的目標(biāo)識別和分割問題，特別是基于語言描述的目標(biāo)識別。

(a) 兩階段框架在后期匹配階段融合語言特征，表現(xiàn)出有限的交互和視覺與語言特征之間較弱的對齊。相比之下，(b) 我們的RefMask3D在早期特征編碼階段和解碼階段都進(jìn)行了全面的視覺-語言融合。結(jié)合對比學(xué)習(xí)，我們的模型比兩階段方法學(xué)習(xí)到更結(jié)構(gòu)化的視覺-語言聯(lián)合特征空間。

主要貢獻(xiàn)

所提出的RefMask3D框架概述。它通過幾何增強(qiáng)的組詞注意力機(jī)制從點(diǎn)編碼器中提取富含文本信息的點(diǎn)特征。隨后，語言原語構(gòu)建模塊生成用于體現(xiàn)特定語義屬性的原語。這些原語隨后被輸入到Transformer解碼器中，以聚焦于多樣的語義。對象聚類模塊用于分析語言原語之間的相互關(guān)系，統(tǒng)一它們的見解并提取共同特征，從而提高目標(biāo)識別的精度。

幾何增強(qiáng)的組詞注意力機(jī)制（Geometry-Enhanced Group-Word Attention, GEGWA）：

目的：解決點(diǎn)云數(shù)據(jù)稀疏和不規(guī)則性帶來的噪聲問題。

方法：在點(diǎn)編碼器的每個(gè)階段進(jìn)行語言和局部組（子云）之間的跨模態(tài)注意力機(jī)制。

優(yōu)勢：利用幾何相鄰點(diǎn)的內(nèi)在關(guān)系，減少了直接點(diǎn)到詞的關(guān)聯(lián)帶來的噪聲，提高了模型對語言和幾何數(shù)據(jù)的理解能力。

效果：顯著提高了模型在跨模態(tài)交互中的表現(xiàn)。

語言原語構(gòu)建策略（Linguistic Primitives Construction, LPC）：

目的：解決現(xiàn)有方法在訓(xùn)練和優(yōu)化過程中面臨的挑戰(zhàn)，如噪聲和不足的訓(xùn)練。

方法：初始化一組多樣的原語，每個(gè)原語代表不同的語義屬性（如形狀、顏色、大小、關(guān)系、位置等）。

優(yōu)勢：通過與特定語言信息的交互，這些原語能夠獲取相應(yīng)的屬性，從而增強(qiáng)模型在點(diǎn)云中準(zhǔn)確定位和識別目標(biāo)的能力。

效果：提高了模型在多樣語義信息下的目標(biāo)識別能力。

對象聚類模塊（Object Cluster Module）：

目的：實(shí)現(xiàn)對語言和視覺信息的整體理解，從而準(zhǔn)確識別唯一目標(biāo)對象。

方法：分析語言原語之間的關(guān)系，提取共同特征，形成最終的對象嵌入。

優(yōu)勢：幫助模型加深對語言和視覺信息的整體理解。

效果：顯著提高了模型在復(fù)雜場景下的目標(biāo)識別能力。

方法概述

架構(gòu)概覽：提出了一個(gè)端到端的3D指代分割模型RefMask3D，輸入為點(diǎn)云場景和文本描述，輸出為目標(biāo)對象的點(diǎn)狀掩碼。與傳統(tǒng)方法不同，RefMask3D在點(diǎn)編碼器中集成了多模態(tài)融合，利用幾何增強(qiáng)的組詞注意力機(jī)制來處理局部組（子云），減少了直接點(diǎn)到詞關(guān)聯(lián)帶來的噪聲。

視覺和語言特征提取：使用文本編碼器將文本描述嵌入到語言特征中，并在編碼器中建立深度交互。

對象聚類模塊：通過分析語言原語之間的關(guān)系，提取共同特征，形成最終的對象嵌入，幫助模型加深對語言和視覺信息的整體理解。

實(shí)驗(yàn)結(jié)果

組件分析：詳細(xì)實(shí)驗(yàn)表明，幾何增強(qiáng)的組詞注意力機(jī)制（GEGWA）和語言原語構(gòu)建策略（LPC）顯著提高了模型的性能。通過對比不同的查詢輸入方法，LPC在準(zhǔn)確定位和識別目標(biāo)對象方面表現(xiàn)優(yōu)異。

性能對比：RefMask3D在3D指代分割和視覺定位任務(wù)中取得了新的最先進(jìn)性能，顯著超越了之前的方法。

可視化結(jié)果：可視化結(jié)果展示了不同原語代表的語義屬性（如顏色、關(guān)系、名稱等），以及RefMask3D在復(fù)雜語言描述下準(zhǔn)確分割目標(biāo)對象的能力。

原語熱圖可視化。不同的原語代表不同的語義屬性。藍(lán)色表示最低響應(yīng)水平，而紅色表示最高響應(yīng)水平。

結(jié)論

論文提出的方法通過幾何增強(qiáng)的組詞注意力機(jī)制、語言原語構(gòu)建策略和對象聚類模塊，顯著提高了3D點(diǎn)云中基于語言描述的目標(biāo)識別和分割性能。通過創(chuàng)新的跨模態(tài)融合和特征提取方法，為3D點(diǎn)云中的目標(biāo)識別和分割提供了新的思路和技術(shù)手段。

相關(guān)信息

代碼：https://github.com/heshuting555/refmask3d

論文：https://arxiv.org/abs/2407.18244v1

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATXMEGA32E5-M4U	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 32UQFN	ECAD模型下載ECAD模型	$2.73	查看
STM32F427VIT6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC	ECAD模型下載ECAD模型	$22.31	查看
ATSAM4S16BA-AN	1	Atmel Corporation	RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64		$8.76	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

ATXMEGA32E5-M4U

Microchip Technology Inc

IC MCU 8BIT 32KB FLASH 32UQFN

$2.73

查看

STM32F427VIT6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC

$22.31

查看

ATSAM4S16BA-AN

Atmel Corporation

RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64

$8.76

查看

RefMask3D: 基于語言引導(dǎo)的3D指代分割Transformer

主要貢獻(xiàn)

方法概述

實(shí)驗(yàn)結(jié)果

結(jié)論

推薦器件

相關(guān)推薦