選自arv
機(jī)器之心編譯
為了探究 CV 領(lǐng)域的自監(jiān)督學(xué)習(xí)是否會(huì)影響 NLP 領(lǐng)域,來(lái)自加州大學(xué)伯克利分校和 Facebook AI 研究院的研究者提出了一種結(jié)合語(yǔ)言監(jiān)督和圖像自監(jiān)督的新框架 SLIP。
近來(lái)一些研究表明,在具有挑戰(zhàn)性的視覺(jué)識(shí)別任務(wù)上,自監(jiān)督預(yù)訓(xùn)練可以改善監(jiān)督學(xué)習(xí)。CLIP 作為一種監(jiān)督學(xué)習(xí)新方法,在各種基準(zhǔn)測(cè)試中都表現(xiàn)出優(yōu)異的性能。
近日,為了探究對(duì)圖像進(jìn)行自監(jiān)督學(xué)習(xí)的勢(shì)頭是否會(huì)進(jìn)入語(yǔ)言監(jiān)督領(lǐng)域,來(lái)自加州大學(xué)伯克利分校和 Facebook AI 研究院的研究者調(diào)查了 CLIP 形式的語(yǔ)言監(jiān)督是否也受益于圖像自監(jiān)督。該研究注意到,將兩種訓(xùn)練目標(biāo)結(jié)合是否會(huì)讓性能更強(qiáng)目前尚不清楚,但這兩個(gè)目標(biāo)都要求模型對(duì)有關(guān)圖像的質(zhì)量不同且相互矛盾的信息進(jìn)行編碼,因而會(huì)導(dǎo)致干擾。
論文地址:https://arv.org/abs/2112.12750v1
項(xiàng)目地址:https://github/facebookresearch/SLIP
為了探索這些問(wèn)題,該研究提出了一種結(jié)合語(yǔ)言監(jiān)督和自監(jiān)督的多任務(wù)框架 SLIP(Self-supervision meet Language-Image Pre-training),并在 YFCC100M 的一個(gè)子集上預(yù)訓(xùn)練各種 SLIP 模型,又在三種不同的設(shè)置下評(píng)估了表征質(zhì)量:零樣本遷移、線性分類和端到端微調(diào)。除了一組 25 個(gè)分類基準(zhǔn)之外,該研究還在 ImageNet 數(shù)據(jù)集上評(píng)估了下游任務(wù)的性能。
該研究通過(guò)對(duì)不同模型大小、訓(xùn)練計(jì)劃和預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)進(jìn)一步了驗(yàn)證了其發(fā)現(xiàn)。研究結(jié)果最終表明,SLIP 在大多數(shù)評(píng)估測(cè)試中都顯著提高了性能,這表明在語(yǔ)言監(jiān)督背景下自監(jiān)督具有普遍效用。此外,研究者更詳細(xì)地分析了該方法的各個(gè)組成部分,例如預(yù)訓(xùn)練數(shù)據(jù)集和數(shù)據(jù)處理方法的選擇,并討論了此類方法的評(píng)估局限性。
SLIP 框架
該研究提出了一種結(jié)合語(yǔ)言監(jiān)督和圖像自監(jiān)督的框架 SLIP,以學(xué)習(xí)沒(méi)有類別標(biāo)簽的視覺(jué)表征。在預(yù)訓(xùn)練期間,為語(yǔ)言監(jiān)督和圖像自監(jiān)督分支構(gòu)建每個(gè)輸入圖像的單獨(dú)視圖,然后通過(guò)共享圖像編碼器反饋。訓(xùn)練過(guò)程中圖像編碼器學(xué)會(huì)以語(yǔ)義上有意義的方式表征視覺(jué)輸入。然后該研究通過(guò)評(píng)估它們?cè)谙掠稳蝿?wù)中的效用來(lái)衡量這些學(xué)得表征的質(zhì)量。
方法
下圖算法 1 概述了用于自監(jiān)督的 SLIP-SimCLR。在 SLIP 中的每次前向傳遞期間,所有圖像都通過(guò)相同的編碼器進(jìn)行反饋。CLIP 和 SSL 目標(biāo)是在相關(guān)嵌入上計(jì)算的,然后再匯總為單個(gè)標(biāo)量損失,可以通過(guò)重新調(diào)整 SSL 目標(biāo)來(lái)平衡這兩個(gè)目標(biāo)。該研究將 SLIP-SimCLR 簡(jiǎn)稱為 SLIP。
SLIP 增加了圖像的處理數(shù)量,這導(dǎo)致產(chǎn)生約 3 倍多的激活,因此會(huì)擴(kuò)大模型的內(nèi)存占用并減慢訓(xùn)練過(guò)程中的前向傳遞速度。
改進(jìn)的訓(xùn)練過(guò)程
CLIP 的作者主要使用包含 400M 圖像 - 文本對(duì)的大型私有數(shù)據(jù)集進(jìn)行訓(xùn)練,這減少了正則化和數(shù)據(jù)增強(qiáng)的需求。在復(fù)現(xiàn) CLIP 時(shí),研究者發(fā)現(xiàn)了一些主要針對(duì)數(shù)據(jù)增強(qiáng)的簡(jiǎn)單調(diào)整。當(dāng)在 YFCC15M 上進(jìn)行預(yù)訓(xùn)練時(shí),這些調(diào)整顯著提高了性能。
該研究對(duì)訓(xùn)練過(guò)程進(jìn)行了改進(jìn),使用改進(jìn)后的 ResNet-50 實(shí)現(xiàn)了 34.6% 的零樣本遷移到 ImageNet,超過(guò)了原始結(jié)果的 31.3%,相比之下,另一項(xiàng)研究的 CLIP 復(fù)現(xiàn)在 ImageNet [29] 上實(shí)現(xiàn)了 32.7% 的準(zhǔn)確率。該研究的實(shí)驗(yàn)主要關(guān)注視覺(jué) Transformer 模型(ViT)系列,因?yàn)樗鼈兙哂袕?qiáng)大的擴(kuò)展行為 [17]。并且該研究使用改進(jìn)后的過(guò)程訓(xùn)練所有 ViT 模型,以便為該研究所提方法的評(píng)估比較設(shè)置強(qiáng)大的基線。
評(píng)估實(shí)驗(yàn)
ImageNet 分類任務(wù)
該研究在三種不同的設(shè)置下評(píng)估了模型在 ImageNet 上的性能:零樣本遷移、線性分類和端到端微調(diào)。
零樣本遷移任務(wù)在預(yù)訓(xùn)練后直接在分類基準(zhǔn)上評(píng)估模型性能,而無(wú)需更新任何模型權(quán)重。通過(guò)簡(jiǎn)單地選擇字幕嵌入與輸入圖像最接近的類,可以將使用對(duì)比語(yǔ)言監(jiān)督訓(xùn)練的模型用作圖像分類器; 線性分類,也稱為線性探測(cè),是一種用于評(píng)估無(wú)監(jiān)督或自監(jiān)督表征的標(biāo)準(zhǔn)評(píng)估方法。訓(xùn)練隨機(jī)初始化的***分類層,同時(shí)凍結(jié)所有其他模型權(quán)重; ***,另一種評(píng)估表征質(zhì)量的方法是,在對(duì)模型進(jìn)行端到端微調(diào)時(shí),評(píng)估預(yù)訓(xùn)練模型是否可以提高監(jiān)督學(xué)習(xí)的性能。自監(jiān)督學(xué)習(xí)中一種常見的評(píng)估設(shè)置是在 ImageNet(即 ImageNet-1K)上訓(xùn)練模型和線性分類器,即使沒(méi)有標(biāo)簽,它也是一個(gè)高度策劃和類平衡的數(shù)據(jù)集。表 1 在 YFCC15M 和 ImageNet 上使用 SimCLR 和 MoCo v3 訓(xùn)練 ViT-B/16。在 ImageNet 上對(duì)線性分類和端到端微調(diào)進(jìn)行了模型評(píng)估。當(dāng)在 YFCC15M 而不是 ImageNet 上進(jìn)行預(yù)訓(xùn)練時(shí),SimCLR 和 MoCo v3 的線性分類準(zhǔn)確率下降了 10% 以上,性能急劇下降。
下表 2 提供了三種尺寸的 Vision Transformer 和所有三種 ImageNet 設(shè)置的 CLIP、SimCLR 和 SLIP 的評(píng)估結(jié)果。所有模型都在 YFCC15M 上訓(xùn)練了 25 個(gè) epoch。該研究發(fā)現(xiàn)語(yǔ)言監(jiān)督和圖像自監(jiān)督在 SLIP 中建設(shè)性地相互作用,單獨(dú)提高了這兩種方法的性能。
模型規(guī)模和計(jì)算量擴(kuò)展
在這一部分,研究者探索了使用更大的計(jì)算量(訓(xùn)練更久)和更大的視覺(jué)模型之后,SLIP 的表現(xiàn)有何變化。他們注意到,YFCC15M 上的 100 個(gè)訓(xùn)練 epoch 對(duì)應(yīng)著 ImageNet1K 上的 1200 個(gè)訓(xùn)練 epoch。
下表 3 的結(jié)果表明,無(wú)論是增加訓(xùn)練時(shí)間預(yù)測(cè)(數(shù)據(jù)為往年僅供參考),還是增大模型尺寸,SLIP 都能實(shí)現(xiàn)良好的擴(kuò)展。
其他基準(zhǔn)
在下表 4 中,研究者評(píng)估了一組下游圖像分類任務(wù)上的 zero-shot 遷移學(xué)習(xí)性能。這些數(shù)據(jù)集跨越許多不同的領(lǐng)域,包括日常場(chǎng)景(如交通標(biāo)志)、專業(yè)領(lǐng)域(如醫(yī)療和衛(wèi)星圖像)、視頻幀、帶有或不帶有視覺(jué)上下文的渲染文本等。
在這些數(shù)據(jù)集上,我們看到,更大的模型和使用 SLIP 進(jìn)行更長(zhǎng)時(shí)間預(yù)測(cè)(數(shù)據(jù)為往年僅供參考)的訓(xùn)練通??梢蕴岣?zero-shot 遷移學(xué)習(xí)的準(zhǔn)確性。
其他預(yù)訓(xùn)練數(shù)據(jù)集
除了 YFCC15M 之外,研究者還用另外兩個(gè)圖像 - 文本數(shù)據(jù)集——CC12M 和 CC3M——進(jìn)行了實(shí)驗(yàn)。如下表 5 所示,他們?cè)?CC12M 和 CC3M 上同時(shí)使用 SLIP 和 CLIP 訓(xùn)練 ViT-B/16,并與他們之前在 YFCC15M 上得到的數(shù)據(jù)進(jìn)行比較。在所有的 ImageNet 評(píng)估設(shè)置中,SLIP 都比 CLIP 有改進(jìn)的余地。值得注意的是,在 CC12M 而不是 YCC15M 上預(yù)訓(xùn)練 SLIP 會(huì)產(chǎn)生較低的 zero-shot 準(zhǔn)確率,但實(shí)際上會(huì)帶來(lái)較高的線性和微調(diào)性能。CLIP 讓人看到了更驚艷的 1.6% 的微調(diào)性能提升。
其他自監(jiān)督框架
作者在論文中提到,SLIP 允許使用許多不同的自監(jiān)督方法。他們用 SimCLR 的不同替代方法——MoCo v3、BYOL 和 BeiT 在 ViT-B/16 上進(jìn)行了幾次實(shí)驗(yàn)。
下表 6 顯示,三種替代方法的表現(xiàn)都比不上 SLIP-SimCLR。最令人驚訝的結(jié)果是,盡管 BEiT 是這里測(cè)試的最強(qiáng)的自監(jiān)督方法,但 SLIP-BEiT 的表現(xiàn)***。這可能是由于預(yù)訓(xùn)練和部署階段之間的輸入差異較大。盡管如此,所有這些次優(yōu)的 SLIP 變體仍然比 CLIP 性能要高。
返回搜狐,查看更多
責(zé)任編輯:
文章標(biāo)題:當(dāng)自監(jiān)督遇上語(yǔ)言-圖像預(yù)訓(xùn)練,UC伯克利提出多任務(wù)框架SLIP
本文地址:http://balticsea-crewing.com/show-69068.html
本文由合作方發(fā)布,不代表中職學(xué)校招生網(wǎng)_55px.com.cn立場(chǎng),轉(zhuǎn)載聯(lián)系作者并注明出處:中職學(xué)校招生網(wǎng)_55px.com.cn
免責(zé)聲明:本文僅代表文章作者的個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性、真實(shí)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),請(qǐng)讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)聯(lián)系郵箱:dashenkeji8@163.com,我們將在第 一 時(shí) 間進(jìn)行核實(shí)處理。軟文/友鏈/推廣/廣告合作也可以聯(lián)系我。