Transformer 模型於機器視覺的應用

論文來源 – CAPABILITIES – Vision

在 2021 年 8 月的一篇論文中，史丹佛大學的研究人員將 Transformer 模型稱為「基礎模型」，他們認為這些模型推動了人工智慧的典範移轉。他們寫道：「在過去幾年，基礎模型之規模和範圍擴大了我們對可能性的想像。」
On the Opportunities and Risks of Foundation Models

Transformer 模型帶來的突破

通過大規模的自我監督學習，Transformer模型可以將多模態的原始感官資料轉化為視覺知識。這不僅有助於傳統的感知任務，還可能開創對時間和常識推理的新方法。這些資料可以來自不同的數據源和領域，顯示出在醫療和互動式感知環境中有廣泛的應用潛力。

在電腦視覺領域，Transformer模型能將來自多種來源和感測器的原始資料轉化成視覺知識，此知識適用於多種應用場景。這種思路其實是過去十年在該領域漸漸發展起來的。尤其是ImageNet的出現和監督式預訓練的技術，都帶領了電腦視覺朝向深度學習的方向演變。現今的深度學習模型超越了早期的傳統方法，能夠在大量資料上訓練後，再應用於如圖像識別、物件偵測和圖像分割等不同任務，這樣的思維持續為Transformer模型所採納。

Transformer模型的發展背後是先前方法的限制。傳統的監督學習需要昂貴且仔細收集的標籤，這限制了它的穩定性、泛化性和適用性。相對地，自我監督學習的進步為發展Transformer模型提供了新路徑，讓它能從大量的原始資料中獲取對視覺世界的上下文理解。雖然相對於整個領域的廣泛目標，Transformer模型的能力還在初級階段，但已在傳統電腦視覺任務上展現出增強的泛化能力，且預計這種進展會持續。長遠來看，Transformer模型減少對明確標籤的依賴可能會帶來如常識推理等基礎認知技能的進步，這在傳統監督學習中一直難以達成。

過去機器視覺的關鍵功能

這些任務涵蓋了電腦領域的多個方面，包括：

影像分類：將影像分為不同的類別或標籤，通常使用複雜神經網路（CNN）等深度學習模型進行分類。
目標偵測：辨識影像中的特定物體，並確定它們的位置和邊界框。
語意分割：將影像的分配到特定的像素類別，以實現像素級的影像分割。
動作辨識：辨識影像序列中的動作或運動，通常用於影片分析和動作捕捉。
場景圖產生：產生影像描述場景中物件以及它們之間關係的場景圖。
幾何、運動與3D任務：頭部了深度估計（工件的距離或深度資訊）、運動結構（推斷物體的運動）、表面法向偵測（辨識物體表面的法向方向）、曲率線（偵測物體的運動）曲率資訊）和關鍵點估計等3D任務。

深度學習模型的主要進展源於ImageNet資料集的引入。通常，模型先在像圖像分類這樣的監督訓練任務上進行訓練，然後根據特定的任務和資料集進行調整，以適應該任務或領域的需求。

電腦視覺任務在多種實際應用中，如自動駕駛、影像編輯、機器人和醫學影像分析都起到關鍵作用。深度學習的進步已大大提高了這些任務的效能，使其更符合實際需求。

新的視覺合成和無監督學習領域

GANs：透過一對競爭的生成器和判別器，GANs能夠創建具有個性和活潑的視覺內容。它們互相學習而不需要明確的監督，使GAN成為強大的視覺內容生成工具，廣泛應用於圖像生成和擴增實境。
VAEs：VAE是機率型的生成模型，能在無監督下學習視覺特性。透過學習潛在的表示，它對生成圖像有出色的能力。
對比學習：這是一種自我監督方法，透過分析資料樣本的相似性來學習特徵。常用於如影像檢索和確定相似性的任務中。
視覺屬性推論：某些神經模型能夠推測圖像中的特性，如顏色或形狀，即使沒有明確標籤。這通常利用自我監督方法，如重建或對比學習。
結合架構與規模：最新研究利用靈活的神經網路，如資料視覺轉換器，和大型訓練資料集，達到更佳的視覺合成和無監督學習效果。這增強了模型的規模和效能。

這些發展使得視覺合成和無監督學習在電腦視覺領域具有更廣泛的應用前景，有助於提高影像生成、影像處理、場景合成等任務的表現。同時，這些技術也為自動駕駛、虛擬實境、影像增強等領域提供了更多的可能性。

在無需明確標籤或註釋的訓練中，樣本的適應效率提高。視覺合成領域尤其如此，DALL-E就是一明例。但需了解，電腦視覺的基礎模型相比自然語言還在初階。圖像不僅包含物理場景理解、視覺常識、時間事件等，還涉及社會觀點。雖然這些都是目標，但因關注範疇廣，實際應用仍有挑戰。如，視覺問答系統在回答需常識理解的問題時表現不佳，因這類問題通常需外部知識，非單從圖像獲取。

Transformer 模型於機器視覺的可能應用

基礎模型的五個關鍵屬性：
*表達能力*——靈活地捕獲和表示豐富的資訊;
*可擴充性* ─ 高效使用大量資料;
多模式——將各種模式和領域連接在一起;
記憶能力——存儲大量積累的知識;
*組合能力*——概括到新的上下文、任務和環境。

環境智慧於醫療保健和家居：在這些場合，利用現有的智慧技術，transformer模型或許能更細緻地偵測人類活動和醫療狀況，並優化醫生、患者和消費者之間的交互體驗。
移動和消費者應用：具備更強大的多模態銜接的transformer模型可以在移動場景中提供更高效的互動，而該模型在視覺和語言生成上的進步也能讓計算攝影和內容編輯得到裨益。
機器人交互：transformer模型在機器人環境中的雙重輸入已被證實是有效的；基於大量自我為中心的視覺資料（真實或模擬，人或機器人）訓練的transformer模型可能通過捕捉更多的場景、視覺和動作來推進此領域。

Transformer 模型的可能挑戰

圖像理解與泛化：人類具有獨特的能力，可以清楚地解讀不易辨識的結構圖，並推斷出物體和場景的物理和幾何特性。雖然目前的transformer模型在圖像合成及細緻語言輸入的泛化上展現了潛力，但它們仍然難以適應簡單的形狀和顏色組合。泛化不僅僅是語義層面；視覺場景和物體自身都遵循特定的物理和幾何法則。transformer模型已初步掌握了對場景和物體幾何形狀的認知，且早期對物理場景和幾何形狀理解的研究，可能為transformer模型的進一步發展提供有益的方向。
計算效率與模型建立：當涉及到解析視覺、場景和事件的動態畫面時，人類展現了高效的能力。這些動態視覺流對於捕捉事件變化是十分重要的。Transformer模型已在模擬事件的長期連續性方面顯示初步能力，對於機器人等應用中的時間序列和因果一致性建模尤為有益。然而，相較於語言中的文字標記，低級的視覺輸入具有高維度：例如，一張1080p的圖像包含超過200萬像素。在這種背景下，模擬更多元的事件動態，特別是當涉及其他模式（如語音、光流等）和更高解析度時，是一大挑戰。顯然，處理每個像素是具挑戰性的。當前的視覺Transformer模型經常透過整合圖像區塊或多幀的嵌入來解決此問題，但這種做法可能會遺失某些細節。