Vision Transformers (ViT)

Vision Transformers (ViT)

Die Bildverarbeitung galt lange Zeit als die Domäne der Convolutional Neural Networks (CNNs). Ihre Fähigkeit, mit lokalem Fokus durch Faltungsschichten visuelle Informationen effizient zu extrahieren, revolutionierte Felder wie Bilderkennung, Objektdetektion und medizinische Bildanalyse. Doch mit der rapiden Weiterentwicklung im Bereich des Natural Language Processing (NLP) und insbesondere dem kometenhaften Aufstieg von Transformer-Architekturen wie BERT und GPT, kam eine entscheidende Frage auf:

Könnten Transformer, ursprünglich für Sprachdaten entwickelt, auch Bilder verstehen?

Die Antwort lautet: Ja – und zwar mit bemerkenswertem Erfolg. Vision Transformers (ViT) übertragen das Prinzip der Self-Attention aus dem NLP auf die visuelle Domäne und verzichten dabei vollständig auf konventionelle Faltungsschichten. Stattdessen behandeln sie Bilder als Sequenzen kleiner Patch-Blöcke, analog zu Wörtern in einem Satz, und modellieren globale Beziehungen über das gesamte Bild hinweg.

Der Paradigmenwechsel liegt genau darin: Während CNNs auf lokal beschränkte Kontextverarbeitung setzen, ermöglicht ViT einen unbegrenzten globalen Blick – jeder Bildbereich kann theoretisch mit jedem anderen interagieren. Diese Eigenschaft bringt enorme Vorteile in Bezug auf Generalisierung, Transferlernen und interpretierbare Repräsentationen.

Historischer Kontext: Der Siegeszug von Convolutional Neural Networks (CNNs) – und ihre Grenzen

CNNs dominierten über ein Jahrzehnt die Computer Vision. Seit dem Durchbruch von AlexNet im Jahr 2012, das erstmals Deep Learning erfolgreich auf ImageNet anwendete, entwickelten sich leistungsstarke Architekturen wie VGG, ResNet und EfficientNet. Diese Modelle verbesserten kontinuierlich Genauigkeit, Effizienz und Tiefe neuronaler Netzwerke.

Das Grundprinzip eines CNNs basiert auf Faltungen – mathematisch formuliert als:

\(y_{i,j}^{(k)} = \sigma\left(\sum_{m,n} x_{i+m,j+n} \cdot w_{m,n}^{(k)} + b^{(k)}\right)\)

Dabei repräsentieren \(x\) die Eingabematrix, \(w^{(k)}\) die Filtergewichte, und \(\sigma\) eine Aktivierungsfunktion wie ReLU.

Doch trotz ihres Erfolgs stoßen CNNs an strukturelle Grenzen:

  • Lokale Rezeptive Felder: Informationen werden primär lokal verarbeitet, globale Kontextinformationen entstehen erst in tiefen Schichten.
  • Translationale Invarianz, aber keine Relationserkennung: CNNs erkennen Objekte unabhängig von ihrer Position – jedoch nicht deren Beziehung zueinander.
  • Manuelle Induktionsbiases: Architekturen wie Faltungen und Pooling wurden manuell eingebracht und schränken die Modellflexibilität ein.

Diese Einschränkungen waren der Nährboden für neue Denkansätze, die mit Vision Transformers eine radikal neue Richtung einschlugen.

These des Artikels: Vision Transformers bieten eine skalierbare, architekturübergreifende Alternative zu klassischen CNNs für visuelle Aufgaben

Dieser Artikel argumentiert, dass Vision Transformers mehr sind als ein weiteres Modell – sie sind ein Fundament für eine neue Ära der visuellen künstlichen Intelligenz. Durch die vollständige Abkehr von Faltungen und die konsequente Nutzung globaler Self-Attention öffnen ViTs die Tür zu:

  • Skalierbarkeit: Durch einfache Architektur ohne spezialisierten Bias können Modelle flexibel wachsen.
  • Universelle Einsetzbarkeit: Die gleiche Struktur kann für Bild-, Text- und sogar multimodale Daten verwendet werden.
  • Stärkere Generalisierung: Globale Abhängigkeiten werden direkt modelliert, ohne tief geschachtelte Strukturen.
  • Erweiterte Interpretierbarkeit: Die Aufmerksamkeitsmechanismen machen visuelle Entscheidungsprozesse nachvollziehbarer.

Die These lautet daher: Vision Transformers sind keine bloße Alternative zu CNNs – sie sind die erste echte, architekturübergreifende Plattform für visuelle Intelligenz, auf der zukünftige Systeme (bis hin zu multimodaler AGI) aufgebaut werden könnten.

Theoretische Grundlagen und Architektur von ViT

Ursprung und Konzept

Die Adaption des Transformer-Modells aus der NLP-Domäne

Der ursprüngliche Transformer wurde 2017 im bahnbrechenden Paper “Attention is All You Need” von Vaswani et al. eingeführt und revolutionierte die Verarbeitung natürlicher Sprache. Sein zentrales Element, die Self-Attention, ermöglichte es dem Modell, beliebige Beziehungen zwischen Token zu lernen, unabhängig von deren Position im Eingabesequenzraum.

Die zentrale Gleichung der Scaled Dot-Product Attention lautet:

\(\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^\top}{\sqrt{d_k}} \right) V\)

Hierbei sind:

  • \(Q\): Queries
  • \(K\): Keys
  • \(V\): Values
  • \(d_k\): Dimension der Keys

Dieser Mechanismus wurde in der NLP-Welt schnell zur dominierenden Architektur – doch seine Anwendung auf Bilder war lange Zeit umstritten. ViT stellte diese Barriere infrage, indem es die Schlüsselidee des Transformers auf Bilddaten übertrug: Nicht Pixel, sondern Bild-Patches werden als Eingabesequenz interpretiert – analog zu Wörtern in einem Satz.

Wesentliche Unterschiede zu CNNs im Kontext der Bildverarbeitung

Während CNNs ihre Stärke aus lokal verschobenen Filtern und Faltungsoperationen ziehen, verwendet ViT keinerlei Faltungsoperation. Die Unterschiede lassen sich wie folgt zusammenfassen:

Eigenschaft CNN Vision Transformer
Induktionsbias Hoch (Faltung, Lokalität, Translation) Gering
Kontextreichweite Lokal, wachsend mit Tiefe Global, in jeder Schicht
Architektur Speziell für Bilder Generalisiert über Modalitäten
Datenbedarf Moderat Sehr hoch (für Pretraining)

Diese Unterschiede sind nicht nur akademischer Natur, sondern spiegeln sich in der Trainings- und Generalisierungsleistung wider – insbesondere bei sehr großen Modellen.

Überblick über das Paper „An Image is Worth 16×16 Words“ (Dosovitskiy et al., 2020)

Mit diesem Titel veröffentlichte Google Research im Jahr 2020 das richtungsweisende Paper, das den Grundstein für Vision Transformers legte. Das zentrale Konzept:

  • Ein Bild \(x \in \mathbb{R}^{H \times W \times C}\) wird in flache, nicht überlappende Patches der Größe \(P \times P\) aufgeteilt.
  • Jeder Patch wird zu einem Vektor \(x_p \in \mathbb{R}^{P^2 \cdot C}\) abgeflacht.
  • Die resultierende Sequenz wird durch eine lineare Projektion zu einem Satz von patch embeddings transformiert.

Die Autoren zeigten, dass ViTs, trotz des Fehlens konvolutionaler Induktionsbiases, bei ausreichender Datenmenge (z. B. JFT-300M) CNNs in ihrer Leistung übertreffen können – und dabei zusätzlich eine klarere Trennung semantischer Konzepte im Feature-Space ermöglichen.

Aufbau eines Vision Transformers

Patch Embeddings: Bilder in Sequenzen verwandeln

Im Gegensatz zu CNNs, bei denen der gesamte Bildkontext durch verschachtelte Faltungsschichten erzeugt wird, transformiert ViT das Bild direkt zu einer Sequenz von „Wörtern“. Dies geschieht folgendermaßen:

  • Gegeben ist ein Bild mit Höhe \(H\), Breite \(W\) und Kanälen \(C\).
  • Das Bild wird in \(N = \frac{HW}{P^2}\) Patches unterteilt.
  • Jedes Patch \(x_p \in \mathbb{R}^{P^2 \cdot C}\) wird durch eine lineare Projektion zu einem Patch-Embedding \(z_p \in \mathbb{R}^{D}\).

Mathematisch:

\(z_p = E \cdot \text{flatten}(x_p)\)

wobei \(E\) eine lernbare Gewichtsmatrix ist.

Ein [CLS]-Token (analog zu BERT) wird zusätzlich an den Anfang der Sequenz gesetzt, um die globale Bildrepräsentation zu aggregieren.

Positionale Kodierungen: Ortsinformation in sequenzielle Daten einbetten

Da Transformer keine inhärente Ortsinformation besitzen, müssen Positionen explizit codiert werden. ViT verwendet dazu feste oder lernbare Vektoren \(p_i \in \mathbb{R}^{D}\), die zu jedem Patch-Embedding addiert werden:

\(z_i^0 = x_i + p_i\)

Diese Positionsembeddings sind entscheidend für das Lernen struktureller Zusammenhänge zwischen Patches.

Multi-Head Self-Attention: Konzepte und Vorteile gegenüber Faltungsoperationen

Der Transformer-Block besteht aus mehreren Attention-Köpfen, wobei jeder Kopf unabhängig Kontextinformationen berechnet:

\(\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O\)

Jeder Kopf verarbeitet eigene Projektionen:

\(\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)\)

Diese Architektur erlaubt es dem Modell, multiple semantische Beziehungen parallel zu erfassen – beispielsweise Form, Farbe, Lage und Textur.

Im Unterschied zu CNNs, die auf lokale Filter beschränkt sind, kann Self-Attention beliebige Beziehungen modellieren – unabhängig von Abstand oder Position im Bild.

Layer Normalization und MLP-Blöcke

Jeder Transformer-Block besteht aus:

  1. LayerNorm → Multi-Head Attention → Skip Connection
  2. LayerNorm → MLP → Skip Connection

Das MLP besteht typischerweise aus zwei linearen Schichten mit GELU-Aktivierung:

\(\text{MLP}(x) = W_2 \cdot \text{GELU}(W_1 \cdot x)\)

Diese Struktur sorgt für Stabilität, nichtlineare Transformation und fördert das Lernen komplexer Repräsentationen.

Trainingsparadigmen

Pre-Training auf großen Datensätzen (z. B. JFT-300M)

Da Vision Transformers auf kontextfreie Architekturen verzichten, benötigen sie große Datenmengen zum Lernen semantischer Strukturen. In der Originalarbeit wurde ViT auf dem gigantischen JFT-300M-Datensatz vortrainiert – mit über 300 Millionen Bildern.

Die zentrale Trainingsstrategie lautet: Pretrain once, finetune many – das Modell lernt allgemeine Repräsentationen, die später auf spezifische Aufgaben angepasst werden können.

Fine-Tuning auf spezifischen Tasks (z. B. ImageNet, CIFAR-10)

Nach dem Pretraining wird das Modell für konkrete Aufgaben wie Klassifikation, Segmentierung oder Objekterkennung feinjustiert. Dabei ersetzt man oft nur die Klassifikationsschicht am Ende und trainiert mit einer kleineren Lernrate:

\(\hat{y} = \text{softmax}(W_{\text{cls}} \cdot z_{\text{[CLS]}})\)

wobei \(z_{\text{[CLS]}}\) die Repräsentation des [CLS]-Tokens ist.

Data Augmentation und Regularisierung (z. B. Token Mixing, Stochastic Depth)

Um Überanpassung zu vermeiden und die Generalisierungsfähigkeit zu erhöhen, kommen mehrere Techniken zum Einsatz:

  • Token Mixing: Shuffle oder mix von Patch-Reihenfolgen zur Förderung invarianten Lernens.
  • Stochastic Depth: Zufälliges Weglassen von Layers während des Trainings.
  • Mixup und CutMix: Kombination verschiedener Bilder zur Erweiterung des Feature-Spektrums.

Diese Verfahren wirken dem hohen Datenbedarf entgegen und machen das Training robuster – besonders bei kleineren Datensätzen.

Vergleich: ViT vs. CNN

Performanz und Generalisierung

Benchmarks auf ImageNet, COCO, CIFAR

Vision Transformers zeigen auf vielen Benchmark-Datensätzen eine bemerkenswerte Performance – insbesondere bei großer Modellgröße und ausreichendem Pretraining. Auf ImageNet-1k übertrafen ViTs bei vergleichbarer Parametereffizienz viele etablierte CNNs:

Modell Top-1 Accuracy (ImageNet) Parameteranzahl
ResNet-152 78.3 % 60 Mio.
EfficientNet-B7 84.3 % 66 Mio.
ViT-L/16 (pretrained on JFT) 88.5 % 307 Mio.

Auch auf COCO (Objekterkennung) und CIFAR-10/100 zeigen ViTs nach dem Fine-Tuning starke Leistungen, jedoch mit klarer Abhängigkeit vom verwendeten Pretraining-Datensatz. Ohne vortrainierte Gewichte bleiben sie deutlich hinter CNNs zurück.

Transferfähigkeit auf neue Datensätze

Ein klarer Vorteil von ViTs liegt in ihrer Transferfähigkeit. Aufgrund der globalen Self-Attention lernen sie umfassendere semantische Konzepte, die sich leichter auf neue Domänen übertragen lassen. Modelle wie ViT-L oder Swin-Transformer zeigen hohe Performanz bei:

  • Medical Imaging
  • Remote Sensing
  • Fine-Grained Classification
  • Low-Data Scenarios (mit Data-efficient Varianten)

Das Konzept des Zero-Shot-Transferlernens, bekannt aus multimodalen Modellen wie CLIP, ist direkt durch die ViT-Architektur begünstigt.

Robustheit gegen adversariale Angriffe

ViTs zeigen tendenziell eine höhere Robustheit gegen adversariale Störungen im Vergleich zu CNNs. Dies liegt unter anderem an der fehlenden lokalen Bias-Struktur: Während CNNs durch minimale lokale Perturbationen getäuscht werden können, verarbeiten ViTs Informationen global und verteilen Bedeutung auf viele Patches.

Studien zeigen, dass ViTs bei Angriffen wie FGSM (Fast Gradient Sign Method) oder PGD (Projected Gradient Descent) höhere Klassifikationssicherheit behalten – allerdings ist auch hier der Trainingsdatensatz entscheidend.

Skalierbarkeit und Datenabhängigkeit

Warum ViTs große Datenmengen benötigen

Ein zentraler Unterschied zu CNNs ist der fehlende induktive Bias bei ViTs. CNNs profitieren durch Faltung und Pooling von impliziten Annahmen über Bildstruktur (z. B. Translationseinvarianz). ViTs hingegen müssen diese Strukturen aus Daten lernen.

Je weniger dieser Bias vorhanden ist, desto mehr statistische Evidenz braucht das Modell, um semantische Invarianten zu abstrahieren. Dies führt zu einem exponentiell höheren Datenhunger. Für den originalen ViT-Benchmark waren z. B. folgende Datenmengen notwendig:

  • ImageNet-1k (1.2 Mio Bilder) → unterdurchschnittlich ohne Pretraining
  • JFT-300M (300 Mio Bilder) → signifikante Leistungssteigerung

Kompensationsmechanismen: Data-efficient ViT (DeiT), Knowledge Distillation

Zur Reduktion des Datenbedarfs wurden folgende Strategien entwickelt:

  • Data-efficient Image Transformers (DeiT)
    Dieses Modell wurde mit nur 1.2 Mio Bildern auf ImageNet trainiert – ohne externes Pretraining. Möglich wurde dies durch:

    • Extensive Augmentation (Mixup, CutMix, RandAugment)
    • Distillation mit einem CNN-Lehrermodell: Ein distillation token lernt explizit, die Vorhersagen des CNN nachzuahmen.
  • Knowledge Distillation
    Bei diesem Verfahren wird eine Zielfunktion ergänzt:\(\mathcal{L} = \lambda \cdot \mathcal{L}{\text{CE}} + (1 – \lambda) \cdot \mathcal{L}{\text{KD}}\)wobei \(\mathcal{L}_{\text{KD}}\) die Kullback-Leibler-Divergenz zur Lehrer-Distribution beschreibt.

Diese Mechanismen verbessern die Datenökonomie von ViTs erheblich, ohne den Architekturvorteil aufzugeben.

Vergleich der Trainingskosten (Rechenzeit, Speicher, Energie)

ViTs sind teurer zu trainieren als CNNs – sowohl was Rechenzeit, Speicherbedarf als auch Energie betrifft:

Modell Training Time (TPUv3) FLOPs Max Memory
ResNet-50 16 Stunden 4.1 GFLOPs 7.1 GB
ViT-B/16 55 Stunden 17.6 GFLOPs 17.3 GB

Insbesondere die Self-Attention-Skalierung von \(O(n^2)\) in Bezug auf die Patchanzahl ist kritisch für große Auflösungen. Die Forschung arbeitet derzeit aktiv an Effizienzvarianten, z. B. Sparse Attention, Performer, Linformer und Mobile ViT.

Interpretierbarkeit

Visualisierung von Attention Maps

Ein großer Vorteil von ViTs ist die inhärente Interpretierbarkeit durch Attention Maps. Jede Attention-Schicht kann analysiert werden, um zu verstehen, welche Patches sich gegenseitig „beachten“. Besonders der [CLS]-Token zeigt dabei, welche Bildbereiche entscheidend für die Klassifikation waren.

Visualisierungen können erzeugt werden durch:

\(\text{Attention Rollout}(L) = A^1 \cdot A^2 \cdot \dots \cdot A^L\)

wobei \(A^i\) die gewichtete Attention-Matrix der \(i\)-ten Schicht ist.

Erklärung von Entscheidungsprozessen im Gegensatz zu CNN-Filtern

CNNs interpretieren Bilder über Aktivierungskarten von Feature Maps – diese sind jedoch oft schwer auf semantische Inhalte zurückzuführen. ViTs hingegen erlauben die Darstellung semantischer Relationen durch Attention-Flüsse.

Beispiel: In der Objekterkennung zeigt die Attention, welche Patches für das Erkennen eines Hundes herangezogen wurden – inklusive Kontextinformationen wie Hintergrund, Schatten oder Bewegung.

Beitrag zur erklärbaren KI (XAI)

ViTs leisten einen wichtigen Beitrag zur erklärbaren künstlichen Intelligenz (XAI). Durch die explizite Modellierung von Relevanzverteilungen über das ganze Bild lassen sich Schlüsse darüber ziehen:

  • Welche Bildbereiche für die Entscheidung relevant waren
  • Welche Patches ignoriert oder überschätzt wurden
  • Welche semantischen Konzepte durch das Modell intern „verstanden“ wurden

Dies ist besonders bedeutsam für kritische Anwendungen wie Medizin, autonomes Fahren oder Rechtsprechung, wo Nachvollziehbarkeit eine ethische Notwendigkeit ist.

Varianten und Weiterentwicklungen

Data-efficient Image Transformers (DeiT)

Motivation und Architektur

Der ursprüngliche ViT zeigte zwar überragende Leistungen – allerdings nur bei gigantischen Trainingsmengen wie JFT-300M. Für viele reale Anwendungen, insbesondere im akademischen oder industriellen Umfeld, ist dieser Datenbedarf schlicht nicht realisierbar.

Data-efficient Image Transformers (DeiT) wurden 2021 von Facebook AI vorgestellt, um genau dieses Problem zu lösen. Ziel: Ein ViT-Modell, das direkt auf ImageNet-1k (1,2 Mio. Bilder) trainiert werden kann, ohne externes Pretraining.

Die Architektur bleibt weitgehend gleich zum Original-ViT, allerdings werden leistungsstarke Regularisierungs- und Augmentationstechniken eingebaut:

  • RandAugment
  • Mixup und CutMix
  • Stochastic Depth
  • Knowledge Distillation mit CNN-Lehrermodellen

Rolle der distillation tokens

Ein zentrales Merkmal von DeiT ist die Einführung des distillation tokens – inspiriert von der Tokenisierung des [CLS]-Tokens bei BERT. Dieser Token interagiert direkt mit der Lehrerausgabe und erhält ein eigenes Klassifikationsziel.

Während der Trainingsprozess klassischerweise den Cross-Entropy-Loss \(\mathcal{L}_{\text{CE}}\) nutzt, verwendet DeiT zusätzlich einen Distillationsverlust:

\(\mathcal{L} = \lambda \cdot \mathcal{L}{\text{CE}}^{\text{student}} + (1 – \lambda) \cdot \mathcal{L}{\text{KD}}^{\text{teacher}}\)

Die Resultate zeigen, dass der distillation token tatsächlich explizites Wissen des CNN-Lehrermodells übernimmt – während der reguläre [CLS]-Token eigenständige Vorhersagen lernt.

Resultate bei kleinen Datensätzen

Trotz des geringen Trainingsvolumens erzielt DeiT auf ImageNet erstaunliche Ergebnisse:

Modell Top-1 Accuracy Pretraining?
DeiT-Ti (Tiny) 72.2 % Nein
DeiT-S (Small) 79.9 % Nein
DeiT-B (Base) 81.8 % Nein

Damit demonstriert DeiT eindrucksvoll, dass Transformer-basierte Vision-Modelle auch unter restriktiven Bedingungen erfolgreich trainiert werden können – vorausgesetzt, sie erhalten geeignete architektonische und augmentative Unterstützung.

Swin Transformer (Shifted Window)

Lokale Attention mit Fenstertechnik

Der Swin Transformer (hierarchischer Transformer mit verschobenen Fenstern) wurde entwickelt, um die quadratisch wachsende Komplexität der klassischen Self-Attention zu umgehen. Statt globale Attention auf dem gesamten Bild zu berechnen, unterteilt Swin die Eingabe in lokale Fenster – typischerweise \(7 \times 7\) Patches.

Innerhalb jedes Fensters erfolgt die Self-Attention nur lokal – also mit einer Komplexität von \(O(M^2)\), wobei \(M\) die Patchanzahl pro Fenster ist (nicht des gesamten Bildes). In der nächsten Schicht werden die Fenster verschoben (shifted), um Interaktion zwischen benachbarten Bereichen zu ermöglichen.

Diese Technik hat mehrere Vorteile:

  • Deutlich reduzierter Speicherverbrauch
  • Effizienz für große Auflösungen
  • Erhalt lokaler und globaler Strukturen

Hierarchische Struktur als CNN-Hybrid

Ein weiterer Unterschied zu ViT ist die hierarchische Feature-Extraktion: Wie bei CNNs wird die Auflösung über Stufen reduziert und die Feature-Dimension erhöht. Dies erlaubt dem Swin Transformer, mehrskalige Informationen zu verarbeiten – was für viele visuelle Aufgaben entscheidend ist.

Der Downsampling-Schritt erfolgt über Patch Merging:

  • Je 2 × 2 benachbarte Patches werden zusammengelegt
  • Die Kanalzahl wird dabei verdoppelt
  • Semantisch entsteht so ein abstrakteres Feature

Diese hybridartige Struktur kombiniert die Vorteile konvolutionaler Hierarchien mit der Ausdrucksstärke globaler Self-Attention.

Erfolge in Object Detection und Segmentation

Swin Transformer setzte neue Maßstäbe in verschiedenen Vision-Aufgaben:

  • COCO Object Detection mit Mask R-CNN:
    Erreicht AP 58.7 mit Swin-L im Vergleich zu ResNeXt-101 (AP 48.1)
  • ADE20K Semantic Segmentation mit UPerNet:
    Top-1 mIoU von 53.5 auf Val-Set – SOTA-Ergebnis

Durch seine Effizienz, Modularität und hohe Performanz ist Swin heute Grundlage vieler praktischer Frameworks, etwa in Microsofts Vision-and-Language-Modellen, medizinischer Bildverarbeitung oder AR-Systemen.

Hybridmodelle und Spezialisierungen

Kombination aus CNN-Feature-Extractor und Transformer

Ein aktiver Forschungszweig widmet sich der Kombination der Stärken beider Architekturen: lokale Bias-Strukturen der CNNs mit globaler Attention der Transformer.

Typische Ansätze:

  • CNN-Backbone + Transformer-Encoder (z. B. in ViTDet)
  • CNN als Low-Level Extractor, Transformer als High-Level Reasoner
  • 2-Stage Hybridmodelle: CNN zur Patchgenerierung, Transformer zur semantischen Aggregation

Diese Kombinationen sind besonders wirksam in Anwendungsfällen mit begrenzter Rechenkapazität oder bei domain-spezifischen Aufgaben, wie z. B. Industrievision, Mikroskopie oder autonomen Systemen.

BEiT (BERT Pretraining of Image Transformers)

Das BEiT-Modell überträgt das Pretraining-Paradigma aus NLP (BERT) auf Vision-Transformer:

  • Ziel: Maskierte Patches rekonstruktiv vorherzusagen (analog zu Masked Language Modeling)
  • Vorgehen:
    1. Das Bild wird in Patches unterteilt
    2. Ein Teil dieser Patches wird maskiert
    3. Das Modell soll deren semantische Tokens rekonstruieren

Dieses Verfahren nutzt Denoising Objectives ohne gelabelte Daten – ideal für Szenarien mit großen unlabeled Datenmengen.

BEiT führt zu hervorragenden Leistungen im Self-Supervised Learning und übertrifft viele konkurrierende Methoden wie SimCLR oder MoCo bei vergleichbarer Architektur.

Masked Autoencoders (MAE) für unüberwachtes Pretraining

MAE (Masked Autoencoders) bilden eine der vielversprechendsten Linien im unüberwachten Lernen mit Vision Transformers. Sie basieren auf einem Encoder-Decoder-Ansatz:

  • Der Encoder verarbeitet nur sichtbare Patches (ca. 25 %)
  • Der Decoder rekonstruiert das vollständige Bild aus der latenten Repräsentation
  • Die Loss-Funktion basiert auf der Differenz zu den ursprünglichen Pixelwerten:

\(\mathcal{L}{\text{MAE}} = \frac{1}{|M|} \sum{i \in M} | x_i – \hat{x}_i |_2^2\)

wobei \(M\) die Menge der maskierten Patches ist.

MAE benötigt weniger Trainingszeit, ist skaliert auf große Datenmengen anwendbar, und erzielt nach Feintuning exzellente Downstream-Performance – insbesondere bei Klassifikation und Objektdetektion.

Anwendungen in der Praxis

Vision Transformers haben sich über die reine Bildklassifikation hinaus zu einem universell einsetzbaren Werkzeug in der Computer Vision entwickelt. Durch ihre Fähigkeit, globale Kontexte zu modellieren, sind sie prädestiniert für verschiedenste Anwendungen – von medizinischer Diagnostik bis zu multimodaler Videoanalyse.

Bildklassifikation

Standardaufgaben (ImageNet, Tiny ImageNet)

Die Bildklassifikation bleibt das klassische Einsatzfeld für ViTs. Sowohl auf großen Datensätzen wie ImageNet-1k als auch auf kleineren wie Tiny ImageNet erzielen sie state-of-the-art Ergebnisse – besonders bei gutem Pretraining.

Auf ImageNet-1k wurden folgende Resultate erzielt:

Modell Top-1 Accuracy Pretraining?
ResNet-50 76.2 % Nein
EfficientNet-B4 83.0 % Ja
ViT-B/16 84.0 % Ja (JFT)
DeiT-B 81.8 % Nein

Auf Tiny ImageNet (200 Klassen, 64×64 Pixel) zeigen besonders leichte Varianten wie DeiT-Ti gute Resultate bei minimalem Rechenaufwand – ideal für Edge-Devices oder mobile Anwendungen.

Vergleich der Top-1-Accuracy mit ResNet, EfficientNet

Der Vergleich zeigt, dass ViTs mit zunehmender Modellgröße und Pretraining-Vielfalt CNNs übertreffen – vor allem bei:

  • Höherer Datenvielfalt
  • Größeren Bildauflösungen
  • Semantisch komplexeren Aufgaben

Besonders deutlich wird der Vorsprung bei Zero-Shot-Klassifikation (z. B. CLIP mit ViT-Backbone), bei der ViTs Bilder direkt mit Sprache in Beziehung setzen – ein Meilenstein in Richtung allgemeiner visuelle Intelligenz.

Objekterkennung und Segmentierung

ViT in Kombination mit DETR (DEtection TRansformer)

Die Objekterkennung wurde lange Zeit von Modellen wie YOLO oder Faster R-CNN dominiert – jedoch mit separaten Komponenten für Vorschlagserzeugung, Klassifikation und Bounding-Box-Regressoren.

DETR (Carion et al., 2020) verwendet stattdessen einen reinen Transformer-Ansatz. In Kombination mit ViT-Backbones entsteht ein völlig neues Paradigma: Das Bild wird als Sequenz interpretiert, und jedes „Objekt“ wird durch ein vorherzusagendes Set beschrieben – ganz ohne Region Proposals.

Zentrale Loss-Funktion:

\(\mathcal{L}{\text{DETR}} = \mathcal{L}{\text{class}} + \lambda_{\text{box}} \cdot \mathcal{L}{\text{bbox}} + \lambda{\text{giou}} \cdot \mathcal{L}_{\text{giou}}\)

Diese Architektur erzeugt globale Objektkoordinaten in einem einzigen Durchlauf – revolutionär für Echtzeiterkennung in komplexen Szenarien.

Semantic und Instance Segmentation mit Swin Transformer

Swin Transformer ist durch seine hierarchische Struktur ideal für Segmentierungsaufgaben geeignet. In Kombination mit UPerNet oder Mask R-CNN erreicht es auf Benchmarks wie ADE20K und COCO Panoptic führende Werte:

  • Semantic mIoU auf ADE20K: 53.5 % (Swin-L)
  • Instance AP auf COCO: 58.7 (Swin-L)

Dabei ermöglicht die Fenster-basierte lokale Attention eine genaue Lokalisierung und fein aufgelöste semantische Trennung – entscheidend für medizinische, industrielle und sicherheitsrelevante Anwendungen.

Medizinische Bildgebung

Diagnose von Hautkrebs, Tumorerkennung in MRT-Bildern

In der medizinischen Bildgebung zeigen Vision Transformer zunehmend klinisches Potenzial. Ihre Fähigkeit, globale Kontextinformationen mit hoher Auflösung zu verknüpfen, ist essenziell für die Erkennung subtiler pathologischer Muster.

Beispielhafte Anwendungen:

  • Hautkrebsdiagnose auf ISIC-Datensätzen
  • Gliomklassifikation in MRT-Bildern
  • Retinale Läsionserkennung auf Fundus-Aufnahmen
  • Histopathologie-Analyse großer Whole Slide Images (WSIs)

Besonders bei hochauflösenden Bilddaten, bei denen regionale Interaktion über große Distanzen entscheidend ist, übertreffen ViTs CNN-basierte Ansätze deutlich – auch bei geringen Trainingsmengen.

Vorteile der globalen Kontextwahrnehmung von ViT

  • Höhere Robustheit gegen Artefakte und Rauschen
  • Bessere Differenzierung feiner Gewebestrukturen
  • Interpretierbare Entscheidungsfindung durch Attention Maps – zentral für ärztliche Rückverfolgbarkeit

Die Einbindung von ViTs in radiologische und pathologische Workflows ist derzeit ein hochaktuelles Forschungsthema – mit zunehmender Integration in klinische Pilotstudien.

Fernerkundung und Satellitendaten

Erkennung geographischer Muster

In der Fernerkundung ermöglichen Vision Transformers präzisere und robustere Analysen geographischer Daten:

  • Landnutzungsklassifikation
  • Erkennung städtischer Strukturen
  • Veränderungserkennung (Change Detection)

Durch ihre globale Kontextsicht sind ViTs ideal geeignet, topologische Relationen über große Flächen hinweg zu analysieren – etwa bei der Erkennung von Flutgebieten oder illegalem Bergbau.

Analyse multiresolutionärer Bilddaten

Satellitenbilder bestehen häufig aus Daten unterschiedlicher Auflösung (optisch, multispektral, SAR). ViTs lassen sich effizient in multiresolutionale Pipelines integrieren, z. B. durch:

  • Multi-Branch-ViTs für verschiedene Auflösungsebenen
  • Cross-Attention Mechanismen zur Fusion von Spektralbändern
  • Transformer-UNet Hybride für pixelgenaue Klassifikation

Die Fortschritte in der EO-Vision-Community (Earth Observation) werden zunehmend durch Swin, BEiT und MAE-basierte Modelle geprägt.

Videoanalyse und Action Recognition

TimeSformer: Anwendung des Transformer-Prinzips auf zeitliche Daten

Der TimeSformer (Bertasius et al., 2021) überträgt das ViT-Prinzip auf Videodaten. Dabei wird ein Video als Sequenz von Frame-Patches interpretiert, die sowohl spatial als auch temporal durch Self-Attention verknüpft werden.

Die Variante mit getrennter Raum-Zeit-Attention reduziert die Komplexität von:

\(O((T \cdot N)^2) \quad \text{auf} \quad O(T \cdot N^2 + N \cdot T^2)\)

wobei \(T\) die Frame-Anzahl und \(N\) die Anzahl der Patches pro Frame ist.

Diese Struktur erlaubt es dem Modell, dynamische Ereignisse im Kontext räumlicher Information zu analysieren – essenziell für:

  • Human Action Recognition (z. B. Kinetics-400)
  • Video Understanding
  • Surveillance-Analyse

Multi-Frame Attention Mechanismen

Neben TimeSformer wurden viele weitere Varianten entwickelt:

  • VidTr: End-to-End Video Transformer
  • MViT: Multiscale Vision Transformer für Video
  • ViViT: ViT für Video mit verschiedenen Einbettungsstrategien

Durch die Kombination von ViT mit zeitlicher Modellierung entstehen Modelle, die menschliche Bewegungen, Interaktionen und komplexe Szenen semantisch tiefgreifend analysieren können – ein zentraler Schritt auf dem Weg zur visuellen Kognition.

Herausforderungen und offene Fragen

Trotz ihres disruptiven Potenzials stehen Vision Transformers aktuell noch vor einer Vielzahl technischer und praktischer Hürden. Diese betreffen sowohl den Trainings- und Ressourcenbedarf als auch Fragen der Einsatzfähigkeit in realen Umgebungen sowie der Vertrauenswürdigkeit des Modells. Die Beantwortung dieser offenen Fragen wird darüber entscheiden, ob ViTs ihren Weg in kritische und alltägliche Anwendungen dauerhaft finden.

Daten- und Rechenhunger

Notwendigkeit großer Annotierter Datensätze

Vision Transformers verfügen über keine architektureigenen Induktionsbiases, wie sie bei CNNs durch Faltung, Pooling und Gewichtssharing gegeben sind. Das bedeutet: Alles muss aus Daten gelernt werden.

Ohne diese impliziten Annahmen erfordert ein ViT eine massive Datenmenge, um robuste Invarianten zu abstrahieren. Klassischerweise umfasst dies:

  • JFT-300M: 300 Millionen gelabelte Bilder (Google intern)
  • ImageNet-21k: 14 Millionen Bilder mit 21.000 Klassen
  • LAION-400M: Multimodaler Open-Source-Datensatz für Sprach-Bild-Training

Solche Volumina sind jedoch für viele Forschungsgruppen und Unternehmen nicht praktikabel. Deshalb rückt self-supervised learning (z. B. Masked Autoencoders) immer stärker in den Fokus, um diesen Engpass zu durchbrechen.

Ressourcenbedarf beim Pretraining

Das Training großer ViT-Modelle ist äußerst rechenintensiv. Insbesondere die Self-Attention verursacht einen quadratischen Anstieg der Rechenlast mit zunehmender Eingabelänge \(n\):

\(\text{Komplexität: } O(n^2 \cdot d)\)

wobei \(n\) die Anzahl der Patches und \(d\) die Dimension der Embeddings ist.

Ein typisches ViT-B/16 benötigt für 300 Epochen auf ImageNet-21k etwa:

  • >2 Wochen Training auf 8× TPU v3
  • >3500 GPU-Stunden auf V100-Karten
  • >1 TB Speicherplatz für Modelle und Checkpoints

Diese Werte liegen weit über dem, was für klassische CNNs erforderlich ist – was zu einem ökologischen und ökonomischen Nachhaltigkeitsproblem führt.

Komplexität und Deployment

Schwierigkeiten beim Einsatz auf mobilen Geräten

Die ursprünglichen ViT-Architekturen wurden für leistungsstarke Hardware entworfen. Ihr Einsatz auf Edge Devices, wie Smartphones, IoT-Geräten oder autonomen Sensoren, ist nicht trivial:

  • Die quadratische Attention-Skalierung ist für hohe Auflösungen prohibitiv
  • Speicherzugriff und Bandbreitenbedarf sind deutlich höher als bei CNNs
  • Echtzeitfähigkeit ist ohne Optimierung kaum erreichbar

Zwar existieren mobile-friendly Varianten wie MobileViT oder TinyViT, doch diese sind in ihrer Performance bisher limitiert.

Modellkomprimierung und Quantisierung

Zur Verbesserung der Einsatzfähigkeit auf ressourcenschwacher Hardware wurden zahlreiche Ansätze entwickelt:

  • Pruning: Entfernen unwichtiger Attention Heads oder Linearblöcke
  • Quantisierung: Reduktion der Gewichtspräzision (z. B. von FP32 auf INT8)
  • Knowledge Distillation: Transfer von Wissen eines großen ViTs in ein kleineres Modell
  • Low-Rank Factorization: Komprimierung der Projektionen in Attention-Modulen

Besonders vielversprechend sind Techniken wie Structured Pruning kombiniert mit Quantization-Aware Training, die es ermöglichen, ViTs ohne signifikante Leistungseinbußen auf Mikrocontrollern oder Edge-TPUs auszuführen.

Interpretierbarkeit und Vertrauen

Black-Box-Charakter bleibt eine Herausforderung

Obwohl Vision Transformers durch ihre Attention-Struktur theoretisch gut interpretierbar sind, bleibt in der Praxis vieles undurchsichtig:

  • Welche semantischen Konzepte lernt ein Attention-Head tatsächlich?
  • Wann „vertraut“ ein Modell einer Region, wann „ignoriert“ es sie?
  • Wie unterscheiden sich die semantischen Repräsentationen zwischen Schichten?

Der hohe Abstraktionsgrad und die tiefe Nichtlinearität der Modelle erschweren die Analyse – besonders bei multischichtigen, rekursiven Architekturen.

Neue Methoden zur Transparenzsteigerung

Um diesen Herausforderungen zu begegnen, wurden verschiedene Ansätze entwickelt:

  • Attention Rollouts zur Visualisierung kumulativer Relevanz über alle Schichten
  • Attention Entropy Analysis zur Bewertung der Fokusbreite pro Token
  • Integrated Gradients und Layer-wise Relevance Propagation (LRP) für punktuelle Erklärungen
  • Token Attribution Maps zur Visualisierung der Entscheidungspfadstruktur

Beispielhafte Metrik:

\(\text{Relevanz}(x_i) = \sum_{l=1}^{L} \prod_{k=1}^{l} A_k[i]\)

Ziel dieser Methoden ist es, ViTs in kritischen Anwendungsbereichen wie Medizin, Justiz oder autonomes Fahren nachvollziehbar und auditierbar zu machen – und so das Vertrauen von Expert*innen und Gesellschaft in die Technologie zu stärken.

Zukünftige Entwicklungen

Vision Transformers (ViT) haben sich innerhalb weniger Jahre von einem experimentellen Konzept zu einem zentralen Baustein der modernen Computer Vision entwickelt. Ihre offene, modular skalierbare Architektur prädestiniert sie nicht nur für klassische Bildverarbeitung, sondern auch für multimodale Intelligenzsysteme, selbstüberwachtes Lernen und sogar hardwarebasierte Co-Designs.

Die Zukunft von ViTs wird entscheidend davon abhängen, wie gut sie in größere technologische Ökosysteme integriert werden können – in Software, Daten, Hardware und Anwendung.

Integration mit multimodalen Architekturen

Vision-Language Modelle wie CLIP und DALL·E

Ein besonders vielversprechender Entwicklungspfad für ViTs liegt in ihrer Kombination mit sprachverarbeitenden Modellen – ein Gebiet, das derzeit durch OpenAI, Google DeepMind und Meta AI stark vorangetrieben wird.

Beispiel: CLIP (Contrastive Language–Image Pretraining) nutzt einen ViT als visuelles Encoder-Modul und kombiniert es mit einem Transformer-Sprachmodell. Beide werden darauf trainiert, eine gemeinsame semantische Repräsentation zu lernen:

  • Eingabe: (Bild, Beschreibung)
  • Ziel: Hohe Ähnlichkeit bei korrekten Paaren, niedrige bei zufälligen

Loss-Funktion:

\(\mathcal{L}_{\text{CLIP}} = -\log \frac{\exp(\text{sim}(x, y)/\tau)}{\sum_j \exp(\text{sim}(x, y_j)/\tau)}\)

Hierbei steht \(\text{sim}\) für die Cosine Similarity, \(\tau\) ist ein Temperaturparameter.

DALL·E, Flamingo, PaLI, GIT und BLIP gehen noch weiter und nutzen ViTs für Bildcaptioning, visuelles Dialogverstehen oder Bildgenerierung. Hierbei zeigt sich: ViT ist der ideale visuelle Frontend-Baustein für multimodale Systeme.

ViT als universelle Eingangsarchitektur für multimodale Systeme

Die universelle Tokenstruktur von ViT macht ihn kompatibel mit jeder anderen Sequenzverarbeitung – sei es Sprache, Audio oder Sensorik. Daraus ergeben sich neue Perspektiven:

  • Unified Multimodal Transformers (UMTs)
  • Vision-Language-Action Agents (z. B. embodied AI, Robotersteuerung)
  • Multimodale Retrievalsysteme, bei denen Bilder, Text, Ton und Video gemeinsam semantisch indiziert werden

Diese Entwicklung könnte mittelfristig zu einer universellen, architekturübergreifenden KI-Plattform führen – mit ViT als visuellem Schlüsselmodul.

Selbstüberwachtes Lernen

MAE und SimMIM: Pretraining ohne Labels

Ein weiterer, essenzieller Entwicklungspfad ist das selbstüberwachte Lernen (self-supervised learning). Angesichts der enormen Kosten und des Bias’ menschlicher Annotation werden unlabeled Daten zur kritischen Ressource der Zukunft.

Masked Autoencoders (MAE) und SimMIM (Simple Masked Image Modeling) nutzen die Idee des „Mask-and-Reconstruct“ aus der Sprachverarbeitung (BERT), übertragen auf Bilder:

  • Input: Ein Bild, bei dem z. B. 75 % der Patches maskiert sind
  • Ziel: Rekonstruktion der ursprünglichen Pixeldarstellung oder Repräsentation
  • Encoder: Nur sichtbare Patches
  • Decoder: Klein, rekonstruiert das Gesamtbild

Verlustfunktion bei MAE:

\(\mathcal{L}{\text{recon}} = \frac{1}{|M|} \sum{i \in M} | x_i – \hat{x}_i |_2^2\)

Diese Methoden ermöglichen hochwertiges Pretraining auf beliebig großen, unlabeled Datensätzen, was sie besonders interessant für Bereiche wie Medizin, Biologie oder Satellitenbildanalyse macht.

Zukunft ohne Annotation?

Die große Vision lautet: Generalistisches Lernen ohne Annotation, das auf die Vielfalt unbeaufsichtigter natürlicher Daten zugreift. ViTs spielen hier eine zentrale Rolle:

  • Keine Bias-induzierten Filteroperationen
  • Universell einsetzbar über Modalitäten hinweg
  • Leicht kombinierbar mit generativen Verfahren (z. B. MAE + Diffusion)

Diese Entwicklung wird langfristig die Zugänglichkeit von KI-Methoden demokratisieren – insbesondere für kleine Forschungseinheiten ohne Zugang zu gelabelten Großdatensätzen.

Hardware-Innovation für ViT

Anpassung von GPUs/TPUs an Attention-lastige Architekturen

Transformer-Modelle (inkl. ViT) unterscheiden sich in ihrer Datenflusstopologie grundlegend von CNNs:

  • Kein statischer Rechenfluss
  • Nichtlokale, sequenzielle Operationen
  • Intensive Nutzung von Matrixmultiplikationen

Moderne Hardwareentwicklungen reagieren darauf:

  • Google TPUv4: Optimiert für große Batchgrößen und Attention
  • NVIDIA H100 Tensor Cores: Beschleunigung von FP8-Gleichungen und MLP-Blöcken
  • Cerebras CS-2: Architektur für Sparse Attention

Zudem werden spezialisierte Compiler und Frameworks entwickelt (z. B. Triton, TVM), um ViTs hardware-nah zu optimieren – ein bedeutender Schritt zur Reifung des Ökosystems.

Edge-Deployment durch spezialisierte Chips

Für die Umsetzung auf Edge-Geräten sind folgende Strategien im Fokus:

  • ViT-kompatible AI-Chips (z. B. EdgeTPU, Tenstorrent, Sima.ai)
  • On-Chip-Memory für Attention-Mechanismen
  • Token-Pruning für dynamische Rechenlastreduktion
  • Low-Rank-Attention oder Linformer für lineare Skalierung

Diese Entwicklungen zielen auf eine Welt, in der Transformer-basierte Modelle auch direkt auf mobilen Kameras, Industrierobotern oder Drohnen inferieren können – ohne Cloud-Zugriff.

Fazit

Zusammenfassung der Potenziale und Grenzen von ViTs

Vision Transformers markieren einen fundamentalen Wandel in der Welt der Computer Vision. Mit ihrem Verzicht auf klassisch konstruierte Faltungsoperationen und ihrer konsequenten Anwendung globaler Self-Attention bringen sie eine neue Form der universellen, datengetriebenen Repräsentation visueller Inhalte hervor.

Die wichtigsten Potenziale im Überblick:

  • Globale Kontextverarbeitung ab der ersten Schicht
  • Modalitätenübergreifende Architekturanpassung (Bild, Text, Video, Audio)
  • Hohe Transferfähigkeit und robuste Feature-Lernmechanismen
  • Nahtlose Integration in multimodale KI-Systeme

Gleichzeitig dürfen die aktuellen Grenzen nicht verschwiegen werden:

  • Extremer Daten- und Rechenhunger beim Pretraining
  • Herausforderungen bei Echtzeit- und Edge-Anwendungen
  • Teilweise eingeschränkte Interpretierbarkeit und Debuggability
  • Fehlender induktiver Bias kann bei kleinen Datenmengen hinderlich sein

Diese Spannungsfelder bestimmen die aktuelle Forschung rund um ViTs – mit dem Ziel, ihre Vorteile zu skalieren, ohne dabei Effizienz, Zugänglichkeit und Vertrauenswürdigkeit zu verlieren.

Abgrenzung zu CNNs und warum Transformer die Zukunft der visuellen KI prägen könnten

Convolutional Neural Networks haben die Bildverarbeitung über mehr als ein Jahrzehnt geprägt. Ihre Architektur, inspiriert durch das visuelle System des Menschen, war perfekt auf lokal-strukturierte Daten wie Bilder zugeschnitten. Doch sie bleiben spezialisierten Mustern verpflichtet: Faltung, Pooling, Feature Maps.

Vision Transformers hingegen stehen für einen post-konvolutionalen Ansatz, in dem die Architektur nicht mehr fest verdrahtet ist, sondern durch Daten gelernt wird. Der entscheidende Unterschied:

  • CNNs bauen Wissen durch lokale Aggregation auf
  • ViTs lernen globale Semantik durch explizite Aufmerksamkeit

Diese Eigenschaft macht sie flexibler, skalierbarer und zukunftssicherer – insbesondere im Kontext der zunehmenden Verschmelzung von Datenmodalitäten (Vision, Sprache, Sensorik) und Aufgabenkomplexitäten (Klassifikation, Verstehen, Generierung).

Die These lautet daher: Nicht CNNs, sondern Transformer werden die langfristige Grundlage für generelle visuelle Intelligenzsysteme bilden.

Persönliche Einschätzung: ViTs als Wegbereiter für allgemeine KI-Architekturen (AGI-Vision)

Betrachtet man die jüngsten Entwicklungen im Bereich multimodaler Foundation Models wie GPT-4V, Gemini oder CLIP, so zeigt sich ein klares Muster: Transformer sind die gemeinsame Sprache zwischen allen Modalitäten.

In diesem Gefüge sind ViTs mehr als nur ein Modell für Bilder – sie sind ein universeller Interface-Mechanismus für visuelle Informationen, der sich mit Sprachmodellen, Entscheidungsagenten oder generativen Netzwerken verbinden lässt. Damit könnten sie ein zentraler Baustein sein für die nächste Phase der KI:

  • AGI-Vision: Systeme, die nicht nur Objekte erkennen, sondern Konzepte, Absichten, Handlungszusammenhänge
  • Zero-Shot Generalisierung über Modalitäten hinweg
  • Verstehbare, selbstlernende Modelle, die mit ihrer Umgebung interagieren können

ViTs sind in dieser Hinsicht nicht das Ende einer Entwicklung – sondern der Anfang einer neuen Architektur-Epoche, die die Basis für eine allgemeine, integrierte künstliche Intelligenz bilden könnte.

Mit freundlichen Grüßen
J.O. Schneppat


Referenzen

Wissenschaftliche Zeitschriften und Artikel

Diese Kategorie umfasst die zentralen Primärpublikationen, die den theoretischen und technischen Grundstein für Vision Transformers gelegt haben:

  • Dosovitskiy, A., et al. (2020)
    An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
    arXiv:2010.11929
    → Das grundlegende Paper, in dem Vision Transformers erstmals als direkte Adaption der NLP-Transformer auf Bilddaten beschrieben und evaluiert wurden. Enthält Architektur, Experimente auf JFT-300M und Fine-Tuning auf ImageNet.
  • Touvron, H., et al. (2021)
    Training data-efficient image transformers & distillation through attention (DeiT)
    arXiv:2012.12877
    → Beschreibt die Data-efficient Image Transformer (DeiT), die mit nur ImageNet-1k und Distillation-Token state-of-the-art erreichen. Fundament für ViT-Einsatz ohne gigantische Pretraining-Datenmengen.
  • Liu, Z., et al. (2021)
    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
    arXiv:2103.14030
    → Einführung des Swin Transformer, der ViT effizient auf hochauflösende Bilder skaliert und lokal-fensterbasierte Attention nutzt. Maßgeblich für Segmentation und Detektion.
  • Bao, H., Dong, L., & Wei, F. (2021)
    BEiT: BERT Pre-Training of Image Transformers
    arXiv:2106.08254
    → Überträgt das Konzept des Masked Language Modeling auf Bilder und führt ein Tokenisierungssystem für Patch-Vorhersage ein. Wegbereiter für Self-Supervised Vision Transformers.
  • He, K., et al. (2021)
    Masked Autoencoders Are Scalable Vision Learners (MAE)
    arXiv:2111.06377
    → Stark reduzierter Encoder-Decoder-Ansatz zum unüberwachten Pretraining. MAE ist derzeit der Standardansatz für Self-Supervised Learning im ViT-Umfeld.
  • Carion, N., et al. (2020)
    End-to-End Object Detection with Transformers (DETR)
    arXiv:2005.12872
    → Beschreibt, wie Transformer direkt zur Objektdetektion ohne Anchor-Boxes oder Region Proposals genutzt werden können. Wird oft mit ViT als Backbone kombiniert.
  • Bertasius, G., Wang, H., & Torresani, L. (2021)
    Is Space-Time Attention All You Need for Video Understanding? (TimeSformer)
    arXiv:2102.05095
    → Pionierarbeit zur Übertragung des Transformer-Konzepts auf Videoanalysen mit separierter Raum-Zeit-Attention.
  • Radford, A., et al. (2021)
    Learning Transferable Visual Models From Natural Language Supervision (CLIP)
    arXiv:2103.00020
    → Zeigt, wie ViT als visuelle Komponente in multimodalen Systemen mit Sprachaufgaben kombiniert werden kann – Grundlage für Zero-Shot-Klassifikation.

Bücher und Monographien

Diese Werke bieten theoretischen und konzeptionellen Hintergrund zu Deep Learning, Transformer-Architekturen und der Verbindung zwischen NLP und Vision:

  • Goodfellow, I., Bengio, Y., & Courville, A. (2016)
    Deep Learning. MIT Press.
    → Standardwerk zur tiefen neuronalen Netzen. Erklärt Grundlagen von CNNs, Regularisierung, Optimierung und Trainingsstrategien.
  • Vaswani, A., et al. (2017)
    Attention is All You Need. NeurIPS Proceedings.
    → Die ursprüngliche Veröffentlichung des Transformer-Modells. Zentral für das Verständnis der Self-Attention, die auch ViTs zugrunde liegt.
  • Khan, S., Naseer, M., Hayat, M., Zamir, S. W., Khan, F. S., & Shah, M. (2022)
    Transformers in Vision: A Survey. ACM Computing Surveys.
    → Umfangreiche Übersicht über alle existierenden Vision Transformer Varianten, inklusive Taxonomien, Trainingsparadigmen und Anwendungsbereiche. Sehr empfehlenswert für einen wissenschaftlichen Überblick.
  • Li, Y., & Li, Y. (2022)
    Vision Transformer – Grundlagen, Architektur und Anwendungen. Springer Vieweg.
    → Erstes deutschsprachiges Fachbuch zu ViTs. Vermittelt Grundlagen und führt in fortgeschrittene Konzepte und Realwelt-Anwendungen ein.

Online-Ressourcen und Datenbanken

Diese Quellen liefern kontinuierlich aktualisierte Informationen, Modelle, Benchmarks und Implementierungen:

Share this post