Zeitbasierte Medien nach WCAG 2.2 – was zählt

Was gemeint ist und warum es zählt

Die WCAG 2.1 Richtlinie 1.2 „Zeitbasierte Medien“ (Time-based Media) stellt sicher, dass Audio- und Videoinhalte für alle Nutzer zugänglich sind. Mit dem BFSG 2025 wird dies für deutsche Unternehmen zur rechtlichen Pflicht – und das aus gutem Grund: Zeitbasierte Medien sind heute das Herzstück digitaler Kommunikation.

Stellen Sie sich vor, Sie schauen ein Produktvideo ohne Ton, weil Sie in einem ruhigen Büro sitzen. Oder Sie hören ein Podcast-Interview, können aber wichtige visuelle Elemente nicht sehen. Genau diese Erfahrung machen täglich Millionen von Menschen: Gehörlose und schwerhörige Nutzer, die auf Untertitel angewiesen sind, blinde und sehbehinderte Menschen, die Audiodeskriptionen benötigen, oder Nutzer in lauten Umgebungen, die Videos stumm schauen müssen.

Videos und Audios sind nicht nur Unterhaltung – sie sind oft entscheidend für Kaufentscheidungen, Lernprozesse und wichtige Informationen. In Deutschland leben etwa 16 Millionen Menschen mit Hörbeeinträchtigungen unterschiedlicher Ausprägung. Dazu kommen alle Situationen, in denen auch Menschen ohne Behinderung auf alternative Zugangswege angewiesen sind: im lauten Zug, in der stillen Bibliothek oder bei langsamen Internetverbindungen.

Was sind zeitbasierte Medien und warum sind sie so wichtig?

Zeitbasierte Medien sind alle Inhalte, die sich über die Zeit entwickeln: Videos, Audios, Animationen und Live-Streams. Im Gegensatz zu statischen Bildern oder Texten haben sie eine zeitliche Komponente – sie beginnen, entwickeln sich und enden. Diese Zeitlichkeit macht sie besonders wertvoll für die Kommunikation, aber auch besonders herausfordernd für die Barrierefreiheit.

Der Schlüssel liegt darin, dass Informationen, die über einen Sinneskanal vermittelt werden, auch über andere Kanäle zugänglich sein müssen. Was visuell gezeigt wird, muss auch auditiv verfügbar sein. Was gesprochen wird, muss auch lesbar sein. Diese Redundanz ist nicht nur für Menschen mit Behinderungen wertvoll – sie verbessert die Nutzererfahrung für alle.

Moderne Webtechnologien machen es möglich, diese Alternativen elegant zu integrieren. HTML5-Video unterstützt nativ Untertitel, Suchmaschinen können Transkripte indexieren, und Nutzer können selbst entscheiden, welche Unterstützung sie aktivieren möchten.

Person arbeitet am Laptop und durchsucht eine Bildgalerie; auf dem Tisch liegt eine Tasse.

Geltungsbereich:

Gilt für alle Unternehmen, die mehr als 9 Beschäftigte haben oder deren Jahresumsatz 2 Millionen Euro übersteigt.

ONLINE -INTERAKTIONEN:

Webseiten, Plattformen, und Apps für den Austausch mit Kunden

Die wichtigsten Erfolgskriterien im Detail

1.2.1 Nur-Audio und Nur-Video (aufgezeichnet) – Level A

Für reine Audio- oder Video-Inhalte ohne den jeweils anderen Kanal gelten spezielle Regeln. Ein Podcast (nur Audio) benötigt ein vollständiges Transkript, das alle gesprochenen Worte, wichtige Geräusche und Musik-Hinweise enthält. Ein stummes Video (nur Video) braucht eine Audiodeskription oder ein Transkript, das alle visuellen Informationen vermittelt.

Bei einem Podcast-Interview reicht es nicht, nur die gesprochenen Worte zu transkribieren. Wichtige non-verbale Informationen gehören dazu: „[lacht]“, „[Musik spielt]“, „[Telefon klingelt im Hintergrund]“. Diese Details helfen gehörlosen Nutzern dabei, die Atmosphäre und den Kontext zu verstehen.

Stumme Videos sind seltener, kommen aber vor – etwa bei Screencasts ohne Kommentar oder künstlerischen Videoinstallationen. Hier muss eine Audiodeskription oder ein detailliertes Transkript erklären, was visuell passiert: „Der Cursor bewegt sich zum Menüpunkt ‚Datei‘, klickt darauf, das Dropdown-Menü öffnet sich…“

1.2.2 Untertitel (aufgezeichnet) – Level A

Alle aufgezeichneten Videos mit Audio benötigen Untertitel – keine Ausnahmen. Diese müssen genau, vollständig und zeitlich synchron sein. Es reicht nicht, nur die gesprochenen Worte zu zeigen; auch wichtige Geräusche, Musik und Sprecher-Identifikationen gehören dazu.

Gute Untertitel sind mehr als nur Text am unteren Bildrand. Sie transportieren die gesamte Audio-Information: „[dramatische Musik]“, „[Tür schlägt zu]“, „[Maria]: Haben Sie das gehört?“, „[flüstert]: Das bleibt unter uns.“ Diese Details sind essentiell für gehörlose Nutzer, um die volle Bedeutung zu erfassen.

Die technische Umsetzung ist heute einfach: WebVTT-Dateien für HTML5-Video, SRT-Formate für die meisten Player, und viele Plattformen wie YouTube generieren automatische Untertitel, die dann manuell korrigiert werden können. Automatische Untertitel allein reichen jedoch nicht – sie enthalten oft Fehler und erfassen keine non-verbalen Audio-Informationen.

1.2.3 Audiodeskription oder Volltext-Alternative (aufgezeichnet) – Level A

Videos mit wichtigen visuellen Informationen benötigen eine Audiodeskription oder eine vollständige Text-Alternative. Die Audiodeskription beschreibt in den Dialogpausen, was visuell passiert. Die Text-Alternative ist ein vollständiges Skript mit allen visuellen und auditiven Informationen.

Eine gute Audiodeskription ist eine Kunst für sich. Sie muss präzise, knapp und zum richtigen Zeitpunkt kommen. „Maria betritt den Raum, trägt einen roten Mantel, schaut sich nervös um“ – solche Beschreibungen helfen blinden Nutzern dabei, die Handlung zu verfolgen und Emotionen zu verstehen.

Bei der Text-Alternative haben Sie mehr Platz: Sie können ausführlich beschreiben, was passiert, Szenen aufteilen und sogar Screenshots einbinden. Dies ist besonders wertvoll für komplexe Inhalte wie Tutorials oder Präsentationen.

1.2.4 Untertitel (Live) – Level AA

Live-Übertragungen benötigen Echtzeit-Untertitel. Dies ist technisch anspruchsvoller, aber heute mit professionellen Live-Captioning-Services oder fortgeschrittener Spracherkennung machbar. Die Genauigkeit muss hoch sein, da Korrekturen bei Live-Inhalten nicht möglich sind.

Viele Unternehmen nutzen heute hybride Ansätze: Automatische Spracherkennung liefert die Basis-Untertitel, die von geschulten Operatoren in Echtzeit korrigiert werden. Plattformen wie Microsoft Teams oder Zoom bieten bereits integrierte Live-Untertitel-Funktionen.

1.2.5 Audiodeskription (aufgezeichnet) – Level AA

Während Level A eine Audiodeskription ODER Text-Alternative verlangt, fordert Level AA eine echte Audiodeskription für alle aufgezeichneten Videos. Diese muss professionell erstellt und nahtlos in das Video integriert sein.

Die Herausforderung liegt in der Balance: Die Audiodeskription darf den ursprünglichen Ton nicht übertönen, muss aber in den natürlichen Pausen Platz finden. Manchmal sind erweiterte Audiodeskriptionen nötig, bei denen das Video pausiert wird, um längere Beschreibungen zu ermöglichen.

Praktische Umsetzung für verschiedene Inhaltstypen

Marketing- und Produktvideos

Produktvideos sind oft kaufentscheidend – umso wichtiger, dass sie für alle zugänglich sind. Untertitel helfen nicht nur gehörlosen Kunden, sondern auch Menschen, die das Video stumm schauen müssen. Eine Audiodeskription beschreibt das Produkt für blinde Kunden: „Das Smartphone hat eine matte schwarze Rückseite, drei Kameras sind vertikal angeordnet, das Display zeigt lebendige Farben…“

Viele Unternehmen erstellen heute automatisch Transkripte ihrer Produktvideos, die dann auch von Suchmaschinen indexiert werden können. Das verbessert nicht nur die Barrierefreiheit, sondern auch die SEO-Performance.

Webinare und Online-Schulungen

Bildungsinhalte haben besondere Anforderungen. Teilnehmer müssen komplexe Informationen verstehen und oft auch nacharbeiten können. Hier sind vollständige Transkripte besonders wertvoll – sie ermöglichen es, später gezielt nach Informationen zu suchen.

Live-Webinare sollten Echtzeit-Untertitel anbieten. Viele moderne Webinar-Plattformen haben diese Funktion bereits integriert. Für aufgezeichnete Schulungen sind präzise Untertitel und Audiodeskriptionen essentiell, besonders wenn Bildschirminhalte oder Diagramme gezeigt werden.

Erklärvideos und Tutorials

Tutorial-Videos leben von der visuellen Demonstration. Eine gute Audiodeskription muss hier besonders präzise sein: „Klick auf das Hamburger-Menü oben links, es öffnet sich eine Seitenleiste mit fünf Menüpunkten, der Cursor bewegt sich zum zweiten Punkt ‚Einstellungen’…“

Viele Tutorials profitieren von einer kombinierten Herangehensweise: Das Video zeigt die Schritte, Untertitel wiederholen die gesprochenen Anweisungen, und ein begleitendes Transkript listet alle Schritte strukturiert auf.

Social Media Videos

Auch kurze Social Media Videos sollten Untertitel haben. Facebook, Instagram und TikTok bieten automatische Untertitel-Generierung, aber diese sollten immer manuell überprüft werden. Kurze, prägnante Untertitel können sogar das Engagement erhöhen, da viele Nutzer Videos stumm konsumieren.

Häufige Probleme vermeiden

Problem 1: Automatische Untertitel als einzige Lösung

Automatische Untertitel haben oft Fehlerquoten von 20-40% und erfassen keine non-verbalen Informationen.

Lösung: Nutzen Sie automatische Untertitel als Basis, korrigieren Sie diese aber immer manuell und fügen Sie Geräusche/Musik hinzu.

Problem 2: Fehlende Audiodeskription bei visuell komplexen Videos

Einfache Interviews brauchen möglicherweise nur Untertitel, aber Demonstrationen oder Tutorials benötigen Audiodeskriptionen.

Lösung: Bewerten Sie den visuellen Informationsgehalt. Enthält das Video wichtige visuelle Informationen? Dann ist eine Audiodeskription nötig.

Tools und Automatisierung

Hilfreiche Tools:

  • YouTube: Automatische Untertitel-Generierung (mit manueller Nachbearbeitung)
  • Rev.com: Professionelle Transkription und Untertitelung
  • Otter.ai: KI-gestützte Transkription für Meetings
  • Microsoft Azure/Google Cloud: Speech-to-Text APIs

Qualitätskontrolle ist essentiell: Fachbegriffe werden oft falsch erkannt, non-verbale Informationen fehlen komplett, und Sprecher-Identifikationen müssen manuell ergänzt werden.

Rechtliche Bedeutung seit BFSG 2025

Fehlende Untertitel oder Audiodeskriptionen sind bereits heute häufige Abmahngründe. Das BFSG macht barrierefreie zeitbasierte Medien zur Pflicht für Unternehmen, die digitale Dienstleistungen anbieten.

Besonders betroffen sind:

  • E-Learning-Anbieter
  • Online-Händler mit Produktvideos
  • Unternehmen mit Webinaren
  • Social Media Kanäle mit Video-Content

Zusätzlicher Vorteil: Untertitel verbessern die SEO, da Suchmaschinen den Text indexieren können. Videos werden besser gefunden und erreichen größere Zielgruppen.

BarriGo.Live Inspect unterstützt Sie bei der Identifikation eingebetteter Audio- und Videoelemente auf Ihrer Website. Bestimmte formale Anforderungen – etwa das Vorhandensein von Textspuren oder Steuerungselementen – können automatisiert erkannt werden. Inhaltliche Anforderungen wie Untertitel, Audiodeskriptionen oder Transkripte erfordern ergänzende manuelle Prüfungen.

👉 Jetzt BarriGo. testen: Melden Sie sich kostenlos an und erleben Sie, wie einfach Sie visuelle Barrieren identifizieren und reduzieren können.

Weiterführende Informationen finden Sie im offiziellen WCAG 2.2 Standard: WCAG 2.2 – Richtlinie 1.2 Zeitbasierte Medien