Dataset Schema Markup: Forschungsdaten für Google Dataset Search optimieren

Wer Datensätze, Forschungsergebnisse oder offene Daten veröffentlicht, kennt das Problem: Die Inhalte sind wertvoll, aber in der normalen Google-Suche kaum sichtbar. Dataset Schema Markup schafft hier Abhilfe — es ist der direkte Weg in die Google Dataset Search, eine spezialisierte Suchmaschine für strukturierte Datensätze, die Millionen von Forschern, Journalisten und Datenwissenschaftlern täglich nutzen.

In diesem Praxisleitfaden lernst du, wie du Dataset Schema Markup korrekt implementierst, welche Properties wirklich wichtig sind und wie du häufige Fehler vermeidest. Du bekommst vollständige JSON-LD-Beispiele, eine Checkliste und direkten Zugang zu unserem kostenlosen Dataset Schema Generator.

Was ist Dataset Schema Markup?

Das Dataset-Schema ist ein Typ aus dem Schema.org-Vokabular, der speziell für strukturierte Datensammlungen entwickelt wurde. Es ist ein Untertyp von CreativeWork und beschreibt Datensätze in maschinenlesbarer Form — so dass Suchmaschinen verstehen, was in einem Datensatz steckt, wer ihn erstellt hat, wie er heruntergeladen werden kann und unter welcher Lizenz er steht.

Verwechsle Dataset nicht mit DataFeed oder DataCatalog: Während DataFeed für regelmäßig aktualisierte Datenströme (z. B. Produktdaten) und DataCatalog für Sammlungen von Datensätzen gedacht sind, richtet sich Dataset an einzelne, abgeschlossene Datenpakete — etwa eine Studie, eine Erhebung, einen Messdatensatz oder eine offene Datenbank.

Warum Google Dataset Search so wichtig ist

Google Dataset Search (datasetsearch.research.google.com) ist eine eigenständige Suchmaschine, die ausschließlich Datensätze indexiert. Sie wertet Dataset Schema Markup direkt aus und zeigt Suchergebnisse mit folgenden Metadaten an:

Name und Beschreibung des Datensatzes
Anbieter und Herausgeber
Zeitlicher und geografischer Abdeckungsbereich
Downloadformate und Lizenz
DOI oder andere persistente Identifier

Ohne korrektes Schema Markup taucht dein Datensatz in dieser Suche schlicht nicht auf — selbst wenn er fachlich hochwertig ist. Dataset Schema Markup ist damit kein Nice-to-have, sondern eine Grundvoraussetzung für die Sichtbarkeit in wissenschaftlichen und datenwissenschaftlichen Suchkontexten.

Die Mindestanforderungen: Was Google wirklich braucht

Google definiert für Dataset Markup folgende Pflichtfelder (Required Properties), ohne die ein Datensatz in der Dataset Search nicht erscheint:

name — Der vollständige, beschreibende Name des Datensatzes
description — Eine klare, informative Beschreibung (mindestens 50 Zeichen; mehr ist besser)

Das ist überraschend wenig — aber die Pflichtfelder allein reichen in der Praxis nicht aus, um ein gutes Ranking in der Dataset Search zu erzielen. Je mehr relevante Properties du befüllst, desto besser werden deine Datensätze eingeordnet und gefunden.

Vollständiges JSON-LD-Beispiel: Minimale Implementierung

Beginnen wir mit dem einfachsten validen Beispiel — einem Datensatz über Luftqualitätsmessungen:

{
  "@context": "https://schema.org/",
  "@type": "Dataset",
  "name": "Luftqualitätsmessungen Deutschland 2024",
  "description": "Stündliche Messdaten zu Feinstaub (PM2.5, PM10),
    Stickoxiden (NOx) und Ozon (O3) aus 312 Messstationen
    in Deutschland. Erhebungszeitraum: 01.01.2024–31.12.2024.
    Datenquelle: Umweltbundesamt."
}

Dieses Markup ist valide, aber unvollständig. In der Dataset Search würde es nur mit Name und Beschreibung erscheinen — ohne Download-Links, Lizenzinformationen oder geografische Einordnung.

Vollständiges JSON-LD-Beispiel: Professionelle Implementierung

So sieht ein vollständig ausgezeichneter Datensatz aus, der alle wichtigen Eigenschaften abdeckt:

{
  "@context": "https://schema.org/",
  "@type": "Dataset",
  "name": "Luftqualitätsmessungen Deutschland 2024",
  "description": "Stündliche Messdaten zu Feinstaub (PM2.5, PM10),
    Stickoxiden (NOx) und Ozon (O3) aus 312 Messstationen in
    Deutschland. Erhebungszeitraum: 01.01.2024–31.12.2024.
    Beinhaltet Rohdaten und kalibrierte Werte nach EN-Norm.
    Datenquelle: Umweltbundesamt, LUBW und Landesumweltämter.",
  "url": "https://example.de/datasets/luftqualitaet-2024",
  "identifier": "https://doi.org/10.12345/luftqualitaet-2024",
  "sameAs": "https://www.govdata.de/web/guest/suchen/-/details/luftqualitaet-2024",
  "version": "1.2",
  "isAccessibleForFree": true,
  "keywords": [
    "Luftqualität", "Feinstaub", "PM2.5", "NOx", "Ozon",
    "Umweltdaten", "Deutschland", "Messdaten", "Open Data"
  ],
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "creator": {
    "@type": "Organization",
    "name": "Umweltbundesamt",
    "url": "https://www.umweltbundesamt.de"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Thümmler AI GmbH",
    "url": "https://shift07.ai"
  },
  "datePublished": "2025-02-15",
  "dateModified": "2025-06-01",
  "temporalCoverage": "2024-01-01/2024-12-31",
  "spatialCoverage": {
    "@type": "Place",
    "name": "Deutschland",
    "geo": {
      "@type": "GeoShape",
      "box": "47.27 5.87 55.06 15.03"
    }
  },
  "measurementTechnique": "Gravimetrische Messung nach EN 12341",
  "variableMeasured": ["PM2.5", "PM10", "NO2", "O3", "CO"],
  "distribution": [
    {
      "@type": "DataDownload",
      "encodingFormat": "text/csv",
      "contentUrl": "https://example.de/datasets/luftqualitaet-2024.csv",
      "name": "CSV-Format (alle Stationen, stündlich)"
    },
    {
      "@type": "DataDownload",
      "encodingFormat": "application/json",
      "contentUrl": "https://example.de/datasets/luftqualitaet-2024.json",
      "name": "JSON-Format (strukturiert)"
    },
    {
      "@type": "DataDownload",
      "encodingFormat": "application/vnd.ms-excel",
      "contentUrl": "https://example.de/datasets/luftqualitaet-2024.xlsx",
      "name": "Excel-Format"
    }
  ],
  "includedInDataCatalog": {
    "@type": "DataCatalog",
    "name": "GovData — Datenportal für Deutschland",
    "url": "https://www.govdata.de"
  }
}

Die wichtigsten Properties im Detail

name und description

Der name sollte präzise und eindeutig sein — nicht "Datensatz 1", sondern "Luftqualitätsmessungen Deutschland 2024". Die description sollte folgende Fragen beantworten: Was wurde gemessen? Wann? Wo? Mit welcher Methode? Je informativer die Beschreibung, desto relevanter ist der Datensatz für spezifische Suchanfragen in Google Dataset Search.

distribution und DataDownload

Die distribution-Property ist entscheidend für die Nützlichkeit eines Datensatz-Eintrags. Jedes DataDownload-Objekt beschreibt eine verfügbare Downloadmöglichkeit mit:

encodingFormat — MIME-Typ des Formats (z. B. text/csv, application/json, application/x-parquet)
contentUrl — Direkte URL zum Download
name — Lesbare Beschreibung des Formats
fileSize — Dateigröße (optional, aber hilfreich)
datePublished — Veröffentlichungsdatum dieser Version

Biete möglichst mehrere Formate an. CSV ist der Standard, aber JSON, Parquet, HDF5 oder GeoJSON sprechen unterschiedliche Zielgruppen an.

temporalCoverage und spatialCoverage

temporalCoverage gibt den zeitlichen Abdeckungsbereich im ISO-8601-Format an. Mögliche Formate sind:

Einzelnes Datum: "2024-01-01"
Zeitraum: "2024-01-01/2024-12-31"
Offen nach vorn: "2024-01-01/.."
Offen nach hinten (laufend): "../2024-12-31"

spatialCoverage beschreibt den geografischen Raum als Place-Objekt. Du kannst eine einfache Ortsangabe per name verwenden oder präzise Koordinaten per GeoShape (Bounding Box) oder GeoCoordinates (einzelner Punkt).

license

Die license-Property ist für die Nachnutzung von Datensätzen entscheidend und wird in der Dataset Search prominent angezeigt. Verwende immer eine URL zu einer anerkannten Lizenz:

Creative Commons: https://creativecommons.org/licenses/by/4.0/
Open Data Commons ODbL: https://opendatacommons.org/licenses/odbl/1-0/
Datenlizenz Deutschland: https://www.govdata.de/dl-de/by-2-0
Public Domain (CC0): https://creativecommons.org/publicdomain/zero/1.0/

identifier und sameAs

identifier sollte immer einen persistenten Identifier wie einen DOI enthalten. sameAs kann auf Einträge in anderen Datenkatalogen (ZENODO, GovData, Datenguidance) verweisen und signalisiert, dass es sich um denselben Datensatz handelt — das stärkt das Vertrauen von Suchmaschinen.

keywords

Anders als bei herkömmlichen SEO-Artikeln werden Keywords bei Dataset Schema als Array übergeben. Wähle sowohl Fachbegriffe als auch allgemeinere Begriffe. Google Dataset Search nutzt Keywords direkt für die Einordnung in Themengebiete.

Dataset in Kombination mit DataCatalog

Wenn du mehrere Datensätze auf einer Plattform anbietest, lohnt sich die Kombination mit DataCatalog. Auf der Übersichtsseite deiner Datenplattform implementierst du DataCatalog, auf jeder Datensatz-Detailseite Dataset — und verknüpfst beides über includedInDataCatalog:

// Auf der Katalog-Übersichtsseite:
{
  "@context": "https://schema.org/",
  "@type": "DataCatalog",
  "name": "Offene Umweltdaten Deutschland",
  "description": "Sammlung von Umwelt- und Klimadatensätzen für Deutschland",
  "url": "https://example.de/datasets/",
  "publisher": { "@type": "Organization", "name": "Thümmler AI GmbH" },
  "dataset": [
    { "@type": "Dataset", "name": "Luftqualität 2024", "url": "https://example.de/datasets/luft" },
    { "@type": "Dataset", "name": "Wasserqualität 2024", "url": "https://example.de/datasets/wasser" }
  ]
}

// Auf der Datensatz-Detailseite:
{
  "@context": "https://schema.org/",
  "@type": "Dataset",
  "name": "Luftqualitätsmessungen Deutschland 2024",
  "includedInDataCatalog": {
    "@type": "DataCatalog",
    "name": "Offene Umweltdaten Deutschland",
    "url": "https://example.de/datasets/"
  }
}

Diese Hierarchie gibt Google ein vollständiges Bild deiner Dateninfrastruktur und kann die Sichtbarkeit des gesamten Katalogs verbessern. Mehr dazu im Artikel über DataFeed und DataCatalog Schema Markup.

Erweiterte Properties für Wissenschaftler und Datenwissenschaftler

measurementTechnique und variableMeasured

measurementTechnique beschreibt die angewandte Messmethode (z. B. "Spektroskopische Analyse nach ISO 12345" oder "Machine-Learning-basierte Klassifikation"). variableMeasured listet die gemessenen Größen auf — entweder als einfache Strings oder als PropertyValue-Objekte mit Einheit:

"variableMeasured": [
  {
    "@type": "PropertyValue",
    "name": "Feinstaubkonzentration PM2.5",
    "unitText": "µg/m³",
    "description": "Massenstromkonzentration von Partikeln mit aerodynamischem Durchmesser ≤ 2,5 µm"
  },
  {
    "@type": "PropertyValue",
    "name": "Stickstoffdioxid NO2",
    "unitText": "µg/m³"
  }
]

funding und funder

Für geförderte Forschungsdaten gibt es funding (Verweis auf ein Grant-Objekt) und funder (direkter Verweis auf die fördernde Organisation). Diese Properties sind besonders für Hochschulen und Forschungseinrichtungen relevant, da viele Fördergeber die Veröffentlichung von Forschungsdaten mit korrektem Markup vorschreiben:

"funder": {
  "@type": "Organization",
  "name": "Deutsche Forschungsgemeinschaft (DFG)",
  "url": "https://www.dfg.de"
},
"funding": {
  "@type": "Grant",
  "name": "Förderprogramm Offene Forschungsdaten",
  "identifier": "DFG-GZ-12345"
}

isBasedOn und citation

Wenn dein Datensatz auf anderen Datensätzen oder Publikationen basiert, nutze isBasedOn. Wenn dein Datensatz in wissenschaftlichen Artikeln zitiert werden soll, hilft die citation-Property mit einer empfohlenen Zitierweise. Diese Properties verbessern die wissenschaftliche Auffindbarkeit erheblich.

Dataset Schema für verschiedene Anwendungsfälle

Offene Verwaltungsdaten (Open Government Data)

Behörden und staatliche Einrichtungen, die Daten auf GovData.de oder ähnlichen Portalen veröffentlichen, sollten immer Dataset Schema einsetzen. Wichtig sind hier: Datenlizenz Deutschland als license, spatialCoverage für den Verwaltungsbezirk, und publisher mit der offiziellen Behörde.

Akademische Forschungsdaten

Für Forschungsdaten auf Repositorien wie ZENODO, Figshare oder institutionellen Repositorien sind DOI als identifier, funding-Informationen und measurementTechnique besonders wichtig. Viele Zeitschriften verlangen inzwischen, dass Forschungsdaten mit DOI und korrektem Markup veröffentlicht werden.

Unternehmensdaten und Business Intelligence

Auch Unternehmen können von Dataset Schema profitieren — beispielsweise für veröffentlichte Marktdaten, Branchenberichte oder eigene Erhebungen. Hier stehen isAccessibleForFree (oft false), license (proprietäre Lizenz) und distribution mit zugangsbeschränkten Download-Links im Vordergrund.

Häufige Fehler bei Dataset Schema Markup

Diese Fehler beobachten wir am häufigsten bei Dataset-Implementierungen:

Zu kurze description: Einzeilige Beschreibungen reichen nicht. Google braucht mindestens 50 Zeichen, aber wirklich nützlich sind 200–500 Zeichen mit konkreten Angaben zum Inhalt.
Fehlende distribution: Ohne Download-Links ist ein Datensatz in der Dataset Search nur halb nützlich. Nutzer wollen wissen, wie sie die Daten bekommen.
Ungültige Lizenz-URL: Die license-Property muss eine echte URL zu einer Lizenz sein — keine Freitext-Angabe wie "CC-BY 4.0".
Falsches temporalCoverage-Format: Nur ISO-8601 ist valide. "Januar bis Dezember 2024" wird nicht erkannt.
Dataset auf jeder Unterseite: Nur echte Datensatz-Seiten bekommen Dataset Markup. Artikel über Datensätze bekommen Article-Markup.
Verwechslung mit DataFeed: DataFeed ist für laufend aktualisierte Datenströme (E-Commerce-Produktdaten), Dataset für abgeschlossene Datenpakete.

Implementierung: Schritt für Schritt

Identifiziere alle Datensatz-Seiten auf deiner Website — jede Seite, die einen einzelnen Datensatz beschreibt, bekommt Dataset Markup.
Sammle die Metadaten: Name, Beschreibung, Zeitraum, Gebiet, Messgrößen, Formate, Lizenz, Creator.
Generiere das JSON-LD mit unserem kostenlosen Dataset Schema Generator — fülle einfach die Felder aus und erhalte fertiges JSON-LD.
Füge das JSON-LD in den <head> der jeweiligen Seite ein.
Validiere mit dem Google Rich Results Test (search.google.com/test/rich-results) und dem Schema Markup Validator (validator.schema.org).
Prüfe nach 2–4 Wochen in Google Dataset Search, ob dein Datensatz erscheint. Bei Problemen: Google Search Console auf Structured Data Fehler prüfen.

Validierung und Monitoring

Für Dataset Schema stehen zwei Validierungstools zur Verfügung:

Google Rich Results Test: Prüft, ob dein Markup für Google Dataset Search korrekt ist. Gibt Warnings und Errors aus.
Schema.org Validator (validator.schema.org): Prüft die Korrektheit des JSON-LD unabhängig von Google. Gut für vollständige Property-Überprüfung.

Überwache deine Dataset-Seiten regelmäßig in der Google Search Console unter "Erweiterungen > Datasets". Dort siehst du, welche Datensätze erkannt wurden und ob Fehler vorliegen. Ergänzend empfiehlt sich eine regelmäßige Content-Audit, um veraltete Metadaten zu aktualisieren.

Dataset Schema und die Zukunft der Daten-SEO

Mit dem wachsenden Interesse an KI-Training, Open Data und Datentransparenz wird die Bedeutung von Dataset Schema weiter zunehmen. Google investiert kontinuierlich in die Dataset Search, und auch Bing sowie andere Suchmaschinen indexieren strukturierte Datensätze zunehmend. Wer seine Datensätze jetzt korrekt auszeichnet, baut einen nachhaltigen Sichtbarkeitsvorteil auf.

Für Websites, die primär kein Forschungsportal sind, aber gelegentlich Daten veröffentlichen (z. B. Marktberichte, Umfrageergebnisse), lohnt es sich, auch grundlegende Structured-Data-Konzepte zu verstehen — denn gut ausgezeichnete Daten werden nicht nur in Dataset Search, sondern auch in KI-Systemen bevorzugt genutzt.

Checkliste: Dataset Schema Markup

✅ name: präzise, beschreibend, eindeutig
✅ description: mindestens 200 Zeichen, inhaltlich konkret (Was? Wann? Wo?)
✅ distribution: mindestens 1 DataDownload mit encodingFormat und contentUrl
✅ license: URL zu anerkannter Lizenz
✅ temporalCoverage: ISO-8601-Format
✅ spatialCoverage: Geografischer Bezug als Place
✅ creator / publisher: Organisation oder Person mit URL
✅ identifier: DOI oder andere persistente ID
✅ keywords: Array mit Fach- und Allgemeinbegriffen
✅ isAccessibleForFree: true oder false
✅ JSON-LD im <head> oder als <script> am Seitenende
✅ Validierung mit Rich Results Test und Schema Validator

Nutze unseren Dataset Schema Generator, um in wenigen Minuten valides JSON-LD für deine Datensätze zu erstellen — ohne manuelle Tipparbeit und ohne Schema.org-Dokumentation durchsuchen zu müssen.