Wer Datensätze, Forschungsergebnisse oder offene Daten veröffentlicht, kennt das Problem: Die Inhalte sind wertvoll, aber in der normalen Google-Suche kaum sichtbar. Dataset Schema Markup schafft hier Abhilfe — es ist der direkte Weg in die Google Dataset Search, eine spezialisierte Suchmaschine für strukturierte Datensätze, die Millionen von Forschern, Journalisten und Datenwissenschaftlern täglich nutzen.
In diesem Praxisleitfaden lernst du, wie du Dataset Schema Markup korrekt implementierst, welche Properties wirklich wichtig sind und wie du häufige Fehler vermeidest. Du bekommst vollständige JSON-LD-Beispiele, eine Checkliste und direkten Zugang zu unserem kostenlosen Dataset Schema Generator.
Was ist Dataset Schema Markup?
Das Dataset-Schema ist ein Typ aus dem Schema.org-Vokabular, der speziell für strukturierte Datensammlungen entwickelt wurde. Es ist ein Untertyp von CreativeWork und beschreibt Datensätze in maschinenlesbarer Form — so dass Suchmaschinen verstehen, was in einem Datensatz steckt, wer ihn erstellt hat, wie er heruntergeladen werden kann und unter welcher Lizenz er steht.
Verwechsle Dataset nicht mit DataFeed oder DataCatalog: Während DataFeed für regelmäßig aktualisierte Datenströme (z. B. Produktdaten) und DataCatalog für Sammlungen von Datensätzen gedacht sind, richtet sich Dataset an einzelne, abgeschlossene Datenpakete — etwa eine Studie, eine Erhebung, einen Messdatensatz oder eine offene Datenbank.
Warum Google Dataset Search so wichtig ist
Google Dataset Search (datasetsearch.research.google.com) ist eine eigenständige Suchmaschine, die ausschließlich Datensätze indexiert. Sie wertet Dataset Schema Markup direkt aus und zeigt Suchergebnisse mit folgenden Metadaten an:
- Name und Beschreibung des Datensatzes
- Anbieter und Herausgeber
- Zeitlicher und geografischer Abdeckungsbereich
- Downloadformate und Lizenz
- DOI oder andere persistente Identifier
Ohne korrektes Schema Markup taucht dein Datensatz in dieser Suche schlicht nicht auf — selbst wenn er fachlich hochwertig ist. Dataset Schema Markup ist damit kein Nice-to-have, sondern eine Grundvoraussetzung für die Sichtbarkeit in wissenschaftlichen und datenwissenschaftlichen Suchkontexten.
Die Mindestanforderungen: Was Google wirklich braucht
Google definiert für Dataset Markup folgende Pflichtfelder (Required Properties), ohne die ein Datensatz in der Dataset Search nicht erscheint:
name— Der vollständige, beschreibende Name des Datensatzesdescription— Eine klare, informative Beschreibung (mindestens 50 Zeichen; mehr ist besser)
Das ist überraschend wenig — aber die Pflichtfelder allein reichen in der Praxis nicht aus, um ein gutes Ranking in der Dataset Search zu erzielen. Je mehr relevante Properties du befüllst, desto besser werden deine Datensätze eingeordnet und gefunden.
Vollständiges JSON-LD-Beispiel: Minimale Implementierung
Beginnen wir mit dem einfachsten validen Beispiel — einem Datensatz über Luftqualitätsmessungen:
{
"@context": "https://schema.org/",
"@type": "Dataset",
"name": "Luftqualitätsmessungen Deutschland 2024",
"description": "Stündliche Messdaten zu Feinstaub (PM2.5, PM10),
Stickoxiden (NOx) und Ozon (O3) aus 312 Messstationen
in Deutschland. Erhebungszeitraum: 01.01.2024–31.12.2024.
Datenquelle: Umweltbundesamt."
}
Dieses Markup ist valide, aber unvollständig. In der Dataset Search würde es nur mit Name und Beschreibung erscheinen — ohne Download-Links, Lizenzinformationen oder geografische Einordnung.
Vollständiges JSON-LD-Beispiel: Professionelle Implementierung
So sieht ein vollständig ausgezeichneter Datensatz aus, der alle wichtigen Eigenschaften abdeckt:
{
"@context": "https://schema.org/",
"@type": "Dataset",
"name": "Luftqualitätsmessungen Deutschland 2024",
"description": "Stündliche Messdaten zu Feinstaub (PM2.5, PM10),
Stickoxiden (NOx) und Ozon (O3) aus 312 Messstationen in
Deutschland. Erhebungszeitraum: 01.01.2024–31.12.2024.
Beinhaltet Rohdaten und kalibrierte Werte nach EN-Norm.
Datenquelle: Umweltbundesamt, LUBW und Landesumweltämter.",
"url": "https://example.de/datasets/luftqualitaet-2024",
"identifier": "https://doi.org/10.12345/luftqualitaet-2024",
"sameAs": "https://www.govdata.de/web/guest/suchen/-/details/luftqualitaet-2024",
"version": "1.2",
"isAccessibleForFree": true,
"keywords": [
"Luftqualität", "Feinstaub", "PM2.5", "NOx", "Ozon",
"Umweltdaten", "Deutschland", "Messdaten", "Open Data"
],
"license": "https://creativecommons.org/licenses/by/4.0/",
"creator": {
"@type": "Organization",
"name": "Umweltbundesamt",
"url": "https://www.umweltbundesamt.de"
},
"publisher": {
"@type": "Organization",
"name": "Thümmler AI GmbH",
"url": "https://shift07.ai"
},
"datePublished": "2025-02-15",
"dateModified": "2025-06-01",
"temporalCoverage": "2024-01-01/2024-12-31",
"spatialCoverage": {
"@type": "Place",
"name": "Deutschland",
"geo": {
"@type": "GeoShape",
"box": "47.27 5.87 55.06 15.03"
}
},
"measurementTechnique": "Gravimetrische Messung nach EN 12341",
"variableMeasured": ["PM2.5", "PM10", "NO2", "O3", "CO"],
"distribution": [
{
"@type": "DataDownload",
"encodingFormat": "text/csv",
"contentUrl": "https://example.de/datasets/luftqualitaet-2024.csv",
"name": "CSV-Format (alle Stationen, stündlich)"
},
{
"@type": "DataDownload",
"encodingFormat": "application/json",
"contentUrl": "https://example.de/datasets/luftqualitaet-2024.json",
"name": "JSON-Format (strukturiert)"
},
{
"@type": "DataDownload",
"encodingFormat": "application/vnd.ms-excel",
"contentUrl": "https://example.de/datasets/luftqualitaet-2024.xlsx",
"name": "Excel-Format"
}
],
"includedInDataCatalog": {
"@type": "DataCatalog",
"name": "GovData — Datenportal für Deutschland",
"url": "https://www.govdata.de"
}
}
Die wichtigsten Properties im Detail
name und description
Der name sollte präzise und eindeutig sein — nicht "Datensatz 1", sondern "Luftqualitätsmessungen Deutschland 2024". Die description sollte folgende Fragen beantworten: Was wurde gemessen? Wann? Wo? Mit welcher Methode? Je informativer die Beschreibung, desto relevanter ist der Datensatz für spezifische Suchanfragen in Google Dataset Search.
distribution und DataDownload
Die distribution-Property ist entscheidend für die Nützlichkeit eines Datensatz-Eintrags. Jedes DataDownload-Objekt beschreibt eine verfügbare Downloadmöglichkeit mit:
encodingFormat— MIME-Typ des Formats (z. B.text/csv,application/json,application/x-parquet)contentUrl— Direkte URL zum Downloadname— Lesbare Beschreibung des FormatsfileSize— Dateigröße (optional, aber hilfreich)datePublished— Veröffentlichungsdatum dieser Version
Biete möglichst mehrere Formate an. CSV ist der Standard, aber JSON, Parquet, HDF5 oder GeoJSON sprechen unterschiedliche Zielgruppen an.
temporalCoverage und spatialCoverage
temporalCoverage gibt den zeitlichen Abdeckungsbereich im ISO-8601-Format an. Mögliche Formate sind:
- Einzelnes Datum:
"2024-01-01" - Zeitraum:
"2024-01-01/2024-12-31" - Offen nach vorn:
"2024-01-01/.." - Offen nach hinten (laufend):
"../2024-12-31"
spatialCoverage beschreibt den geografischen Raum als Place-Objekt. Du kannst eine einfache Ortsangabe per name verwenden oder präzise Koordinaten per GeoShape (Bounding Box) oder GeoCoordinates (einzelner Punkt).
license
Die license-Property ist für die Nachnutzung von Datensätzen entscheidend und wird in der Dataset Search prominent angezeigt. Verwende immer eine URL zu einer anerkannten Lizenz:
- Creative Commons:
https://creativecommons.org/licenses/by/4.0/ - Open Data Commons ODbL:
https://opendatacommons.org/licenses/odbl/1-0/ - Datenlizenz Deutschland:
https://www.govdata.de/dl-de/by-2-0 - Public Domain (CC0):
https://creativecommons.org/publicdomain/zero/1.0/
identifier und sameAs
identifier sollte immer einen persistenten Identifier wie einen DOI enthalten. sameAs kann auf Einträge in anderen Datenkatalogen (ZENODO, GovData, Datenguidance) verweisen und signalisiert, dass es sich um denselben Datensatz handelt — das stärkt das Vertrauen von Suchmaschinen.
keywords
Anders als bei herkömmlichen SEO-Artikeln werden Keywords bei Dataset Schema als Array übergeben. Wähle sowohl Fachbegriffe als auch allgemeinere Begriffe. Google Dataset Search nutzt Keywords direkt für die Einordnung in Themengebiete.
Dataset in Kombination mit DataCatalog
Wenn du mehrere Datensätze auf einer Plattform anbietest, lohnt sich die Kombination mit DataCatalog. Auf der Übersichtsseite deiner Datenplattform implementierst du DataCatalog, auf jeder Datensatz-Detailseite Dataset — und verknüpfst beides über includedInDataCatalog:
// Auf der Katalog-Übersichtsseite:
{
"@context": "https://schema.org/",
"@type": "DataCatalog",
"name": "Offene Umweltdaten Deutschland",
"description": "Sammlung von Umwelt- und Klimadatensätzen für Deutschland",
"url": "https://example.de/datasets/",
"publisher": { "@type": "Organization", "name": "Thümmler AI GmbH" },
"dataset": [
{ "@type": "Dataset", "name": "Luftqualität 2024", "url": "https://example.de/datasets/luft" },
{ "@type": "Dataset", "name": "Wasserqualität 2024", "url": "https://example.de/datasets/wasser" }
]
}
// Auf der Datensatz-Detailseite:
{
"@context": "https://schema.org/",
"@type": "Dataset",
"name": "Luftqualitätsmessungen Deutschland 2024",
"includedInDataCatalog": {
"@type": "DataCatalog",
"name": "Offene Umweltdaten Deutschland",
"url": "https://example.de/datasets/"
}
}
Diese Hierarchie gibt Google ein vollständiges Bild deiner Dateninfrastruktur und kann die Sichtbarkeit des gesamten Katalogs verbessern. Mehr dazu im Artikel über DataFeed und DataCatalog Schema Markup.
Erweiterte Properties für Wissenschaftler und Datenwissenschaftler
measurementTechnique und variableMeasured
measurementTechnique beschreibt die angewandte Messmethode (z. B. "Spektroskopische Analyse nach ISO 12345" oder "Machine-Learning-basierte Klassifikation"). variableMeasured listet die gemessenen Größen auf — entweder als einfache Strings oder als PropertyValue-Objekte mit Einheit:
"variableMeasured": [
{
"@type": "PropertyValue",
"name": "Feinstaubkonzentration PM2.5",
"unitText": "µg/m³",
"description": "Massenstromkonzentration von Partikeln mit aerodynamischem Durchmesser ≤ 2,5 µm"
},
{
"@type": "PropertyValue",
"name": "Stickstoffdioxid NO2",
"unitText": "µg/m³"
}
]
funding und funder
Für geförderte Forschungsdaten gibt es funding (Verweis auf ein Grant-Objekt) und funder (direkter Verweis auf die fördernde Organisation). Diese Properties sind besonders für Hochschulen und Forschungseinrichtungen relevant, da viele Fördergeber die Veröffentlichung von Forschungsdaten mit korrektem Markup vorschreiben:
"funder": {
"@type": "Organization",
"name": "Deutsche Forschungsgemeinschaft (DFG)",
"url": "https://www.dfg.de"
},
"funding": {
"@type": "Grant",
"name": "Förderprogramm Offene Forschungsdaten",
"identifier": "DFG-GZ-12345"
}
isBasedOn und citation
Wenn dein Datensatz auf anderen Datensätzen oder Publikationen basiert, nutze isBasedOn. Wenn dein Datensatz in wissenschaftlichen Artikeln zitiert werden soll, hilft die citation-Property mit einer empfohlenen Zitierweise. Diese Properties verbessern die wissenschaftliche Auffindbarkeit erheblich.
Dataset Schema für verschiedene Anwendungsfälle
Offene Verwaltungsdaten (Open Government Data)
Behörden und staatliche Einrichtungen, die Daten auf GovData.de oder ähnlichen Portalen veröffentlichen, sollten immer Dataset Schema einsetzen. Wichtig sind hier: Datenlizenz Deutschland als license, spatialCoverage für den Verwaltungsbezirk, und publisher mit der offiziellen Behörde.
Akademische Forschungsdaten
Für Forschungsdaten auf Repositorien wie ZENODO, Figshare oder institutionellen Repositorien sind DOI als identifier, funding-Informationen und measurementTechnique besonders wichtig. Viele Zeitschriften verlangen inzwischen, dass Forschungsdaten mit DOI und korrektem Markup veröffentlicht werden.
Unternehmensdaten und Business Intelligence
Auch Unternehmen können von Dataset Schema profitieren — beispielsweise für veröffentlichte Marktdaten, Branchenberichte oder eigene Erhebungen. Hier stehen isAccessibleForFree (oft false), license (proprietäre Lizenz) und distribution mit zugangsbeschränkten Download-Links im Vordergrund.
Häufige Fehler bei Dataset Schema Markup
Diese Fehler beobachten wir am häufigsten bei Dataset-Implementierungen:
- Zu kurze description: Einzeilige Beschreibungen reichen nicht. Google braucht mindestens 50 Zeichen, aber wirklich nützlich sind 200–500 Zeichen mit konkreten Angaben zum Inhalt.
- Fehlende distribution: Ohne Download-Links ist ein Datensatz in der Dataset Search nur halb nützlich. Nutzer wollen wissen, wie sie die Daten bekommen.
- Ungültige Lizenz-URL: Die
license-Property muss eine echte URL zu einer Lizenz sein — keine Freitext-Angabe wie "CC-BY 4.0". - Falsches temporalCoverage-Format: Nur ISO-8601 ist valide. "Januar bis Dezember 2024" wird nicht erkannt.
- Dataset auf jeder Unterseite: Nur echte Datensatz-Seiten bekommen Dataset Markup. Artikel über Datensätze bekommen Article-Markup.
- Verwechslung mit DataFeed:
DataFeedist für laufend aktualisierte Datenströme (E-Commerce-Produktdaten),Datasetfür abgeschlossene Datenpakete.
Implementierung: Schritt für Schritt
- Identifiziere alle Datensatz-Seiten auf deiner Website — jede Seite, die einen einzelnen Datensatz beschreibt, bekommt Dataset Markup.
- Sammle die Metadaten: Name, Beschreibung, Zeitraum, Gebiet, Messgrößen, Formate, Lizenz, Creator.
- Generiere das JSON-LD mit unserem kostenlosen Dataset Schema Generator — fülle einfach die Felder aus und erhalte fertiges JSON-LD.
- Füge das JSON-LD in den
<head>der jeweiligen Seite ein. - Validiere mit dem Google Rich Results Test (search.google.com/test/rich-results) und dem Schema Markup Validator (validator.schema.org).
- Prüfe nach 2–4 Wochen in Google Dataset Search, ob dein Datensatz erscheint. Bei Problemen: Google Search Console auf Structured Data Fehler prüfen.
Validierung und Monitoring
Für Dataset Schema stehen zwei Validierungstools zur Verfügung:
- Google Rich Results Test: Prüft, ob dein Markup für Google Dataset Search korrekt ist. Gibt Warnings und Errors aus.
- Schema.org Validator (validator.schema.org): Prüft die Korrektheit des JSON-LD unabhängig von Google. Gut für vollständige Property-Überprüfung.
Überwache deine Dataset-Seiten regelmäßig in der Google Search Console unter "Erweiterungen > Datasets". Dort siehst du, welche Datensätze erkannt wurden und ob Fehler vorliegen. Ergänzend empfiehlt sich eine regelmäßige Content-Audit, um veraltete Metadaten zu aktualisieren.
Dataset Schema und die Zukunft der Daten-SEO
Mit dem wachsenden Interesse an KI-Training, Open Data und Datentransparenz wird die Bedeutung von Dataset Schema weiter zunehmen. Google investiert kontinuierlich in die Dataset Search, und auch Bing sowie andere Suchmaschinen indexieren strukturierte Datensätze zunehmend. Wer seine Datensätze jetzt korrekt auszeichnet, baut einen nachhaltigen Sichtbarkeitsvorteil auf.
Für Websites, die primär kein Forschungsportal sind, aber gelegentlich Daten veröffentlichen (z. B. Marktberichte, Umfrageergebnisse), lohnt es sich, auch grundlegende Structured-Data-Konzepte zu verstehen — denn gut ausgezeichnete Daten werden nicht nur in Dataset Search, sondern auch in KI-Systemen bevorzugt genutzt.
Checkliste: Dataset Schema Markup
- ✅
name: präzise, beschreibend, eindeutig - ✅
description: mindestens 200 Zeichen, inhaltlich konkret (Was? Wann? Wo?) - ✅
distribution: mindestens 1DataDownloadmitencodingFormatundcontentUrl - ✅
license: URL zu anerkannter Lizenz - ✅
temporalCoverage: ISO-8601-Format - ✅
spatialCoverage: Geografischer Bezug alsPlace - ✅
creator/publisher: Organisation oder Person mit URL - ✅
identifier: DOI oder andere persistente ID - ✅
keywords: Array mit Fach- und Allgemeinbegriffen - ✅
isAccessibleForFree: true oder false - ✅ JSON-LD im
<head>oder als<script>am Seitenende - ✅ Validierung mit Rich Results Test und Schema Validator
Nutze unseren Dataset Schema Generator, um in wenigen Minuten valides JSON-LD für deine Datensätze zu erstellen — ohne manuelle Tipparbeit und ohne Schema.org-Dokumentation durchsuchen zu müssen.