Begrippenkader

Overzichtspagina met begrippen die worden gebruikt op het portaal

Op het portaal worden verschillende begrippen gehanteerd. Hier treft u meer uitleg bij deze begrippen aan.

Mocht u een begrip missen of heeft u een vraag over een bepaald begrip, neem dan gerust contact met ons op via data@koop.overheid.nl.

Referentiedatasets

Overheidsorganisaties in Nederland stellen diverse datasets beschikbaar als open data. Deze datasets worden vrij beschikbaar gesteld om te gebruiken. Uit een pilot van het CBS en het Kadaster is onder andere naar voren gekomen dat gebruikers een aantal datasets veel gebruiken als “referentie” om andere data te gebruiken. Met een referentie wordt vaak een verwijzing bedoeld naar een bron die meer informatie kan verschaffen over een bepaalde situatie of bewering. Referentiegegevens zijn over het algemeen uniform met doorgaans weinig mutaties en kunnen bestaan uit waarden of statussen.

Binnen de overheid zijn er datasets die essentieel zijn voor het bevorderen van gebruik van data van de overheid. Deze datasets vormen zogenoemde ‘ankerpunten’ voor het gebruik van data. Deze datasets worden dan ook wel referentiedatasets genoemd. De lijsten met inwonersaantallen, indexcijfers van CBS, vastgoed dashboard van het Kadaster of overheidsorganisaties vanuit KOOP zijn voorbeelden van dit soort referentiegegevens. De referentiedatasets worden prominent ontsloten op data.overheid.nl. De gebruiker kan op deze wijze beter worden ondersteund in het gebruik en toepassen van overheidsdata. Een stimulans voor gebruik wordt hiermee beoogd.

High Value datasets

Het kabinet heeft de ambitie om zoveel mogelijk overheidsgegevens als open data beschikbaar te stellen. Daarbij geeft het kabinet prioriteit aan 'high value'-datasets. Dit zijn datasets met hoge waarde voor de samenleving, zoals de Basisregistratie Adressen Gebouwen en de kadastrale kaart. Bij het beschikbaar stellen van data wordt prioriteit gegeven aan de ontsluiting van deze datasets. In 2016 heeft data.overheid.nl in samenwerking met gemeenten, de Digitale Stedenagenda en VNG/KING een Gemeentelijke High Value Lijst opgesteld. Deze lijst is voor gemeenten een startpunt om te beginnen met het openen van datasets.

Tevens zijn de provincies in 2019 gekomen tot een Provinciale High Value lijst. 

Of een dataset 'high value' is, wordt bepaald door de mate waarbij de data bijdraagt aan:

  • transparantie
  • wettelijke plicht
  • kostenbesparing
  • doelgroep
  • potentie van hergebruik

Bijvoorbeeld

De G8 Open Data Charter heeft de volgende veertien data-categorieën aangeduid als 'high value'. Deze lijst geeft een indicatie van potentiële high value datasets en helpt data-eigenaren om zich te richten op het ontsluiten van de meest relevante en waardevolle datasets.

Companies      company/business register 
Crime and Justice crime statistics, safety 
Earth observation meteorological/weather, agriculture, forestry, fishing, hunting
Education list of schools; performance of schools, digital skills
Energy and Environment pollution levels, energy consumption
Finance and contracts transaction spend, contracts let, call for tender, future tenders, local budget, national budget (planned and spent)
Geospatial topography, postcodes, national maps, local maps
Global Development aid, food security, extractives, land
Government Accountability and Democracy government contact points, election results, legislation and statutes, salaries (pay scales), hospitality/gifts
Health prescription data, performance data
Science and Research genome data, research and educational activity, experiment results
Statistics national Statistics, census, infrastructure, wealth, skills
Social mobility and welfare housing, health insurance and unemployment benefits
Transport and Infrastructure public transport timetables, access points broadband penetration

*Bron: European Dataportal

Op data.overheid.nl zijn high value datasets gemarkeerd. Datasets die voldoen aan de volgende criteria worden als 'high value' aangemerkt op ons portaal:

  • De data is bij de data-inventarisatie door een departement als high value aangemerkt en wordt met hoge prioriteit ontsloten.
  • De data komt voor in de gemeentelijke high value lijst.
  • De data komt voor in de provinciale high value lijst.

Bij het samenstellen van de nationale high value lijsten zijn onderstaande lijsten een inspiratie:

  • De Open Data Barometer
  • Diverse andere (internationale) benchmarks waarin de open data-inspanning van nationale overheden wordt gemonitord

DCAT

Om datasets overzichtelijk te kunnen presenteren en om gericht naar datasets te kunnen zoeken, worden datasets in data.overheid.nl beschreven met metadata. Het W3C heeft hiervoor DCAT ontwikkeld, een metadatastandaard voor de beschrijving van datasets. Lees meer over DCAT van W3C.

DCAT-standaard Europese Unie

Vanuit de Europese Unie is er een toepassingprofiel van DCAT opgesteld. Het Nederlandse toepassingsprofiel van DCAT is gebaseerd op versie 1.1 van het EU-profiel (meer over DCAT-AP-EU 1.1 van de EU). Er wordt continu gewerkt aan een update van het DCAT-AP-EU. Daarin wordt onder andere ook de mapping naar ISO 19115, de metadatastandaard voor geo-datasets, meegenomen. Volg de ontwikkelingen van DCAT-AP-EU.

DCAT-standaard Nederland

De Nederlandse overheid heeft het DCAT-AP-EU vertaald naar een Nederlands profiel. Dit wordt ook wel het IPM voor datasets genoemd. Het IPM voor datasets is de specificatie van de metadata die de Nederlandse overheid gebruikt voor de uitwisseling van metadata over datasets tussen datacatalogi. Lees meer over de vormen die bestaan rondom DCAT, het IPM voor Datasets is hier te vinden.

Bestandsformaten open data

Bij het aanmelden van een dataset op www.data.overheid.nl kunt u kiezen uit diverse bestandsformaten. Deze bestandsformaten zijn geselecteerd aan de hand van het DCAT-NL model. In de tabel hieronder zijn alle 13 formaten uitgelegd.

FORMAAT Uitleg
Atom  XML-gebaseerde formaat datvergelijkbaar is met .rss. Het is ontworpen om een universele standaard te zijn voor persoonlijke content en weblogs.
JSON Dit standaard formaat wordt gebruikt voor het opslaan van eenvoudige data en objecten. De tekst is te lezen voor mensen en is gebaseerd op de javascript.; 
MS Word  
PDF PDF-bestanden kunnen tekst, afbeeldingen, vormen, annotaties, contouren, en andere gegevens bevatten. 
RDF RDF formaat wordt veelal gebruik voor visualisatie en ruimtelijke analyse.
SOAP  
Excel  
zip Een zip is een map met daarin meerdere documenten.
CSV Bestand met data dat gescheiden wordt door komma's. CSVwordt vaak gebruikt om gegevens te wisselen.
HTML HTML is een Webpagina die weergeeft wordt in een webbrowser. De HTML-broncode wordt ontleed door de webbrowser en wordt meestal niet gezien door de gebruiker.
N3  
Turtle  
XML  XMLgegevensbestand dat labels gebruikt om objecten en objectkenmerken te definiëren; geformatteerd net als een HTML. XMLbestanden standaard manier van opslag en overdracht van gegevens tussen programma en via het internet. Omdat ze zijn opgemaakt als tekst documenten, kunnen ze worden bewerkt door een eenvoudige tekstverwerker.

Daarnaast gebruikt data.overheid.nl nog een ander formaat, de shapefile. De shapefile is formeel geen open data formaat. Maar er is voor gekozen om dit formaat als open data te zien, omdat het formaat veel wordt gebruikt door overheidsorganisaties. 

FORMAAT Link
Shapefile  Link

Licenties voor hergebruik

Wanneer u een dataset registreert op data.overheid.nl bent u verplicht om een licentie te koppelen aan een dataset. Een licentie bepaalt de mate van hergebruik van een dataset. In de tabel hieronder staan de licenties die gebruikt worden op data.overheid.nl. Bij elke licentie is aangegeven of er sprake is van "open data". Enkele licenties leggen beperkingen op aan de hergebruiker waardoor er geen sprake is van open data die zonder beperking kan worden hergebruikt. 

Naam licentie Inhoud

Soort

Open Data?
Publiek Domein Met deze licentie wordt vastgesteld dat er geen bekende auteursrechtelijke beperkingen op rusten, alle aanverwante en naburige rechten daarbij inbegrepen. Open licentie Ja
CC-0 De persoon (hergebruiker) die deze licentie heeft gekoppeld aan de dataset, heeft de dataset toegewezen aan het publiek domein door wereldwijd zijn of haar rechten op het werk onder het auteursrecht, inclusief alle bijbehorende en naburige rechten, af te staan, voor zover door de wet is toegestaan. Open licentie Ja
Geo Gedeeld licentie In sommige gevallen is het toch noodzakelijk om gebruiksvoorwaarden te handhaven, bijvoorbeeld door wetgeving. In die gevallen biedt de licentie Geo Gedeeld uitkomst.
Geo Gedeeld bestaat uit een aantal standaard gebruiksvoorwaarden, elke voorzien van een eigen icoon, een lekentekst en een juridisch bindende tekst. De selectie van één of meerdere gebruiksvoorwaarden leidt tot een standaardlicentie. Er kan sprake zijn van beperkingen in hergebruik mogelijkheden. 
Beperkte licentie Nee
CC-BY

Met deze licentie is een hergebruiker vrij om de dataset te delen, te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat. De dataset mag bewerkt worden en mag voor commerciele doeleinde gebruikt worden. Een verwijzing naar de maker van de data is vereist. 

Open licentie Ja
CC-BY-SA Met deze licentie is een hergebruiker vrij om de dataset te delen, te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat. De data mag bewerkt worden. Een verwijzing naar de maker van de data is vereist. Daarnaast is vereist dat afgeleide producten onder dezelfde voorwaarden beschikbaar worden gesteld.    Licentie met beperking Ja

Bij twijfel adviseren we altijd de CC0 licentie te kiezen. CC0 geeft voor hergebruiker duidelijk aan dat de data kan worden hergebruikt zonder beperking. Meer informatie over licenties is te vinden op de Creative Commons website, over licenties.

Indien onduidelijk is wat de licentie is van data die beschikbaar wordt gesteld kan tijdelijk voor een "onbekend" of "niet open" licentie aanduiding worden gekozen. De datasets worden dan niet aangemerkt als open data omdat onduidelijk is of er beperkingen zijn in hergebruik. 

NAAM INHOUD

Soort

Open Data?
Licentie onbekend Als een beheerder licentie onbekend gebruikt, dan geeft de leverancier hierbij aan dat hij/zij niet weet welke licentie van toepassing is op de dataset.  Geen hergebruik licentie Nee
Geen open licentie Als een leverancier 'geen open licentie' gebruikt, dan betekent dat de datasat niet openbaar is en opgevraagd dient te worden bij de desbetreffende overheidsorganisatie  Gesloten
 
Nee

Gesloten datasets

Sommige datasets op data.overheid.nl zijn 'gesloten'. Dit betekent dat de dataset niet voor publiek hergebruik beschikbaar is of komt. Als een dataset 'gesloten' is, moet ook duidelijk zijn waarom een dataset niet beschikbaar is of beschikbaar zal komen.

Redenen om een dataset gesloten te houden

Let op: bij een gesloten dataset wordt meestal maar één reden genoemd; het kan echter zijn dat er meer redenen zijn waarom een dataset gesloten is. We adviseren om de volgens de volgorde van de beslisboom te werken en de eerste van toepassing zijnde reden te benoemen.  

  Reden Uitleg (vanuit beslisboom Rijkwaterstaat)
1 Gevaar eenheid Kroon Het verstrekken van de dataset kan gevaar opleveren voor de eenheid van de Kroon.
2 Staatsveiligheid Het verstrekken van de dataset kan de veiligheid van de Staat schaden.
3 Vertrouwelijk De dataset bevat bedrijfs- en/of fabricage gegevens die door natuurlijke personen of rechtspersonen vertrouwelijk aan de overheid zijn medegedeeld, en er zijn geen zwaarder wegende belangen voor openbaarmaking. 
4 Privacy

De dataset bevat persoongegevens:  

  1. de persoongegevens kunnen niet eenvoudig worden verwijderd uit de dataset (anonimiseren) waarbij de dataset bruikbaar blijft; of,
  2. er is sprake van inbreuk op de eerbiediging van de persoonlijke levenssfeer; of, 
  3. de betrokkenen zijn vooraf geinformeerd over de openbaarmaking en hebben geen toestemming verleent; of, 
  4. de persoonsgegevens kunnen op een eenvoudige manier achterhaald worden door koppeling(en) met een ander bestand.
5 Belang betrekkingen De betrekkingen van Nederland met andere Staten en/of internationale organisaties is belangrijker dan het opstellen van de dataset. 
6 Economische/ financiele belangen  De economische of financiele belangen van de Staat of andere publiekrechtelijke lichamen zijn belangrijker dan het openstelen van de dataset. 
7 Strafrecht  De dataset heeft betrekking op de opsporing en/of vervolging van strafbare feiten en er zijn geen zwaarder wegende belangen voor openbaarmaking.
8 Inspectie, controle en toezicht De dataset heeft betrekking op inspectie, controle en toezicht door bestuursorganen en er zijn geen zwaarder wegende belangen voor openbaarmaking. 
9 Persoonlijke beleidsopvattingen De dataset bevat persoonlijke beleidsopvattingen. De betrokkene heeft geen uitdrukkelijke toestemming verleent voor openbaarmaking. De gegevens kunnen niet eenvoudig worden geanonimiseerd en er zijn geen zwaarder wegende belangen tot openbaarmaking. 
10 Rechten van derden De overheid kan niet vrij beschikken over de inhoud van de dataset en/of heeft geen uitdrukkelijke toestemming om de dataset open te stellen. 
X Onbekend Het departement geeft aan dat de dataset gesloten blijft, maar er is geen reden opgegeven. De reden wordt zo snel mogelijk vastgesteld. 

Indien mogelijk wordt een verwijzing gemaakt naar relevante wetgeving als ondersteuning of grondslag voor het gesloten blijven van een dataset: 

  1. Wet Openbaarheid Bestuur: http://www.wetten.nl/BWBR0005252/
  2. Wet bescherming Persoonsgegegevens: http://www.wetten.nl/BWBR0011468/
  3. Wet op Hergebruik van Overheidsinformatie: bekendmaking 24 juni in het Staatsblad, inwerking getreden per 18 juli 2015, http://wetten.overheid.nl/BWBR0036795

Daarnaast zijn specifieke onderdelen uit wetgeving rond CBS, Kadaster e.a. van toepassing. 

Linked data sterren

Om aan te tonen hoe bruikbaar een dataset is, maakt data.overheid.nl gebruik van de Linked data sterren van Tim Berners Lee. Volgens de Linked-data sterren classificering zijn er vijf rangen in de mate van openheid van een dataset. Hoe hoger het aantal sterren, hoe beter de kwaliteit en de openheid van een dataset. Het sterrensysteem wordt in Engeland gebruikt om overheidsorganisaties te stimuleren om zo 'open' mogelijk te zijn. 

AANTAL STERREN INHOUD VOORBEELD
1 ster Beschikbaar op het web, met een open licentie PDF
2 sterren Data  is machine leesbaar en bevat een open licentie Excel
3 sterren De dataset is beschikbaar in een open bestandsformaat CSV
4 sterren Bovenstaande + gebruik open standaarden van het W3C (RDF en SPARQL) om objecten in de data te identificeren, zodat anderen naar die objecten kunnen verwijzen.  RDF
5 sterren Bovenstaande + link je data aan data van anderen, om meer context te verstrekken.  RDF

Dataset en databron

De termen "dataset" en "databron" worden op data.overheid.nl gebruikt om een verzameling van data aan te duiden. Er bestaat geen vastgestelde definitie van deze begrippen. Onderstaande definitie is zoals data.overheid.nl deze hanteert. 

  • Dataset: een beschrijving van een verzameling van data van een data-eigenaar. Dit kan bijvoorbeeld één tabel met data zijn of een verzameling van tabellen met samenhangende data, bijvoorbeeld alle tabellen per jaar over de periode 2005-2016.  
  • Databron: een verwijzing naar de daadwerkelijke vindplaats van data die in de dataset wordt benoemd. Een dataset bevat één of meer databronnen. In het voorbeeld is er één databron in de vorm van één tabel met data of meerdere  databronnen overeenkomend met het aantal tabellen per jaar.   

Hierbij gelden de volgende vuistregels: 

  • Een dataset wordt gevormd door een beschrijving en metadata. Er zijn een aantal verplichte velden (afgedwongen door de DCAT standaard) en optionele velden. De dataset beschrijft de inhoud van de onderliggende databronnen.
  • Een dataset wordt door de data-eigenaar zo samengesteld dat de optimale samenstelling van beschrijving en databronnen biedt voor hergebruik. De data-eigenaar bepaalt. 
  • Een dataset bevat tenminste één databron en mogelijk meer databronnen. Een databron kan voorkomen in meerdere datasets indien de data-eigenaar dit handig vindt om hergebruik te stimuleren. Het dubbel verwijzen naar dezelfde databronnen moet zoveel mogelijk worden voorkomen en alleen worden gebruikt als dit niet anders kan.