Synchroniseren van koloniaal erfgoed: een linked data-benadering
Auteurs: Chris Dijkshoorn, Jauco Noordzij, Sjors de Valk
Vanaf de zeventiende eeuw had Nederland handelsposten en koloniën in Azië, Afrika en Noord- en Zuid-Amerika. In die tijd zijn vele cultuurgoederen uit deze gebieden naar ons land gekomen. Deze zijn tot op de dag van vandaag te zien bij musea. Toch is vaak niet duidelijk of deze goederen 'koloniaal erfgoed' zijn en, indien ja, of deze rechtmatig of tegen de wil van de oorspronkelijke eigenaren verkregen zijn. Een nieuw digitaal platform ondersteunt gebruikers om dit inzichtelijk te maken: de datahub 'Koloniale Collecties'.
De datahub wordt gemaakt door een consortium van erfgoedinstellingen met expertise op het gebied van koloniaal erfgoed. Onderzoekers uit landen van herkomst en Nederland kunnen de datahub gebruiken om te achterhalen welke goederen waar vandaan komen en waar ze zich nu bevinden. Het Rijksmuseum neemt deel aan het consortium.
Datasynchronisatie
Het Rijksmuseum, net zoals de andere deelnemende instellingen, wil haar informatie over koloniaal erfgoed beschikbaar stellen aan het consortium. Dit betekent dat er een zogeheten datasynchronisatie opgezet moet worden tussen applicaties van het museum en het consortium, om de informatie van de ene applicatie naar de andere te krijgen. Maar hoe moet deze synchronisatie eruit zien? Een team van het Rijksmuseum en het consortium heeft hier de afgelopen maanden samen aan gewerkt.
Onze benadering heeft twee uitgangspunten. Het eerste uitgangspunt: informatie moet op een gestandaardiseerde manier aangeboden worden. 'Gestandaardiseerd' houdt in dat er geen specifieke afspraken of maatwerkoplossingen gemaakt worden. Dit maakt het zowel voor het museum als voor het consortium eenvoudig om informatie uit te wisselen. 'Gestandaardiseerd' betekent ook dat de informatie gepubliceerd wordt als linked data, een manier om informatie gestructureerd te ontsluiten en te verbinden met gegevens van andere bronnen. Het Rijksmuseum maakt veel gebruik van linked data, zoals uit eerdere blogposts blijkt.
Het tweede uitgangspunt gaat een stap verder. Zowel het Rijksmuseum als het consortium willen actuele informatie aan gebruikers bieden. Dit klinkt als een open deur – wie wil dat nou niet? Maar dit is nog niet gangbaar in de erfgoedsector. Vaak stelt een instelling periodiek een nieuwe versie van haar informatie beschikbaar, bijvoorbeeld eens per week, maand of jaar. Het gevolg hiervan is dat gebruikers tot die tijd met oude informatie moeten werken.
Onderzoek
Wij hebben onderzocht hoe actuele informatie ontsloten kan worden via datasynchronisatie. 'Actueel' houdt in dat als informatie bij het museum wijzigt – er wordt bijvoorbeeld een nieuw item toegevoegd aan het collectiebeheersysteem – dit onmiddellijk wordt doorgegeven aan de datahub. Ons onderzoek bestond uit twee fasen.
Bestaande oplossingen
In de eerste fase hebben wij verkend welke oplossingen al bestaan. Wij hebben de volgende bekeken:
- OAI-PMH is een beproefde manier om informatie uit te wisselen. Het wordt veel gebruikt in de erfgoedsector en het Rijksmuseum heeft er de nodige ervaring mee. Daar staat tegenover dat het een verouderd protocol is en niet specifiek voor het synchroniseren van linked data bedoeld is.
- ResourceSync wordt vaak gezien als de hedendaagse opvolger van OAI-PMH. Toch wordt ResourceSync weinig gebruikt en is het – net als OAI – niet specifiek voor linked data gemaakt.
- Git is een populair versiebeheersysteem; je kunt er bestanden en hun veranderingen mee opslaan. De informatie over collectie-items kun je ook in bestanden vastleggen. Dit zou de datahub in staat stellen om in het Git-systeem van het Rijksmuseum te kijken en de laatste informatie op te halen. Git is een elegante oplossing, maar het is geen standaard voor het synchronsieren van linked data – we hebben specifieke afspraken nodig om het te kunnen gebruiken.
- Linked Data Notifications (LDN) is een gestandaardiseerde linked data-oplossing. Het stelt applicaties in staat om informatie uit te wisselen via berichten. Het is een goed doordacht maar ook een algemeen protocol – het gaat niet specifiek over datasynchronisatie. Als we LDN voor dat doel willen gebruiken, moeten we het uitbreiden.
- Linked Data Event Streams (LDES) is een nieuw protocol. Het wordt onderhouden door SEMIC, de Semantic Interoperability Community van de Europese Commissie. LDES is veelbelovend: het gaat uit van linked data en is ideaal voor datasynchronisatie. De specificatie van LDES is evenwel nog niet afgerond.
- IIIF Change Discovery is eveneens een nieuw protocol, geworteld in linked data. Het is gemaakt door de community die het International Image Interoperability Framework (IIIF) heeft ontwikkeld, een standaard waarmee afbeeldingen via het web toegankelijk gemaakt kunnen worden. Met Change Discovery kan een data provider kenbaar maken welke 'records' zijn gewijzigd; een data consumer kan die records vervolgens verwerken. Een beperking is dat het protocol onderdeel is van IIIF, waardoor het lijkt of het alleen geschikt is voor het communiceren van wijzigingen over afbeeldingen, niet over collectie-items in het algemeen. Verder geeft het alleen aan of een record is gewijzigd, niet wat, zoals de titel of de beschrijving.
Alle oplossingen hebben voor- en nadelen – er is geen beste oplossing. Om toch een keuze te kunnen maken, hebben wij ons gericht op oplossingen die specifiek voor datasynchronisatie en linked data gemaakt zijn: LDES en Change Discovery. Vervolgens hebben wij proof of concepts van beide gemaakt. Op grond van deze ervaringen hebben wij gekozen voor Change Discovery: het protocol is goed gedocumenteerd en eenvoudig te implementeren.
Implementatie
In de tweede fase hebben wij een datasynchronisatie gemaakt op basis van Change Discovery.
Eerst heeft het team van het Rijksmuseum een zogeheten change discovery service ontwikkeld. Zodra de informatie over een item wijzigt in het collectiebeheersysteem, geeft de service aan welk item dit betreft. Elke wijziging kan op deze manier kenbaar worden gemaakt, zoals een toevoeging (er komt een nieuw item bij), een verandering (de informatie over een bestaand item wordt bijgewerkt) of een verwijdering (de informatie over een item wordt verwijderd). De service is onderdeel van de integration layer van het museum, het systeem waarmee collectie-informatie digitaal toegankelijk gemaakt gaat worden.
Daarna heeft het team van Koloniale Collecties een change discovery client ontwikkeld. Dit is een applicatie die op gezette momenten – bijvoorbeeld eens per uur – de service van het museum raadpleegt en vraagt of er collectie-items gewijzigd zijn. Als dat het geval is, haalt de client de laatste informatie over de items op en bewaart dit in de datahub.
Hoe verder?
Het Rijksmuseum en het consortium Koloniale Collecties hebben nu een datasynchronisatie voor het uitwisselen van actuele informatie. Maar we zijn nog niet klaar. Op dit moment publiceert de change discovery service wijzigingen van alle collectie-items van het museum. Het consortium is evenwel alleen geïnteresseerd in items die koloniaal erfgoed zijn. Hoe kunnen die herkend worden? Dat is niet zozeer een technologische vraag – het is bovenal een vraag over de definitie van 'koloniaal erfgoed', de herkomst van items en de informatie die het Rijksmuseum heeft over haar items. Zodra deze vraag beantwoord is, kan het koloniale erfgoed van het museum gepresenteerd worden in de datahub en ons koloniale verleden inzichtelijk gemaakt worden.
Deze blogpost is ook gepubliceerd op het blog van de afdeling Research Services van het Rijksmuseum.