Een open source-onderzoeksdatabase voor Parkinson klinkt in eerste instantie als een wetenschappelijk project. Maar er gaat ook een technisch en organisatorisch vraagstuk achter schuil. Hoe verzamel je jarenlang medische data van honderden deelnemers via wearables, scans, klinische metingen en lichaamsmateriaal, zonder dat privacy en beveiliging in het gedrang komen? En hoe geef je onderzoekers wereldwijd toegang tot die data, zonder de controle kwijt te raken?
Tekst: Robbert Hoeffnagel Beeld: PERSONALIZED PARKINSON PROJECT
Precies met die vragen houdt het Expertisecentrum Parkinson en Bewegingsstoornissen van het Radboudumc zich al jaren bezig. Binnen de zogeheten Personalized Parkinson Project-studie worden deelnemers sinds 2017 langdurig gevolgd. Die studie begon als een grote observationele cohortstudie, waarin 520 mensen met Parkinson gedurende twee tot drie jaar werden gemonitord. Zij kwamen jaarlijks naar het ziekenhuis voor een brede reeks metingen, van motorische en cognitieve testen tot bloedafname, ECG’s en MRI-scans. Tegelijk droegen zij thuis continu een studiehorloge dat data verzamelde over hun dagelijks functioneren.
Volgens Elbrich Postma, senior onderzoeker ‘Leefstijl en Parkinson’, was al vroeg duidelijk dat zo’n studie om meer vraagt dan alleen een goede onderzoeksopzet. De ambitie was namelijk niet alleen om de data in eigen huis te gebruiken, maar ook om die beschikbaar te maken voor andere onderzoekers in binnen- en buitenland. ‘Omdat dit project heel veel data oplevert en er bovendien expertises zijn die wij niet persé in huis hebben, maar die andere onderzoekers wel hebben’, zegt Postma. Daarmee ontstond direct een complex speelveld van privacy, beveiliging en governance.
Die wens klinkt logisch, maar maakt de technische architectuur ingewikkeld. Zeker omdat het hier niet gaat om één type gegevens, maar om een combinatie van klinische data, continue metingen via wearables, MRI-scans, ECG’s en materiaal uit een biobank. Inmiddels is de onderzoeksomgeving uitgegroeid tot een dataset van circa 52 terabyte. Dat volume zegt iets over de schaal. De combinatie van verschillende databronnen maakt de omgeving bovendien extra gevoelig. Juist daardoor is volledige anonimisering volgens Postma niet realistisch.
‘We hebben het nooit over anonieme data, want met dit soort datasets kan dat niet. Er moet een link bijven met de individuele deelnemer’, zegt zij. Daarom is gekozen voor pseudonimisering. Dat verschil is cruciaal. De data zijn voor onderzoekers of externe partijen niet rechtstreeks herleidbaar tot een persoon, maar de koppeling tussen verschillende datastromen blijft binnen een streng gecontroleerd systeem wel mogelijk. Zonder die koppeling zou het wetenschappelijke nut van de database grotendeels verdwijnen.
De technische basis daarvoor is gelegd in een systeem dat samen met een team van de Radboud Universiteit is ontwikkeld: PEP, voluit Polymorphic Encryption and Pseudonymization. Dat is als database-omgeving de centrale schakel in het project en is bovendien als open source beschikbaar. In plaats van alle gegevens onder één direct herkenbare deelnemerscode op te slaan, werkt het systeem met aparte pseudoniemen per datastroom. Klinische gegevens krijgen dus een andere code dan horlogedata, MRI-data of biomateriaal. Pas binnen de database-omgeving worden die verschillende codes gekoppeld aan één centrale PEP-ID.
Dit betekent dat de centrale database de enige plek is waar alle losse datastromen technisch samenkomen. Het systeem weet welke gegevens bij dezelfde deelnemer horen, maar doet dat zonder dat alle betrokken partijen zicht hebben op de identiteit van die deelnemer. Dat is vooral relevant vanwege de samenwerking met Verily, voorheen bekend als Google Life Sciences. Dit zusterbedrijf van Google leverde de studiehorloges.
De horloges werden door het studieteam van het Radboudumc uitgegeven. Daardoor wist alleen dat team welke deelnemer welk horloge droeg. Verily zag volgens Postma uitsluitend de horlogenummers en de bijbehorende binnenkomende meetgegevens. De directe koppeling met persoonsgegevens bleef dus buiten bereik van de leverancier van de wearables.
Ook de route van de data is zo opgezet dat er geen rechtstreekse lijn loopt van horloge naar de centrale onderzoeksdatabase van Radboud. De horlogedata gingen eerst naar de omgeving van Verily en werden van daaruit actief geüpload naar de PEP-database. Volgens Postma gebeurde dat bovendien niet via een gewone smartphonekoppeling, maar via een speciale hub die bij de deelnemer thuis stond. Dat verkleint de kans dat data via allerlei consumentenelektronica gaan zwerven. De hub zorgde onder andere voor de versleuteling van de data.
De beveiliging van de data rust op een end-to-end encryptiearchitectuur. Data wordt al aan de bron versleuteld voordat deze het systeem binnenkomt en pas weer ontsleuteld aan de kant van de onderzoeker die daarvoor geautoriseerd is. In de opslagomgeving blijft de data dus permanent versleuteld. De sleutelstructuur is bovendien opgesplitst over twee onafhankelijke componenten: een zogeheten Transcryptor en een Access Manager. Beide zijn op verschillende locaties ondergebracht en zijn gezamenlijk nodig om toegang tot de data mogelijk te maken. De encryptie- en decryptiesleutels bevinden zich daarmee nooit bij de cloudopslagprovider zelf. Voor het ontsleutelen van data zijn altijd twee afzonderlijke sleutelsegmenten nodig die bij verschillende partijen worden beheerd. Dit ontwerp moet het risico op datalekken verder beperken, omdat toegang tot de opslagomgeving op zichzelf nog geen toegang tot leesbare data oplevert.
De data worden opgeslagen in Google Cloud, mede omdat die hosting onderdeel was van de samenwerking rond de horloges. Maar opslag betekent in dit geval zeker geen bruikbare toegang. ‘De opslag daar is versleuteld’, zegt zij. ‘Als je de bucket waarin de data is opgeslagen opent, kun je niks met die gegevens.’
De data kunnen alleen via de gebruikersinterface van de database worden gedownload. Dit kan alleen wanneer een onderzoeker daarvoor eerst een sleutel ontvangt. Daarmee komt governance nadrukkelijk in beeld. Onderzoekers krijgen niet zomaar toegang tot de volledige dataset. Zij moeten eerst een onderzoeksvoorstel indienen waarin staat welke data zij nodig hebben en met welk doel. Daarbij wordt niet alleen gekeken naar de wetenschappelijke relevantie van het voorstel, maar ook naar de manier waarop de aanvrager met de data wil omgaan.
Zo bevat het aanvraagproces ook een sectie over data hosting en security. Onderzoekers moeten toelichten waar zij de data opslaan, wie erbij kan en hoe de technische omgeving is ingericht. Na goedkeuring volgt een overeenkomst, de zogeheten Qualified Researcher Agreement, waarin voorwaarden staan over gebruik, opslag, delen en verwijdering van de data. Ze mogen de data bijvoorbeeld niet doorgeven aan anderen en moeten die na afloop van het werk verwijderen.
Daarna volgt nog een extra stap. Het team dat de database technisch beheert, moet de sleutel verstrekken waarmee de data daadwerkelijk kunnen worden gedownload en gebruikt. Daarmee is het proces bewust opgeknipt. Het onderzoeksteam kan niet op eigen houtje toegang geven zonder betrokkenheid van de beheerders. Postma spreekt in dat verband van een ’twee-ogen-principe’.
Ook intern is de toegang strak georganiseerd. Per gebruikersgroep wordt bijgehouden wie toegang heeft, tot welke data en tot wanneer. Dat gebeurt via registratieformulieren die gedeeld worden tussen het Radboudumc en het universiteitsteam. Periodiek wordt gecontroleerd of toegangsrechten nog actueel zijn, bijvoorbeeld wanneer medewerkers uit dienst zijn of projecten zijn afgerond. Dat proces is volgens Postma deels nog handwerk, maar wel beheersbaar.
Daarnaast wordt ook beheertoegang geregistreerd. Als het technische team van de Radboud Universiteit in de database moet zijn om iets te controleren, wordt dat teruggekoppeld en vastgelegd. Daarmee ontstaat niet alleen operationele controle, maar ook bestuurlijke verantwoording over wie wanneer in de omgeving is geweest en waarom.
Interessant is dat de database niet alleen is ingericht voor het uitgeven van data, maar ook voor het terugontvangen ervan. Onderzoekers die bijvoorbeeld analyses uitvoeren op lichaamsmateriaal kunnen hun resultaten weer uploaden naar de database. Via de juiste pseudonimisatiecode worden die uitkomsten vervolgens opnieuw gekoppeld aan de bestaande klinische en biologische data. Dat voorkomt dat schaarse samples onnodig worden gebruikt en maakt de dataset in de loop van de jaren rijker.
Het project laat daarmee zien dat open science in de medische wereld alleen werkt als openheid gepaard gaat met stevige technische en organisatorische grenzen. Niet iedereen krijgt alles te zien, niet elke dataset verlaat zonder meer de omgeving en niet elke onderzoeker mag zelf bepalen hoe lang data blijven circuleren. Juist die combinatie van pseudonimisering, versleuteling, gecontroleerde sleuteluitgifte, contractuele afspraken en toegangsbeheer maakt deze infrastructuur werkbaar, vertelt Postma.
Volledig risicoloos is geen enkel systeem. Zeker niet wanneer onderzoekers wereldwijd met gevoelige medische data werken. Maar de Parkinson-database van Radboudumc laat wel zien waar het in de praktijk op aankomt: niet op één enkele securitymaatregel, maar op een keten van technische, juridische en organisatorische controles van deelnemer tot onderzoeker.