FAQ: Blijven gegevens wel bruikbaar na anonimiseren?
Een veelgehoorde opmerking is dat na anonimiseren de gegevens niet meer bruikbaar zijn. Is dit wel correct?
Het doel van anonimiseren is om te voorkomen dat een persoon in een dataset is te identificeren.
Hiervoor moeten wij eerst goed kijken naar de reden van anonimiseren. Je wilt een dataset/bestand gaan gebruiken om bijvoorbeeld onderzoek te doen, maar wel binnen de kaders van de AVG blijven. Je wilt dus niet dat er herleidbare persoonsgegevens in zitten. Dit is een goed startpunt. Maar hoe voorkom je nu dat het bestand wel bruikbaar blijft maar niet herleidbaar is naar een persoon? Hier een paar tips:
- Zorg dat je alleen de nuttige gegevens voor het onderzoek in het bestand hebt. Alle andere gegevens die je niet nodig hebt kan je beter verwijderen of vervangen door generieke gegevens. Bijvoorbeeld je hebt de mailadressen niet nodig maar wilt wel dat het veld gevuld blijft. Vervang de mail adressen dan door een generiek mailadres (bv test@testmail.com)
- Geboortedata, kan je groeperen naar jaarintervallen, dus alle geboortedata in 1982 omzetten naar alleen het jaar 1982. Alle geboortedata in 2004 omzetten naar alleen 2004, enz. Wat je ook kan doen is de geboortedata binnen een gekozen interval laten muteren. Bijvoorbeeld alle geboortedata binnen een range van -50 en +50 willekeurig aanpassen.
- Indien je wel namen nodig hebt zorg dan dat je deze gegevens door middel van een shuffle aanpast. Oftewel je gaat deze gegevens op een dermate manier muteren dat het niet meer te herleiden is tot de originele gegevens. Hierbij kan je ook namen die niet zo vaak voorkomen in het originele bestand uitsluiten zodat deze na de shuffle niet meer in het bestand aanwezig zijn. Om de shuffle methode goed uit te kunnen voeren moet het databestand wel voldoende qua omvang van gegevens zijn.
Wilt je hier meer over weten? Neem dan gerust contact op.