Testdaten bei der Software-Entwicklung: Achtung Datenschutz!
Neue Kurzposition der BfDI
Bei der Einführung neuer Software oder der Anpassung bestehender IT-Systeme im Unternehmen sind oft umfangreiche Funktionstests erforderlich, um feststellen zu können, ob das Programm die gewünschten Ergebnisse liefern kann und wo gegebenenfalls Probleme bestehen. Dies erfordert in vielen Fällen, dass die zu testenden Systeme mit Daten gespeist werden, um deren Verhalten in bestimmten Szenarien überprüfen zu können.
Soweit hierbei personenbezogene Daten verarbeitet werden, sind die Regeln der DSGVO und des BDSG zu beachten. Das bedeutet auch, dass besser gar keine personenbezogenen Daten für derartige Tests genutzt werden sollten.
Zu diesem Thema hat die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) eine neue Hilfestellung in Form einer sogenannten “Kurzposition” veröffentlicht. Diese kann hier heruntergeladen werden.
Szenarien für den Einsatz von Testdaten
Die Notwendigkeit eines Einsatzes von “Testdaten” kann sich in verschiedenen Szenarien ergeben. So kommt es vor, dass das Verhalten der Software in Grenzfällen getestet werden muss. Als Beispiel nennt die BfDI die Verarbeitung von Altersangaben über 100 oder unter 0 Jahren. Hierbei muss sichergestellt werden, dass in der Software keine Funktionsstörungen auftreten. Typischerweise wird daher ein umfangreicher Testdatensatz eingespielt, der (auch) solche Grenzfälle enthält.
Andere Beispiele sind die sogenannten Äquivalenzklassenbildung oder schlicht Last- und Performancetests. Hierbei können erhebliche Datenmengen für die Testzwecke zum Einsatz kommen.
IT Teams müssen hierbei darauf achten, dass dabei nach Möglichkeit keinerlei personenbezogene Daten (z. B. von Kunden oder Beschäftigten des Unternehmens) für die Tests verarbeitet werden. Der Gebrauch von “echten” Produktivdaten für diese Zwecke verbietet sich daher in aller Regel.
Datenschutz beim Einsatz von Testdaten
Das Verbot bezüglich des Einsatzes von Produktivdaten ergibt sich meist daraus, dass es schon an einer datenschutzrechtlichen Rechtsgrundlage fehlt, die aber für diese Art der Verarbeitung gefunden werden muss. Die Interessenabwägung nach Art. 6 Abs. 1 S. 1 lit. f) DSGVO fällt meist zu Ungunsten des Unternehmens aus, da die Verarbeitung vollumfängliche Produktivdatensätze nicht für den Zweck erforderlich ist. Die BfDI gibt hilfreiche Tipps, wie man stattdessen vorgehen kann.
Zunächst bietet sich demnach die Verwendung “synthetischer” oder “generierter” Daten an. Dies sind maschinell oder manuell erstellte Datensätze, die nicht aus personenbezogenen Daten abgeleitet werden. Es besteht also keinerlei Gefahr, dass sich daraus Rückschlüsse auf eine real existierende Person ziehen lassen könnten. Der Einsatz solcher synthetischer Daten ist daher datenschutzrechtlich vollkommen unbedenklich.
Eine weitere Möglichkeit besteht darin, anonymisierte Daten zu verwenden. Hierbei handelt es sich um Daten, deren Personenbezug entfernt wurde, indem alle Merkmale, welche Rückschlüsse auf einzelne Personen erlauben, gelöscht werden. Dabei ist allerdings mit großer Vorsicht vorzugehen. Zum Einen muss für die Anonymisierung selbst eine Rechtsgrundlage gefunden werden, zum Anderen reicht das bloße Entfernen von Namen oft nicht für eine wirkliche Anonymisierung aus. Auch aus der Kombination weiterer Merkmale wie z. B. Geburtsdaten, Geschlecht, Verhalten, etc., kann im Zweifel eine Person identifiziert werden. “Echte Anonymisierung” ist daher eine Kunst für sich. Gelingt diese nicht, liegt weiterhin ein Personenbezug vor und die DSGVO ist mit allen Konsequenzen anwendbar. Die BfDI geht daher davon aus, dass in diesen Fällen regelmäßig eine Datenschutzfolgenabschätzung dokumentiert werden muss, was einen erheblichen Aufwand darstellt.
Kommt eine Anonymisierung nicht in Betracht, können gegebenenfalls pseudonymisierte Daten oder gar unveränderte Echtdaten eingesetzt werden. Wie man sich nach dem Obenstehenden denken kann, sind die Anforderungen daran um einiges höher. In diesen Fällen müssen Sicherheitsmaßnahmen getroffen werden, um die Betroffenen z. B. davor zu schützen, dass deren Daten in fremde Hände gelangen. Außerdem muss nachvollziehbar dokumentiert werden, warum genau eine Arbeit mit synthetischen Daten oder anonymisierten Daten nicht möglich war. Das wird in vielen Fällen nicht gelingen.
Fazit
IT Teams müssen vor jedem Software-Test genau prüfen, welche Daten sie dabei einsetzen dürfen. Die Verwendung von personenbezogenen Produktivdaten muss, soweit möglich, vermieden werden. Ist dies nicht möglich, muss umfassend dokumentiert werden, weshalb dies der Fall ist und welche Sicherheitsmaßnahmen getroffen wurden (z. B. umgehende Löschung nach dem Test, Pseudonymisierung, Reduktion von Datenfeldern, etc.).
Gerne unterstützen wir Sie bei der pragmatischen Umsetzung in solchen Fällen mit unserem Wissen. Sprechen Sie uns an und vergessen Sie nicht, unseren Newsletter zu bestellen, um immer auf dem neusten Stand zu bleiben in Sachen Datenschutz, KI und Compliance.