Dies ist eine alte Version des Dokuments!


Datenlebenszyklus

Das Modell des Datenlebenszyklus (Data Life Cycle) beschreibt die Phasen, die Daten (zum Beispiel Datensätze, Datenbanken, Bilder, Text etc.) durchlaufen. Er ist als Kreis dargestellt, da Daten optimalerweise wiederverwendet werden können und - wenn gewünscht - dauerhaft erhalten bleiben.

Bei der Planung eines Forschungsvorhabens mit Hilfe eines Datenmanagmentplans werden die weiteren Phasen bereits mit gedacht und beschrieben.

Die eigentliche Studie dient oft der Erfassung und Dokumentation der Daten. An dieser Stelle handelt es sich zumeist um Rohdaten, also Informationen, die aufgenommen, aber noch nicht Auswahl und Analyse unterlaufen sind.

Kern eines durchdachten Datenmanagements ist die Archivierung von Daten. Das kann lokal oder in einem geeigneten Repositorium - einem Online-Datenarchiv mit beschreibenden Metadaten - geschehen. Ein frei zugängliches Repositorium (auch „Repo“) für Daten aller Art ist Zenodo.

Die Datenpublikation in Nicht-kuratierten relativ unpspezifischen Repos birgt das Risiko einer weniger guten Auffindbarkeit der Daten. Geo- und Umweltwissenschaftliche Daten können beispielsweise kostenfrei in PANGAEA oder dem BONARES Repositorium archiviert werden und erhalten eine spezifische DOI (Digial Object Identifier), welch jede Datenpublikation zweifelsfrei ausweist. Wichtige Schritte aus Sicht einer Datenkuration werden vom DCC (Digital Curation Centre) hier beschrieben und dargestellt.

In einem Repo gehen Archivierung und Publikation oft einher. Um die angesprochene DOI zu erhalten müssen die Daten frei zugänglich sein. Über die Archivierung hinaus gibt es idealerweise noch eine Langzeit-Archivierung, bei der Daten und Formate an über Jahrzehnte oder gar Jahrhunderte nachnutzbar sind.1)

Der Datenlebenszyklus schließt sich durch eine Daten-Nachnutzung. Diese setzt voraus, dass die Daten auffindbar, qualitativ hochwertig und gut beschrieben sind. Die Daten werden von Nachnutzer:innen oft in Repos gefunden und können dann über ihre DOI zitiert werden. Eine gängige Lizenz dafür ist CC-BY, was bedeutet, dass Daten nachgenutzt aber die Person, welche die Daten ursprünglich erhoben hat, genannt werden muss.

Der reibungslose Datenlebenszyklus profitiert von der Einhaltung der FAIR-Prinzipien.

1)
Markus, K., Parmaksiz, U., Svoboda, N., Schmidt, M.; Meier, K. 2021: Data for Generations - Keeping data reusable for really long periods of time. Workshop Folien, online auf https://zenodo.org/record/5786303, Zugriffsdatum 2022-06-09
datenlebenszyklus.1654778713.txt.gz · Zuletzt geändert: 09.06.2022 14:45 von Marcus Schmidt
Valid CSS Driven by DokuWiki Recent changes RSS feed Valid XHTML 1.0