Auswahl, Aufbereitung und Dokumentation von Forschungsdaten

Im Sinne von Nachnutzung und Wiederverwendung sollten Forschungsdaten so ausgewählt, aufbereitet und dokumentiert werden, dass die Daten und Erkenntnisse daraus bestenfalls vollständig nachvollziehbar und interpretierbar sind, formale Vorgaben für Archivierung und Publikation der Daten erfüllt sind und gleichzeitig die rechtlichen Bestimmungen und weitere Auflagen wie z.B. die Datenpolicy der eigenen Einrichtung oder Förderrichtlinien erfüllt werden können.

  • Auswahl der Daten für die Sicherung und Bereitstellung
  • Aufbereitung der eigenen Forschungsdaten
  • Dokumentation

Auswahl der Daten für die Sicherung und Bereitstellung

Die Auswahl, welche Daten in welcher Form wie bewahrt und bereitgestellt werden müssen und sollen, muss bedarfsorientiert erfolgen und liegt primär im Verantwortungsbereich der Forschenden. Wissenschaftlerinnen und Wissenschaftler sollten als Entscheidungsgrundlage eine Datenbewertung nach Bedarf, Verifizierbarkeit, Einzigartigkeit, Kosten, regulatorischen Vorgaben und technischer Erhaltbarkeit vornehmen.
 

Leitfragen

  • Welche Materialien, Informationen und Daten sind überhaupt notwendig, den eigenen Forschungsprozess abzubilden und die Forschungsergebnisse reproduzierbar zu machen?
  • Was könnte im Zuge einer Bereitstellung für die Nutzung durch Dritte in anderen Forschungskontexten an (zusätzlichen) Informationen relevant sein?

Diese Leitfragen beeinflussen den gesamten Aufbereitungs- und Dokumentationsprozess und sollten maßgeblich im Hinterkopf behalten werden.

Von Interesse können dabei nicht nur die Forschungsdaten selbst sein. Auch weitere Kontextinformationen und Materialien wie Erhebungsinstrumente, Informationen zu Vorgehensweise und Methoden im Forschungsprozess mitsamt Aufbereitung und Analyse der Daten sind für die Nachnutzung und Interpretierfähigkeit der Daten durchaus von Bedeutung. Dabei beschränkt sich die Auswahl nicht nur die eigens erzeugten Daten (Primärdaten), sondern auch auf zusammengestellte Datensätze unter Einbeziehung fremder Datenquellen oder aber auch referenzierte Daten.

Die Qualität der Daten spielt dabei für Nachnutzung und Aufbewahrung eine tragende Rolle. Gibt es eine ausreichende Beschreibung der Daten in Form von Metadaten und Kontextmaterialien? Können genügend Informationen über deren Entstehungskontext, Aufbereitung und Analyse bereitgestellt werden?

Auch Vorgaben für Archivierung und Bereitstellung der Daten wie z.B. vereinbarte Archivierungspflichten für feste Zeiträume, andere vertragsbindende Gründe aus Förderbestimmungen oder institutionellen Regelungen, rechtliche Einschränkungen wie Datenschutz oder Urheberrecht oder Zugangsbedingungen der perspektivisch archivierenden Einrichtung sollten einbezogen sowie mögliche Interessenskonflikte identifiziert werden. Für eine Steuerung der Anforderungen und Potenziale bietet sich bereits in der Initiierungsphase die Erstellung und Führung eines Datenmanagementplans an.

Weiterführender Link:
⇒ Übersicht "Five steps to decide what data to keep" (Digital Curation Centre (DCC))

Aufbereitung der eigenen Forschungsdaten

Direkt nach der Erhebung von Rohdaten (Primärdaten) liegen diese durchaus nicht analysefertig vor, sondern müssen noch für die Bearbeitung der eigenen Forschungsfrage und gewünschte Auswertung in geeignete Form gebracht werden. Dies kann eine Digitalisierung der Daten oder Inhalte bedeuten, aber auch die Zusammenstellung bestehender Daten (ggf. inklusive Daten Dritter = Sekundärnutzung) oder die Verarbeitung zu neuen Datenarten und Datensätze. Diese formale Aufbereitung wird im späteren Analyseprozess ergänzt von der Datenbereinigung: Daten müssen evtl. ersetzt oder entfernt, also ungeeignete, unerlaubte, fehlerhafte und fehlende Angaben, Werte und Informationen standardisiert und nach festen Regeln korrigiert werden. Dies ist auch teilweise auf Grund rechtlicher Anforderungen (z.B. durch Anonymisierung bzw. Pseudonymisierung, Befolgung von Nutzungsrechten) erforderlich.
 

Anforderungen an die Datenaufbereitung

Die Aufbereitung von Daten im Sinne systematischen Forschungsdatenmanagements soll so erfolgen, dass

  • die Bearbeitungsprozesse nach festen Regeln erfolgen,
  • sie nachvollziehbar sind und dokumentiert werden,
  • Interpretierbarkeit durch Dritte gewährleistet ist,
  • Konsistenz herrscht.

Dies beinhaltet klare Bezeichnungen und Benennungen im Datensatz selbst, Checklisten und Überblicksdokumente als Dokumentationsmaterial sowie detaillierte Angaben zur Vorgehensweise bei der Aufbereitung.
Im Sinne der Nachnutzbarkeit ist es ratsam, die für die Archivierung und Bereitstellung benötigten Inhalte und Informationen zu identifizieren und eine entsprechende Dokumentation und Qualitätssicherung durchzuführen.

Für Informationen zu Dateiformaten, Dateistrukturierung und –benennung siehe den Bereich Dateimanagement.

Dokumentation

Die Dokumentation der eigenen Forschungsdaten sowie der Forschungsprozesse erzielt einen erheblichen Mehrwert. Eine transparente Dokumentation unter Nutzung konsistenter Regeln und Standards

  • ermöglicht die Lesbarkeit und Interpretierfähigkeit der Forschungsdaten,
  • ermöglicht die Nachvollziehbarkeit des Forschungsprozesses,
  • erhöht die Sichtbarkeit und damit Auffindbarkeit der Daten über Katalogisierung und damit Bereitstellung der dokumentierten Informationen und Materialien in Form von Metadaten und Dokumenten,
  • erhöht die Wahrscheinlichkeit einer Nutzung durch Dritte und damit der wissenschaftlichen Zitation,
  • erfüllt die Vorgaben guter wissenschaftlicher Praxis.

Im Sinne der Wiederverwendung, Nachnutzung und Nachvollziehbarkeit der gewonnenen Daten und Erkenntnisse sollte deshalb im Sinne guter wissenschaftlicher Praxis und Qualitätssicherung auch das Augenmerk auf einer stringenten Daten- und Studienbeschreibung in Form von Metadaten und Begleitmaterialien liegen.
Dies bedeutet mitunter einen höheren Aufwand für die Forschenden, eine Tatsache, die durchaus bei der Beantragung von Fördergeldern berücksichtigt werden kann und auch bei ausreichender Begründung durchaus bewilligt wird.

Wichtige Komponenten im Dokumentationsprozess

Die Dokumentation von Forschungsdaten umfasst neben den Daten mit gezielter Benennung und Kennzeichnung auch jegliche relevante Information über diese Daten, sog. Metadaten. Diese sollten Angaben zur Studie, zu angewandten Forschungsmethoden, zur Datenerhebung, -bearbeitung und –aufbereitung sowie zum Analyseprozess beinhalten, ganz im Sinne der Nachvollziehbarkeit der Forschungsprozesse und Interpretierbarkeit der Forschungsdaten.

Für die Dokumentation sind auch erstellte Begleitmaterialien mit Kontextinformationen relevant, so zum Beispiel Methodenberichte, Kodierungen, Erhebungsinstrumente, Instruktionen, etc.

Leitfragen im Dokumentationsprozess

  • Gibt es Vorgaben oder Richtwerte von Förderern, der eigenen Einrichtung, der wissenschaftlichen Community, Archiven oder Repositorien, welche Informationen und Angaben dokumentiert werden sollen, und wenn ja: in welcher Form?
  • Was könnte für Dritte zum Verständnis und der Nutzung der Daten von Interesse sein?
  • Was muss für direkt beteiligte, aber auch für unbeteiligte Forschende vorliegen, um die Daten auch in einigen Jahren noch reproduzieren, validieren oder wiederverwenden zu können?
  • Welche Informationen zu den Daten sollten verfügbar sein, um das Analysepotenzial für die eigene Forschung schnell erfassen zu können?

Hinweis:
Für die mögliche Nachnutzung in ähnlichen oder auch anderen Forschungskontexten können durchaus Informationen und Angaben von Belang sein, die für die Beantwortung der eigenen Forschungsfrage nebensächlich erscheinen.

Standardisierte Metadaten

Außer der Tatsache, dass Datenarchive und Repositorien für die Bereitstellung von Daten und ihren Metadaten Qualitätskontrollen und Workflows entwickeln mit der zusätzlichen Anreicherung und formalen Prüfung der Informationen und Materialien, strukturieren und beschreiben sie außerdem die Daten und vor allem Metadaten durch Verwendung von Metadatenstandards und kontrollierten Vokabularien und leisten dadurch einen entscheidenden Beitrag zur Nachnutzung und Auffindbarkeit von Forschungsdaten. Standardisierte Metadaten bewirken eine einheitliche Dokumentation der Daten und sorgen dafür, dass Daten zu gleichen Qualitätsbedingungen international über Nachweissysteme und Kataloge durchsucht und gefunden werden können.

Metadatenstandards beinhalten festgelegte Definitionen und Vokabularien zur Beschreibung der Daten. Sie sollten bestenfalls innerhalb einer wissenschaftlichen Community oder von Datenarchiven bzw. Repositorien breit verwendet werden sowie international angebunden sein. Dies garantiert die übergreifende einheitliche Dokumentation und Beschreibung in gleicher Qualität und damit den (maschinellen) Metadatenaustausch zwischen Katalogsystemen. Dies steigert wiederum die Zugriffchancen auf die Informationen und fördert insgesamt somit die Sicht- und Nachnutzbarkeit der Daten.

Unser Dokumentationsteam unterstützt Sie gerne, auch bzgl. Informationen zu den Anforderungen und Systemen an der Leuphana oder anderer Datenanbieter. Kontaktieren Sie uns.

Ihre Ansprechperson rund um die Bereiche Aufbereitung und Dokumentation: Thomas Schwager

Thomas Schwager
Universitätsallee 1, CB.132
21335 Lüneburg
Fon +49.4131.677-1175
thomas.schwager@leuphana.de

Martin Bilz
Universitätsallee 1, CB.105
21335 Lüneburg
Fon +49.4131.677-1113
martin.bilz@leuphana.de