Otwarte dane badawcze
Masz wątpliwości? Chcesz skonsultować swój Plan Zarządzania Danymi, poradzić się, wybrać repozytorium, porozmawiać o FAIR czy otwieraniu danych?
Zapraszamy do kontaktu:
Dział Cyfrowego Udostępniania Zbiorów – cyfrowa@umlub.pl,
tel: +48 81 448 58 13,
budynek Biblioteki Głównej, ul. Szkolna 18, drugie piętro, p. 213.
Odpowiadamy na pytania, rozwiązujemy problemy, rozwiewamy wątpliwości.
Przypominamy, że Narodowe Centrum Nauki wprowadziło obowiązek dołączania Planu Zarządzania Danymi badawczymi do formularza wniosku o finansowanie projektu, jak również nakłada na grantobiorców obowiązek udostępnienia danych badawczych w otwartym dostępie – o ile nie zachodzą wyjątkowe okoliczności.
Repozytoria
Rekomendujemy wybór ogólnego repozytorium RepOD (kolekcja nadrzędna RepOD), lub odszukanie repozytorium korespondującego z zakresem wykonywanych badań (wyszukiwarka: https://www.re3data.org/).
Polecane materiały
Wytyczne dla wnioskodawców NCN do uzupełnienia PLANU ZARZĄDZANIA DANYMI w projekcie badawczym
Prezentacja Natalii Galicy “Otwarte dane badawcze w polityce i praktyce Narodowego Centrum Nauki” Licencja CC-BY
Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18.
Huerta, E.A., Blaiszik, B., Brinson, L.C. et al. FAIR for AI: An interdisciplinary and international community building perspective. Sci Data 10, 487 (2023). https://doi.org/10.1038/s41597-023-02298-6.
FAQ
- Jakie rodzaje/typy danych kwalifikujemy do danych badawczych podlegających gromadzeniu i udostępnianiu w repozytoriach danych badawczych?
Odp. Rodzaje gromadzonych i udostępnianych danych są bardzo różnorodne. Zależne od dziedziny nauki oraz przyjętej metodologii badań. Są to m.in.:
- Dokumenty tekstowe, notatki
- Dane liczbowe
- Kwestionariusze, ankiety, wyniki badań ankietowych
- Nagrania audio i video, zdjęcia
- Zawartość baz danych (video, audio, teksty, obrazy)
- Modele matematyczne, algorytmy
- Oprogramowanie (skrypty, pliki wejściowe…)
- Wyniki symulacji komputerowych
- Protokoły laboratoryjne, opisy metodologiczne
- próbki, artefakty, obiekty.
- Jak należy interpretować zasadę „tak otwarte, jak to możliwe – tak zamknięte, jak to konieczne” w odniesieniu do danych badawczych?
Odp. Zgodnie z zasadą „tak otwarte, jak to możliwe – tak zamknięte, jak to konieczne” należy udostępniać dane badawcze tuż po zakończeniu projektu lub wraz z pierwszym upowszechnieniem wyników badań np. podczas konferencji, w artykule lub innej formie publikacji. Otwieranie danych badawczych oznacza, że są one gromadzone przez repozytoria i udostępniane bezpłatnie każdemu zainteresowanemu. Zdarza się jednak, że niektóre zasoby danych badawczych nie mogą zostać udostępnione w modelu otwartym (np. z racji prawna autorskiego, zasad komercjalizacji wyników badań, postępowania patentowego, wówczas nakłada się na takie dane embargo, czyli okresowe wyłączenie danych z dostępu otwartego; możliwy jest tzw. dostęp “na życzenie”, czyli na podstawie zawnioskowania i uzyskanej zgody badacza.
- Co dokładnie znaczy z „raw research data”?
Odp. Określenie „raw research data”, z j. ang. surowe dane badawcze, odnosi się do danych, wygenerowanych bezpośrednio przez urządzania badawcze. Określa się je także jako dane nieprzetworzone, dane pierwotne, czyli niepoddane żadnej obróbce przez badacza i narzędzia do analizy materiału badawczego. Dane surowe po obróbce nazywane są danymi przetworzonymi.
- W jakich formatach należy zapisywać dane badawcze?
Odp. Formaty plików danych badawczych mogą być dowolne, jednak dbając o powszechny dostęp i otwartość, dobrze korzystać z formatów, które nie wymagają komercyjnego oprogramowania do odczytu danych. Planując proces zapisu danych badawczych należy też uwzględnić dostępność otwartych i zamkniętych formatów zapisu:
formaty otwarte to:
- w przypadku plików tekstowych: csv , odt , ods , odp , rtf, txt, html , xml
- w przypadku plików graficznych – png
- w przypadku plików dźwiękowych – flac
formaty zamknięte zapisu danych stosuje się:
- do plików tekstowych – doc , docx
- do plików tekstowo-graficznych – pdf
- do plików graficznych – tiff
- do plików pliki tekstowych i bazy danych – xls
- do plików dźwiękowych – mp3
- Jak szczegółowe powinny być metadane danych badawczych?
Odp. Poziom szczegółowości opisu danych badawczych jest zależny przede wszystkim od kierownika projektu badawczego i zespołu badawczego oraz ich potrzeb i oczekiwań dotyczących zakresu charakterystyki danych badawczych. Kwestie szczegółowości metadanych warto skonsultować z redaktorami i menadżerami repozytorium danych badawczych (data steward, data librarian, data curator). Podstawowe dane to: autor, tytuł, słowa kluczowe, instytucja finansująca, dyscyplina naukowa, licencja itd.). Metadane są narzędziem ułatwiającym identyfikację i korzystanie z danych oraz zarządzanie nimi, należy zatem uwzględnić wszystkie rodzaje metadanych.
- Co to są metadane?
Odp. Metadane to dane o danych, czyli niezbędny element w organizacji dostępu do danych badawczych, ich zrozumienia, charakterystyki treści i formy, także tzw. re use’u, czyli ponownego wykorzystania. Wyróżnia się trzy główne typy metadanych:
– Metadane opisowe – dostarczają informacji niezbędnych do odszukania, identyfikacji zbioru danych. Mogą zawierać: tytuł, autora danych, streszczenie i słowa kluczowe.
– Metadane strukturalne – służą do opisu relacji i zależności pomiędzy poszczególnymi zbiorami danych oraz elementami tych zbiorów w celu np. ułatwienia nawigacji.
– Metadane administracyjne – są pomocne w zarządzaniu określonym zasobem danych. Zawierają informacje o tym, w jaki sposób i kiedy (czyli datę) utworzenia danych, typ pliku, informacje dotyczące dostępu. Istnieje kilka podzbiorów danych administracyjnych. W obrębie metadanych administracyjnych wymieniane są dwa oddzielne typy metadanych, są to:
- metadane zarządzania prawami, które dotyczą praw własności intelektualnej,
- metadane konserwacji, które zawierają informacje potrzebne do archiwizacji i utrzymania zasobu.
- Kto decyduje o zastosowaniu odpowiedniego formatu metadanych?
Odp. Nie ma odgórnych wymogów, np. z NCN, odnośnie do zastosowania konkretnego formatu opisu danych badawczych. NCN zaleca między innymi jeden z popularnych i często stosowanych format Dublin Core (obok Data Cite oraz DDI) jednak ostatecznie decyduje kierownik projektu badawczego, wraz z zespołem badawczym oraz doradcą (redaktor repozytorium, data steward, data librarian).
- Czy korzystanie (deponowanie i udostępnianie) z systemu repozytoryjnego odbywa się na zasadach komercyjnych?
Odp. Większość repozytoriów funkcjonujących na świecie nie pobiera opłat od użytkowników. Korzystanie odbywa się na podstawie założonego konta w systemie lub umów podpisanych z instytucjami, w których pracują deponujący dane naukowcy.
- Na czym polega proces deponowania danych badawczych?
Odp. Deponowanie to proces umieszczania w repozytorium zbiorów plików zawierających dane. Pliki są powiązane – dotyczą jednej publikacji, projektu naukowego, eksperymentu. Na połączenie to wskazują opisy w metadanych.
- Jak zapewnić długoterminową archiwizację danych badawczych?
Odp. Długoterminowa archiwizacja to przechowywanie danych badawczych w dłuższym okresie czasu. Proces ten należy zaplanować i opisać m.in. w planie zarządzania danymi (data management plan DMP), przy czym ważne jest określenie czasu i miejsca przechowywania danych. W przypadku wyboru instytucji zewnętrznej, która udostępnia repozytorium danych badawczych, istotne jest uwzględnienie m. in.: czy posiada plan przechowywania danych w dłuższym okresie czasu, czy pliki, w których są zapisane dane, można opisać metadanymi, kto jest odpowiedzialny za dostęp do danych np. za 10 lub 15 lat, kto finansuje repozytorium i jakie są warunki przechowywania.
- Co to jest zasada FAIR?
Odp. Zasady FAIR Data oznaczają:
- Findable – łatwo znajdowane i wyszukiwane
- Accessible – dostępne dla wszystkich
- Interoperable – interoperacyjne, tak aby można było je połączyć z innymi danymi
- Reusable – wielokrotnego użytku.
Oznacza to, że dane badawcze powinny być:
(a) możliwe i łatwe do znalezienia – poprzez metadane, identyfikatory trwałe, indeksowanie;
(b) dostępne z poziomu otwartych repozytoriów, również na podstawie metadanych, unikalnych identyfikatorów i otwartych protokołów komunikacyjnych;
(c) interoperacyjne, czyli przetwarzalne, poddające się procesom wymiany, łączenia, wiązania z danymi z innych badań, zdeponowanych w innych systemach komputerowych, programach, bazach; format danych i metadanych powinien umożliwić ich bezproblemowy odczyt oraz prowadzić poprzez odnośniki do zasobów/obiektów powiązanych;
(d) dostępne i możliwe do ponownego, wielokrotnego użycia, na podstawie określonej, podanej do wiadomości licencji; zawartość metadanych powinna umożliwić badaczom ocenę stopnia przydatności danych innych autorów w kontekście badań własnych.
Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w jednoznacznie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny. Dokładna charakterystyka FAIR Data jest dostępna pod adresem: .
- Na czym polega otwieranie danych badawczych?
Odp. Otwieranie danych badawczych to udostępniane w repozytoriach bądź na innych platformach dzielenia się treścią zbiorów wyników, rezultatów prac naukowych, w celu ich ponownego, bezpłatnego użycia, bez barier technicznych i prawnych, jednak z zastrzeżeniem konieczności poszanowania podmiotowych praw własności intelektualnej. Otwieranie danych badawczych to proces wymagany przez instytucje finansujące zadania badawcze. Otwieranie danych ma również wspierać procesy powtarzania badań i weryfikacji wyników badań.
- Co to są datasety?
Odp. Datasety to pakiety danych badawczych i metadanych; zawierają możliwie szerokie spektrum danych badawczych i informacji o danych badawczych. Ukazują dane badawcze w kontekście prowadzonych badań, eksperymentów, pochodzących z nich wniosków, raportów i publikacji.
- Co to jest Plan Zarządzania Danymi?
Odp. Plan zarządzania danymi (Data Management Plan – DMP) to dokument, w którym zamieszczone są informacje o planowanych do wygenerowania danych badawczych i sposobie zarządzania nimi przez cały cykl ich życia. Plan zarządzania danymi badawczymi uwzględnia następujące zagadnienia:
(a) jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych),
(b) jak dane zostaną uporządkowane i opisane (metodologia, standardy, metadane),
(c) kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne),
(d) w jaki sposób dane zostaną udostępnione (jak, kiedy, komu),
(e) które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).
Dokument DMP jest opracowywany w związku z konkretnym przedsięwzięciem badawczym. Wskazuje się w nim osobę odpowiedzialną za zarządzanie danymi i ich udostępnianie. DMP jest wymogiem instytucji grantodawczych, w tym NCN.
- Kto/Jakie instytucje wymagają opracowywania Planu Zarządzania Danymi?
Odp. Opracowywania Planu Zarządzania Danymi wymagają organizacje, instytucje i agencje finansujące badania naukowe i są to m.in.:
- Narodowe Centrum Nauki (NCN)
- Ministerstwo Edukacji i Nauki (MEiN)
- Agencja Badań Medycznych (ABM)
- Komisja Europejska (KE)
Po wyjaśnienia i przykłady dokumentów DMP warto sięgnąć na strony programu Horyzont Europa, DMPTool, DMPonline, Digital Curation Centre.
- Na czym polega anonimizacja w kontekście danych badawczych?
Odp. Anonimizacja to proces, który polega na trwałym i nieodwracalnym przetworzeniu/przekształceniu danych osobowych, aby skutecznie uniemożliwić przyporządkowanie informacji do osoby, usunąć powiązania między danymi osobowymi a osobą, której dotyczą.
- Co to jest DOI?
Odp. DOI (ang. digital object identifier) – identyfikator pochodzący z systemu unikalnych w skali światowej identyfikatorów dla różnorodnych obiektów cyfrowych (publikacji, danych, stron internetowych), które są dostępne w internecie. DOI jest przypisywany do poszczególnych obiektów cyfrowych, deponowanych w repozytoriach. DOI to stałe oznaczenie obiektu, które jest niezależne od jego lokalizacji w sieci, czyli od adresu URL pod którym taki obiekt jest w danej chwili dostępny. DOI należy odróżniać od adresów URL. Adresy URL zmieniają się, natomiast identyfikatory DOI na zawsze pozostają przy obiekcie cyfrowym.
- Czy nadanie identyfikatora DOI jest bezpłatne?
Odp. Nadanie identyfikatora DOI jest bezpłatne z punktu widzenia deponenta (badacza, który zgłasza dane do repozytorium), natomiast repozytorium jako organizacja wykupuje pulę identyfikatorów DMP dla obiektów cyfrowych swojego repozytorium.
- Czy istnieją wymogi dotyczące cytowania danych badawczych?
Odp. Zazwyczaj redaktorzy repozytorium sugerują format cytowania danych i informują o tym na stronie każdego zbioru danych/repozytorium. Np. repozytorium RepOD umożliwia wygenerowanie danych bibliograficznych zbioru w formatach EndNote XML, RIS oraz BibTeX. Zaleca się, w przypadku zbiorów posiadających kilka wersji, aby w cytowaniu wskazać, która wersja zbioru jest cytowana.
- Na jakich zasadach prawnych udostępniane są dane badawcze?
Zgodnie z zasadą wobec której dane badawcze powinny być „tak otwarte, jak to możliwe – tak zamknięte, jak to konieczne” zaleca się wybór jednej z otwartych licencji Creative Commons. O rodzaju licencji decyduje autor/dysponent danych badawczych. Narodowe Centrum Nauki zobowiązuje badaczy, aby dane powiązane z artykułami naukowymi udostępniać zgodnie z warunkami licencji Creative Commons Public Domain (licencja CC0) lub Creative Commons Uznanie Autorstwa (licencja CC BY).
- Co to jest otwarta nauka?
Odp. „Pojęcie Otwartej Nauki można definiować jako szereg zmian w szeroko pojętej nauce prowadzących do lepszej komunikacji pomiędzy badaczami a także otwartości w upowszechnianiu wyników badań naukowych.”*
Komisja Europejska definiuje trzy główne filary, na których opiera się otwarta nauka: otwarta komunikacja naukowa, otwarte dane badawcze oraz otwarty dostęp do publikacji.
*Kokot-Kanikuła, Kamila; Wałek, Anna (2021). Otwarte zasoby edukacyjne – przegląd inicjatyw w Polsce i na świecie. E-mentor, nr 4 (91). https://www.e-mentor.edu.pl/artykul/index/numer/91/id/1531