-
2020-02-25 - O co chodzi z artykułami naukowymi?
-
2020-03-03 - Reprodukowalność? + Podział prezentacjami + Więcej o projekcie
- Reproducibility in Science
- Best Practices for Computational Science: Software Infrastructure and Environments for Reproducible and Extensible Research
- Open Science in Software Engineering
- DATA 598 A Wi 20: Special Topics In Data Science: Reproducibility for Data Science
- rrtools: Tools for Writing Reproducible Research in R
- Packaging Data Analytical Work Reproducibly Using R (and Friends)
Reprodukowalność w uczeniu maszynowym:
-
2020-03-10 - prezentacje I
-
2020-03-17 - prezentacje II
-
2020-03-24 - Praca Domowa I + projekt
-
2020-03-31 - bookdown + Praca Domowa II + projekt
-
2020-04-07 - Praca Domowa III + projekt
-
2020-04-21 - projekt
-
2020-04-28 - Prezentacja metodologicznej części projektu I
-
2020-05-05 - Prezentacja metodologicznej części projektu II
-
2020-05-19 - projekt (termin oddania opisu części metodologicznej projektu)
-
2020-05-26 - projekt
-
2020-06-02 - projekt (termin oddania całego projektu (artykułu))
-
2020-06-09 - ?
-
2020-06-16 - ?
Prezentacje trzeba wykonać w parach. Należy wybrać artykuł z listy:
- Debugging grid Graphics
- Integration of networks and pathways with StarBioTrek package
- stplanr: A Package for Transport Planning
- RcppMsgPack: MessagePack Headers and Interface Functions for R
- Geospatial Point Density
- neuralnet: Training of Neural Networks
- Mapping and Measuring Country Shapes
- tmap: Thematic Maps in R
- Conditional Visualization for Statistical Models: An Introduction to the condvis Package in R
- Enhancing Reproducibility and Collaboration via Management of R Package Cohorts
- archivist: An R Package for Managing, Recording and Restoring Data Analysis Results
- The Generalized Pairs Plot
- Visualizing Complex Data With Embedded Plots
Prezentacja powinna trwać do 12 min. + 3 min. na dyskusję. Powinna zawierać wprowadzenie do tematu i opis wyników arytkułu (10 pkt.) oraz dyskusję, czy udało się zreprodukować wyniki wraz z raportem w pdf (5 pkt.), w szczególności czy były problemy i spostrzeżeniaa dotczące reprodukowalności.
Przed rozpoczęciem zajęć proszę o PR slajdów (w PDF) do folderu Prezentacje.
Na każdą pracę domową jest czas do momentu rozpoczęcia kolejnych zajęć.
Spróbować (może się nie udać) zreprodukować co najmniej trzy wybrane artykuły naukowe (5 pkt. + 2 pkt. za znalezienie niereprodukowalnego i zidentyfikowanie przyczyny). Wyniki przesłać w formie raportu (pull request do folderu PD).
Journale do wybioru. Mozna wziąć artykuły z jednego lub kilku.
- The R Journal
- Machine Learning Open Source Software in Journal of Machine Learning Research
- Journal of Computational and Graphical Statistics
- Journal of Statistical Software
Założenie podrozdziału odpowiadającego artykułowi, który powstanie w ramach projektu. Wybrać deskryptywny tytuł artykułu.
Napisać Related Work artykułów dotyczących reprodukowalności. Umieścić Related Work w książce w odpowiednim artykule.
Celem projektu jest wykonanie analizy artykułów naukowych pod kątem reprodukowalności. Projekt trzeba wykonać w grupie 3-osobowej.
Wynikiem projektu powinien być krótki artykuł naukowy (40 pkt.), minimum 3 strony umieszczony jako rozdział książki online, która powstanie w ramach przedmiotu. Na wzór książki Limitations of Interpretable Machine Learning Methods.
Podział punktów w ramach artykułu
- Abstrakt: 5 pkt.
- Introduction + Motivation: 10 pkt
- Opis metodologii i wyników: 15 pkt. (oddanie po 5.05.2020 max 10 pkt.)
- Wnioski: 10 pkt.
Projekt nalezy zaprezentować w postaci Lightning Talka na jednym z ostatnich wykładów (15 pkt.).
Pomysły na pytania badawcze, najlepiej uwzględnić kilka:
-
Jak zmierzyć reprodukowalność? Czy jest zero-jedynkowa? A może procentowa?
-
Czy są różne rodzaje niereprodukowalności? Czy można zaproponować jakąś klasyfikację problemów z odtwarzaniem wyników?
-
Jak zmienia się reprodukowalność w zależności od roku wydania artykułu, czasopisma, języka progamowania?
-
Może ograniczyć analizę tylko do wąskiej technologii? Na ile aplikacje Shiny umieszczone w artykułach nadal działają?
-
Czy autorzy są responsywni? Czy pomagają przy problemach z kodem (e-mail, issue na GitHubie)? Czy oprogramowanie jest nadal rozwijane (np. GitHub, nowe wersje na CRAN, PyPI)?
-
Czy można zaproponować postulaty reprodukowalności? Czy da się stworzyć chcecklistę, którą powinny spełniać artykuły? Jaki procent artykułów by ją spełniał? Na ile jest uniwersalna? Za inspirację może służyć checklista z Reproducibility in Science
-
Czy da się w analizach uwzględnić długość artykułu, liczbę autorów, afiliację?
-
...
Własne pomysły bardzo mile widziane.
Czasopisma, którymi można się zajmować:
- The R Journal
- Journal of Statistical Software
- Journal of Machine Learning Research, szczególnie część Machine Learning Open Source Software
- Journal of Computational and Graphical Statistics choć można i innymi :)
Informacje w repzytorium Wykładu