Εδώ βρίσκεται ο κώδικας που χρησιμοποιήθηκε από τη διαΝΕΟσις για την παραγωγή των στατιστικών στοιχείων των έργων του ΕΣΠΑ, όπως αυτά παρουσιάζονται στην αρθογραφία μας και είναι διαθέσιμα από το anaptyxi.gov.gr.
Απαραίτητες βιβλιοθήκες για την λειτουργία του project είναι το django για το ORM και το beautiful soup για πλοήγηση του DOM των σελίδων του anaptyxi.
Υπάρχουν δύο βασικά κομμάτια προς χρήση. Αρχικά, πρέπει να δημιουργηθεί η βάση με τα δεδομένα του anaptyxi, ώστε
περαιτέρω επεξεργασία να γίνεται τοπικά. Τρέχοντας τη συνάρτηση AnaptyxiScraper.main()
θα δημιουργηθεί μία βάση
SQLite μέσω του ORM του Django, η οποία θα γεμίσει με τα δεδομένα από το anaptyxi. Τα μοντέλα βρίσκονται ως συνήθως στο
models.py. Όμοια, τα έργα προτεραιότητας θα μεταφορτωθούν με το AnaptyxiPriorityScraper.main()
.
Στη συνέχεια, μία πληθώρα στατιστικών μπορούν να δημιουργηθούν με τη χρήση των μεθόδων των κλάσεων που βρίσκονται στο πακέτο processors. Οι συναρτήσεις προσπελαύνουν τα δεδομένα από τη βάση SQLite και είτε εκτυπώνουν τα αποτελέσματα στην κονσόλα ή παράγουν TSV αρχεία.
Στη διαΝΕΟσις χειριζόμαστε τα δεδομένα όπως κάθε άλλη πηγή -τους απευθύνουμε ερωτήσεις, ελέγχουμε διεξοδικά τις απαντήσεις και προσπαθούμε να μαζεύουμε όσο το δυνατόν περισσότερες πληροφορίες. Μπορείτε να δείτε μία περιγραφή των δραστηριοτήτων του οργανισμού σχετικά με data journalism στο blog μας.
Ο κώδικας της διαΝΕΟσις είναι διαθέσιμος ανοικτός προς το κοινό. Περιμένουμε να ελεγχθεί από τους αναγνώστες μας προκειμένου οι απαντήσεις που παίρνουμε από τα δεδομένα μας να έχουν την υψηλότερη δυνατή ποιότητα. Για αυτό όλο το project είναι διαθέσιμο υπό την άδεια GPLv3.