Skip to content

Ασκήση Οπτικοποιήσεων με R και ggplot2 στο μάθημα Ανάλυση Δεδομένων

Notifications You must be signed in to change notification settings

cbratsas/COVID-19-DataAnalysis-R-ggplot2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 

Repository files navigation



Data Science and COVID-19

Άσκηση στο μάθημα Ανάλυση Δεδομένων Οπτικοποιήσεις εξάπλωσης του COVID-19 με R και ggplot2

1. Η εξέλιξη της πανδημίας

Τον Δεκέμβριο του 2019, ο κοροναϊός COVID-19 εντοπίστηκε για πρώτη φορά στην περιοχή Wuhan της Κίνας. Στις 11 Μαρτίου 2020, ο Παγκόσμιος Οργανισμός Υγείας (WHO-ΠΟΥ) χαρακτήρισε την έκρηξη του COVID-19 ως πανδημία. Πολλά έχουν συμβεί αυτούς τους μήνες, με πολλά κρούσματα μόλυνσης, στο Ιράν, τη Νότια Κορέα, την Ισπανία και την Ιταλία.

Γνωρίζουμε ότι ο ιός COVID-19 εξαπλώνεται μέσω σταγονιδίων από την μύτη ή το στόμα που εξαπλώνονται όταν ένα άτομο με COVID-19 βήχει, φτερνίζεται, ή εκπνέει. Αλλά, πόσο γρήγορα εξαπλώθηκε ο ιός σε όλο τον κόσμο; Μπορούμε να δούμε οποιεσδήποτε επιπτώσεις της πανδημίας σε διάφορες χώρες, όπως για παράδειγμα το κλείσιμο των μαγαζιών και η καραντίνα;

Ευτυχώς, οι οργανισμοί σε όλο τον κόσμο συλλέγουν δεδομένα, έτσι ώστε οι κυβερνήσεις να μπορούν να παρακολουθούν και να μαθαίνουν από αυτή την πανδημία. Ειδικότερα, το Johns Hopkins University Center for Systems Science and Engineering δημιούργησε ένα δημόσια διαθέσιμο αποθετήριο δεδομένων για την ενοποίηση αυτών των δεδομένων από διάφορες πηγές όπως ο Παγκόσμιος Οργανισμός Υγείας, τα Κέντρα Ελέγχου και Πρόληψης Νοσημάτων (CDC) και τα Υπουργεία Υγείας από πολλές χώρες.

Σε αυτή την άσκηση, θα οπτικοποιήσετε τα δεδομένα του COVID-19 από τις πρώτες εβδομάδες της επιδημίας για να δείτε σε ποιο σημείο ο ιός αυτός έγινε παγκόσμια πανδημία.

Λάβετε υπόψη ότι οι πληροφορίες και τα δεδομένα σχετικά με το COVID-19 ενημερώνονται συχνά. Τα δεδομένα που χρησιμοποιήθηκαν σε αυτό το έργο τραβήχτηκαν στις 3 Μαρτίου 2020 και δεν πρέπει να θεωρηθούν ως τα πλέον ενημερωμένα διαθέσιμα στοιχεία.

# Να φορτώσετε τα πακέτα: readr, ggplot2, και dplyr
....
....
....

# Να φορτώσετε τα δεδομένα του αρχείου confirmed_cases_worldwide.csv και να τα αποθηκεύσετε στην μεταβλητή confirmed_cases_worldwide
confirmed_cases_worldwide <- ....

# Να τυπώσετε το confirmed_cases_worldwide
....

2. Επιβεβαιωμένα κρούσματα σε όλο τον κόσμο

Ο παραπάνω πίνακας, δείχνει αθροιστικά τα επιβεβαιωμένα κρούσματα του COVID-19 παγκοσμίως κατά ημερομηνία. Μόλις διαβάζετε τους αριθμούς στον πίνακα καθίσταται δύσκολο να αποκτήσετε μια αίσθηση της κλίμακας και της αύξησης της πανδημίας. Ας σχεδιάσουμε ένα γράφημα γραμμής για να απεικονίσουμε τα επιβεβαιωμένα κρούσματα παγκοσμίως.

# Χρησιμοποιώντας το σύνολο δεδομένων confirmed_cases_worldwide, να σχεδιάσετε ένα ggplot γράφημα.
# Να ορίσετε ως aesthetics την μεταβλητή cum_cases στον άξονα y και την date στον άξονα x.
# Να προσθέσετε ένα επίπεδο γραμμής για να γίνει γράφημα γραμμής.
# Να ονομάσετε τον άξονα y σε "Cumulative confirmed cases"
.... +
  .... +
  ....

3. Η Κίνα συγκριτικά με τον υπόλοιπο κόσμο

Ο άξονας y σε αυτό το γράφημα είναι αρκετά τρομακτικός, με τον συνολικό αριθμό επιβεβαιωμένων κρουσμάτων σε όλο τον κόσμο να προσεγγίζουν 200.000. Πέρα από αυτό, συμβαίνουν κάποια περίεργα πράγματα: υπάρχει ένα περίεργο άλμα στα μέσα Φεβρουαρίου και στη συνέχεια ο ρυθμός των νέων κρουσμάτων επιβραδύνεται για λίγο, και στη συνέχεια επιταχύνεται και πάλι τον Μάρτιο. Πρέπει να εμβαθύνουμε περισσότερο για να δούμε τι συμβαίνει.

Πριν από το ξέσπασμα, τα περιστατικά του COVID-19 επικεντρώθηκαν κυρίως στην Κίνα. Ας σχεδιάσουμε τα κρούσματα του COVID-19 στην Κίνα και στον υπόλοιπο κόσμο ξεχωριστά για να δούμε αν μας δίνει κάποια καλύτερη εικόνα.

Θα κατασκευάσουμε αυτό το γράφημα σε βήματα. Ένα πράγμα που θα είναι σημαντικό για τα παρακάτω βήματα είναι ότι πρέπει να προσθέτετε “aesthetics” στις διάφορες “γεωμετρίες” της ggplot, αντί να έχετε μόνο μια ενιαία παράμετρο “aesthetics” στην εντολή ggplot.

# Να φορτώσετε και να αποθηκεύσετε το σύνολο δεδομένων "confirmed_cases_china_vs_world.csv", που περιέχει πληροφορίες για τα επιβεβαιωμένα κρούσματα στην Κίνα και τον υπόλοιπο κόσμο, με όνομα confirmed_cases_china_vs_world
confirmed_cases_china_vs_world <- ....

# Να τυπώσετε τη δομή των δεδομένων confirmed_cases_china_vs_world
....

# Να κάνετε ένα γράφημα ggplot για το πλαίσιο δεδομένων confirmed_cases_china_vs_world, με όνομα plt_cum_confirmed_cases_china_vs_world.
# Να προσθέσετε ένα επίπεδο γεωμετρίας γραμμής στο οποίο επίπεδο να ορίσετε στα aesthetics την μεταβλητή cases στον άξονα y και την date στον άξονα x.
# Επίσης, στο ίδιο aesthetics να ομαδοποιήσετε (group) και να καθορίσετε το χρώμα (color) ως προς την μεταβλητή is_china.

plt_cum_confirmed_cases_china_vs_world <- ggplot(....) +
  geom_line(aes(...., group=)) +
  ylab("Cumulative confirmed cases")

# Να δείτε το plt_cum_confirmed_cases_china_vs_world
plt_cum_confirmed_cases_china_vs_world

4. Κείμενο σε γράφημα

Όπως παρατηρείτε, οι δύο γραμμές έχουν πολύ διαφορετικά σχήματα. Τον Φεβρουάριο, η πλειοψηφία των κρουσμάτων ήταν στην Κίνα. Αυτό άλλαξε τον Μάρτιο όταν έγινε πραγματικά ένα παγκόσμιο ξέσπασμα: γύρω στις 14 Μαρτίου, ο συνολικός αριθμός περιπτώσεων εκτός της Κίνας ξεπέρασε τις περιπτώσεις στην Κίνα. Αυτό ήταν κάποιες ημέρες μετά την κήρυξη πανδημίας από τον ΠΟΥ.

Υπήρξαν μερικά άλλα σημαντικά γεγονότα που συνέβησαν κατά τη διάρκεια της επιδημίας. Για παράδειγμα, το τεράστιο άλμα στη γραμμή της Κίνας στις 13 Φεβρουαρίου του 2020 δεν ήταν μόνο μια κακή μέρα όσον αφορά το ξέσπασμα, αλλά η Κίνα άλλαξε τον τρόπο με τον οποίο ανέφερε τα στοιχεία εκείνης της ημέρας (οι αξονικές τομογραφίες έγιναν αποδεκτές ως απόδειξη μόλυνσης από τον COVID-19, και δεν βασίζονταν μόνο σε εργαστηριακές εξετάσεις). Προσθέτοντας σχόλια στο γράφημα όπως αυτό, μπορούμε να ερμηνεύσουμε καλύτερα τις αλλαγές.

# Παρακάτω, δίνεται ένα σύνολο δεδομένων των κρουσμάτων του Παγκόσμιου Οργανισμού Υγείας
who_events <- tribble(
  ~ date, ~ event,
  "2020-01-30", "Global health\nemergency declared",
  "2020-03-11", "Pandemic\ndeclared",
  "2020-02-13", "China reporting\nchange"
) %>%
  mutate(date = as.Date(date))

# Στο προηγούμενο γράφημα plt_cum_confirmed_cases_china_vs_world, να προσθέσετε ένα επίπεδο κάθετης γραμμής ορίζοντας στα aesthetics ως xintercept τη μεταβλητή date από το σύνολο δεδομένων who_events και να ορίσετε τον τύπο της γραμμής ως διακεκομμένη (dashed)

# Να παρατηρήσετε πως προσθέσαμε κείμενο στο γράφημα. Χρησιμοποιήσαμε την εντολή geom_text() και ορίσαμε ως aesthetics την μεταβλητή date στον x άξονα με ετικέτα (label) την μεταβλητή event. Επίσης ορίσαμε το ύψος του κειμένου να βρίσκεται στο σημείο 100000 του άξονα y.

plt_cum_confirmed_cases_china_vs_world +
  .... +
geom_text(aes(x=date, label=event), y=100000, data=who_events)

5. Προσθέτοντας γραμμή τάσης (trend line) στην Κίνα

Όταν προσπαθούμε να αξιολογήσουμε πόσο μεγάλα προβλήματα πρόκειται να εμφανιστούν στο μέλλον, χρειαζόμαστε ένα μέτρο για το πόσο γρήγορα αυξάνεται ο αριθμός των κρουσμάτων. Ένα καλό σημείο εκκίνησης είναι να δείτε αν οι περιπτώσεις αυξάνονται γραμμικά ή όχι.

Υπάρχει μια σαφής αύξηση των περιπτώσεων περίπου στις 13 Φεβρουαρίου 2020, με την αλλαγή αναφοράς κρουσμάτων στην Κίνα. Ωστόσο, λίγες ημέρες μετά, η αύξηση των περιπτώσεων στην Κίνα επιβραδύνεται. Πώς μπορούμε να περιγράψουμε την ανάπτυξη του COVID-19 στην Κίνα μετά τις 15 Φεβρουαρίου του 2020;

# Να επιλέξετε ένα υποσύνολο του confirmed_cases_china_vs_world.
# Το υποσύνολο αυτό θα περιέχει δεδομένα από τις "2020-02-15" και μετά και θα αφορούν μόνο την Κίνα
china_after_feb15 <- 

# Χρησιμοποιώντας τα δεδομένα china_after_feb15, να σχεδιάσετε ένα γράφημα γραμμής στο οποίο, στον x άξονα θα ορίσετε την μεταβητή date και στον y την cum_cases.
# Επίσης να προσθέσετε μια ευθεία παλινδρόμησης, χωρίς τα διαστήματα εμπιστοσύνης γύρω από την ευθεία.
.... +
  .... +
  .... +
  ylab("Cumulative confirmed cases")

6. Και ο υπόλοιπος κόσμος;

Από το παραπάνω γράφημα, ο ρυθμός ανάπτυξης στην Κίνα είναι πιο αργός από έναν γραμμικό ρυθμό ανάπτυξης. Αυτές είναι εξαιρετικές ειδήσεις επειδή δείχνουν ότι η Κίνα περιόρισε τον ιό στα τέλη Φεβρουαρίου και στις αρχές Μαρτίου.

Στον υπόλοιπο κόσμο αυξάνονται γραμμικά τα κρούσματα;

# Να επιλέξετε ένα υποσύνολο του confirmed_cases_china_vs_world. Το υποσύνολο αυτό θα περιέχει δεδομένα για όλες τις χώρες εκτός της Κίνας
not_china <- ....

# Χρησιμοποιώντας τα δεδομένα not_china, να σχεδιάσετε ένα γράφημα γραμμής στο οποίο στον x άξονα θα ορίσετε την μεταβητή date και στον y την cum_cases.
# Επίσης να προσθέσετε μια ευθεία παλινδρόμησης, χωρίς τα διαστήματα εμπιστοσύνης γύρω από την ευθεία.

plt_not_china_trend_lin <- ..... +
  .... +
  .... +
  ylab("Cumulative confirmed cases")

# Να τυπώσετε το plt_not_china_trend_lin.
plt_not_china_trend_lin 

7. Προσθήκη λογαριθμικής κλίμακας

Από το παραπάνω γράφημα μπορούμε να δούμε ότι η ευθεία γραμμικής παλινδρόμησης δεν συμβαδίζει καθόλου με τον πραγματικό ρυθμό άυξησης. Τι γίνεται αν προσθέταμε μια λογαριθμική κλίμακα στον άξονα y;

# Στο γράφημα plt_not_china_trend_lin, να χρησιμοποιήσετε μια λογαριθμική κλίμακα για τον άξονα y
plt_not_china_trend_lin + 
  ....

8. Ποιες χώρες εκτός της Κίνας έχουν πληγεί περισσότερο;

Με τη λογαριθμική κλίμακα, λαμβάνουμε πολύ καλύτερη προσαρμογή στα πραγματικά δεδομένα. Στατιστικά, μια καλή εφαρμογή ενός μοντέλου είναι μεγάλη είδηση. Στην πράξη, δυστυχώς, αυτό σημαίνει ότι τα κρούσματα του COVID-19 στον υπόλοιπο κόσμο αυξάνονται με εκθετικό ρυθμό, κάτι που είναι τρομερό.

Ωστόσο, δεν επηρεάζονται όλες οι χώρες από τον COVID-19 εξίσου και θα ήταν χρήσιμο να γνωρίζουμε σε ποιες χώρες τα προβλήματα είναι μεγαλύτερα. Ας βρούμε τις χώρες εκτός της Κίνας με τα περισσότερα επιβεβαιωμένα κρούσματα στο σύνολο δεδομένων μας.

# Να φορτώσετε τα δεδομένα του αρχείου "confirmed_cases_by_country.csv".
confirmed_cases_by_country <- 

# Να τυπώσετε τη δομή του confirmed_cases_by_country.
glimpse(confirmed_cases_by_country)

# Να ομαδοποιήσετε τα δεδομένα confirmed_cases_by_country ανά χώρα, να υπολογίσετε το μέγιστο των total cases και να αποθηκεύσετε τελικά μόνο τις 7 χώρες με τα περισσότερα κρούσματα.
grouped <-  
summarized <-  
top_countries_by_total_cases <-  

# Να τυπώσετε το top_countries_by_total_cases.
top_countries_by_total_cases

9. Σχεδιάζοντας τις χώρες που πλήττονται περισσότερο

Παρόλο που το ξέσπασμα εντοπίστηκε για πρώτη φορά στην Κίνα, στον παραπάνω πίνακα υπάρχει μόνο μία χώρα από την Ανατολική Ασία (Νότια Κορέα). Τέσσερις από τις αναφερόμενες χώρες (Γαλλία, Γερμανία, Ιταλία και Ισπανία) βρίσκονται στην Ευρώπη και γειτονεύουν. Για να αποκτήσουμε καλύτερη εικόνα, μπορούμε να σχεδιάσουμε τα επιβεβαιωμένα κρούσματα αυτών των χωρών με την πάροδο του χρόνου.

Εάν θέλετε να συνεχίσετε να κάνετε απεικονίσεις ή να βρείτε τις χώρες που έχουν πληγεί περισσότερο από σήμερα, μπορείτε να κάνετε τις αναλύσεις σας με τα πιο πρόσφατα διαθέσιμα δεδομένα.

# Να φορτώσετε τα δεδομένα του αρχείου "confirmed_cases_top7_outside_china.csv".
confirmed_cases_top7_outside_china <- ....

# Να τυπώσετε τη δομή του confirmed_cases_top7_outside_china.
....

# Χρησιμοποιώντας το confirmed_cases_top7_outside_china, να κάνετε ένα γράφημα γραμμής, στο οποίο να ορίσετε στα aesthetics την μεταβλητή cum_cases στον άξονα y και την date στον άξονα x.
# Επίσης, στο ίδιο aesthetics να ομαδοποιήσετε (group) και να καθορίσετε το χρώμα (color) ως προς την μεταβλητή country
# Να ονομάσετε τον άξονα y σε "Cumulative confirmed cases"
....

Πηγές:

About

Ασκήση Οπτικοποιήσεων με R και ggplot2 στο μάθημα Ανάλυση Δεδομένων

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published