Data Visualization con R e Rmarkdown degli OpenData del MIUR sulle universita Italiane

Open Data Miur Visualization

Un esempio di data Viz, Unsupervised Learning e Interactive Data Presentation.

Introduzione

Questo progetto permette di analizzare e visualizzare i dati relativi alle università italiane (Open Data MIUR).

Il progetto usa R ed è riproducibile facilmente, essendo i dati e tutte le risorse disponibili online.

Pachetti R Richiesti

Per l’esecuzione sono richiesti i seguenti pacchetti R:

  • tidyverse
  • factoextra
  • NbClust
  • RColorBrewer
  • ggplot2
  • plotly
  • fpc
  • dbscan
  • caret

Informazioni sui dati usati

I dati iniziali disponibili sul sito del MIUR riguardano il numero di iscritti divisi per genere, anno e ateneo Italiano per il periodo 2010-2020.

Analisi Preliminare

Dopo il calcolo della media degli iscritti per ogni ateneo viene calcolato il numero K ottimo di cluster da usare nell’analisi KMeans. L’analisi K means permetterà di ottenere una divisione dimensionale degli atenei.

Dall’analisi di Elbow, il numero K ottimo è 4. Di seguito viene riportato il grafico dell’analisi.

Data Visualization

Al termine delle analisi di kmeans, il risultato è la dashboard seguente, che permette di visualizzare i vari cluster e le informazioni di ogni ateneo coinvolto nell'analisi.

DB Scan Cluster

Al termine delle analisi di kmeans si è proceduto ad effettuare una clusterizzazione usando l'algoritmo DBScan.

Il DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un metodo di clustering proposto nel 1996 da Martin Ester, Hans-Peter Kriegel, Jörg Sander and Xiaowei Xu. È basato sulla densità perché connette regioni di punti con densità sufficientemente alta. DBSCAN è l'algoritmo più comunemente usato ed è anche il più citato nella letteratura scientifica.

DBSCAN necessita di due parametri: eps e del numero minimo di punti richiesti per formare un cluster (minPts). Si comincia con un punto casuale che non è stato ancora visitato. Viene calcolato il suo eps e se contiene un numero sufficiente di punti viene creato un nuovo cluster. Se ciò non avviene il punto viene etichettato come rumore e successivamente potrebbe essere ritrovato in un eps sufficientemente grande riconducibile ad un punto differente entrando a far parte di un cluster.

Se un punto è associato ad un cluster anche i punti del suo eps sono parte del cluster. Conseguentemente tutti i punti trovati all'interno del suo eps sono aggiunti al cluster, così come i loro eps. Questo processo continua fino a quando il cluster viene completato. Il processo continua fino a quando non sono stati visitati tutti i punti.

L'analisi è stata eseguita a seguito di una preliminare analisi KNN per determinare eps. I valori usati per l'analisi sono eps=1500 e MinPts=4

Di seguito viene riportato l’andamento del personale accademico totale operante nel settore “Ingegneria industriale e dell’informazione” nelle universita’ italiane per genere, anno e ruolo.