WP3 - Definizione di tecniche di Machine Learning e Data Analytics per l'analisi dei profili di rischio delle entità coinvolte nell'infrastruttura SPID e degli usi impropri dell'infrastruttura stessa
Obiettivi

L'obiettivo principale di questo work package è lo svolgimento di attività di ricerca nel campo del Data Analytics allo scopo di limitare i rischi connessi all’utilizzo in maniera impropria della piattaforma SPID.

Un primo obiettivo consiste nell’integrare, aggregare e combinare in maniera opportuna le informazioni riguardanti le entità della piattaforma SPID, sulla base anche dei risultati del WP precedente. Si dovrà costituire un dataset che rappresenti al meglio le analisi prodotte e che aiuti ad evidenziare comportamenti non riconoscibili in precedenza ed eventualmente arricchirlo con open data istituzionali oppure dati raccolti dal web (social data, blog di settore, Google Analytics, ecc.).

Un obiettivo successivo sarà l’individuazione ed eventuale definizione di tecniche di Data Analytics per individuare i profili di rischio principalmente dei fruitori della piattaforma SPID, ma anche delle altre entità coinvolte nella piattaforma, in modo da poter suddividere gli utenti in vari profili a seconda delle loro caratteristiche e dei loro comportamenti.

L’obiettivo finale di tale WP sarà quello di riuscire ad individuare delle metodologie e degli algoritmi che riescano ad individuare delle anomalie all’interno dei profili di rischio o comunque nel comportamento delle entità che prendono parte alla piattaforma SPID.

Output

Il risultato atteso alla conclusione del WP3 è costituito da un insieme di soluzioni ed algoritmi per la profilazione e il monitoraggio dell’entità del processo SPID e per la rilevazione di anomalie rispetto ai profili comportamentali.

Per quanto riguarda la profilazione utente, in molti casi i dati relativi presentano gruppi di caratteristiche mancanti, a volte le informazioni sono scarse e molte volte sono fornite in maniera incrementale. La maggior parte degli algoritmi disponibili in letteratura non lavorano bene quando gruppi di attributi sono mancanti, e quando i diversi profili sono sbilanciati. Perciò, l’attività di ricerca deve ovviare a tali mancanze individuando o sviluppando algoritmi che siano efficienti anche sotto queste condizioni.

Per quanto concerne la rilevazione di anomalie comportamentali, l’esigenza è quella di un algoritmo che riesca, per ogni profilatura emersa in precedenza, a riconoscere le anomalie che verranno a verificarsi nel primo momento utile. Per cui le caratteristiche che verranno richieste per l’algoritmo oggetto dell’attività di ricerca sono ovviamente robustezza ai problemi di caratteristiche mancanti e alla scarsità delle informazioni necessarie, l’impiego del minor grado di conoscenza preliminare sui dati così da poter essere applicato anche al variare dei profili, la minimizzazione del tempo di apprendimento e la possibilità un apprendimento online.

L'output finale del workpackage 3 sarà costituito, inoltre, dai seguenti deliverable:

Deliverable D3.1 sull’integrazione e arricchimento delle informazioni.
Deliverable D3.2 sulla descrizione della metodologia per la profilazione.
Deliverable D3.3 sul rilevamento di anomalie nell’utilizzo del sistema SPID.

Metodologie utilizzate

La prima parte del lavoro, prevede l’utilizzo di una metodologia che, a partire dallo studio delle dinamiche di business e dell’analisi del funzionamento della piattaforma SPID, effettui un’analisi statistica di base dei dati disponibili. Quindi sarà studiato come aggregare e combinare in maniera opportuna le informazioni, al fine di massimizzare il contenuto informativo allo scopo degli obbiettivi del WP. In particolare, si definiranno le caratteristiche di un dataset che rappresenti al meglio le analisi prodotte e che aiuti ad evidenziare comportamenti non riconoscibili in precedenza. In questa attività si verificherà la possibilità di arricchire la base dati con dati esogeni provenienti da fonti certificate (opendata istituzionali), oppure dati raccolti dal web (social data, blog di settore o Google Analytics).

Nell’attività di ricerca, una parte importante sarà dedicata allo studio delle tecniche esistenti in letteratura per l’individuazione e la classificazione dei profili di rischio e delle anomalie. Saranno analizzate le carenze delle soluzioni esistenti e le caratteristiche da integrare per realizzare una soluzione che funzioni bene per il particolare ambito applicativo. Quindi, come metodologia sarà valutato, se integrare differenti soluzioni presenti in letteratura in maniera innovativa, oppure realizzare una metodologia nuova ad hoc.