Mining and learning problems in complex graph data
Mostra/ Apri
Creato da
Mandaglio, Domenico
Crupi, Felice
Greco, Sergio
Tagarelli, Andrea
Metadata
Mostra tutti i dati dell'itemDescrizione
Formato
/
Dottorato di Ricerca in
Information and Communication Technologies.
CICLO XXXIII; I grafi sono modelli matematici che rappresentano oggetti, chiamati nodi o vertici,
coinvolti in relazioni a coppia, detti archi. Tali modelli vengono impiegati per
descrivere sistemi interconnessi tra cui reti tecnologiche (es. il World Wide Web),
reti sociali e biologiche. A partire dal modello originario dei grafi, diverse estensioni
del modello sono state proposte in letteratura: grafi pesati, multidimensionali, temporali
e probabilistici permettono di esprimere, rispettivamente, l’intensità associata
a ogni arco, rappresentare diverse tipologie di relazioni tra vertici, includere informazioni
su quando le interazioni tra nodi avvengono, e assegnare a ogni possibile
peso sugli archi la probabilità di osservare quello specifico peso. Lo scopo di questa
tesi è definire modelli e metodi per problemi di mining e learning di relazioni forti
e nascoste tra nodi su grafi complessi. In particolare, il focus di questo progetto di
ricerca è la scoperta di relazioni a coppia come associazioni di gruppo e relazioni di
trust. Il primo obiettivo consiste nel partizionare l’insieme dei nodi di un grafo in
gruppi (detti cluster o community) tali che i nodi appartenenti allo stesso gruppo
siano collegati più fortemente tra di loro rispetto che con il resto della rete. Questo
obiettivo è anche noto in letteratura come graph clustering o community detection.
Le community (o cluster) sono gruppi di entità che probabilmente condividono delle
proprietà e/o hanno un ruolo simile all’interno del sistema a cui appartengono. Le
relazioni di trust vengono tipicamente modellate attraverso un grafo pesato, detto
rete di trust, che si riferisce a un grafo di individui collegati da relazioni di coppia
asimmetriche corrispondenti a espressioni soggettive di fiducia, dove il peso associato
a ogni arco viene interpretato come il grado di fiducia che un utente ha nei confronti
di un altro individuo. Ogni modello di rappresentazione a grafo, indipendentemente
dalla sua natura, permette di descrivere in diversi modi l’intrinseca natura multiforme
dei sistemi reali che deve essere tenuta in considerazione quando si intende identificare
relazioni tra i nodi come quelle di gruppo o di trust. Questo implica la necessità di un
processo di aggregazione di informazioni che permette di considerare simultaneamente
i diversi aspetti del sistema rappresentato. Tuttavia, l’aggregazione dei diversi aspetti
di un sistema pone alcune problematiche aggiuntive al task considerato poiché le diverse
dimensioni dei dati potrebbero essere inconsistenti tra di loro o l’informazione
relativa a un qualche aspetto potrebbe rappresentare rumore per il raggiungimento
dell’obiettivo prefissato. L’abbondanza e diversità di dati rappresentabili attraverso
grafi che può essere estratta da sistemi online (es. il Web) o offline (es. interazioni
sociali) favorisce la necessità di nuovi modelli e metodi che siano capaci di tenere in
considerazione efficacemente l’eterogeneità nella tipologia di informazioni nella scoperta
di pattern nel comportamento di entità appartenenti a un sistema complesso.
Più specificatamente, quattro sono i temi di ricerca che possono essere indentificati
in questa tesi. Primo, è stato studiato il problema di consensus community detection
su reti multidimensionali: dato un insieme di partizionamenti dei nodi di una rete,
ciascuno calcolato considerando separatamente una dimensione del grafo multidimensionale,
trovare un nuovo partizionamento dei nodi (detto consensus clustering) che sia
rappresentativo e, allo stesso tempo, filtri l’eventuale rumore dei vari partizionamenti
in input. Come seconda linea di ricerca, è stato trattato il problema di consensus
community detection dinamico su grafi temporali che consiste nel calcolare, per ogni
stato di evoluzione di una rete, un consensus clustering che sia rappresentativo degli
stati precedentemente osservati sulla rete e, quindi, rispecchi la sequenza delle strutture
a community nei vari istanti di tempo. Chiaramente, la natura temporale di
questo secondo problema pone alcune sfide aggiuntive nella sua risoluzione poiché i
vari partizionamenti sono disponibili e devono essere processati in modo incrementale; inoltre, vi è il requisito che bisogna opportunamente pesare le informazioni sugli stati
nella rete in modo da dare maggior rilievo agli stati più recenti piuttosto che quelli più
remoti. Inoltre, la dimensione temporale delle interazioni tra utenti di una rete sociale
può aiutare a inferire una rete di trust. Quest’ultimo obiettivo corrisponde alla terza
linea di ricerca di questa tesi che ha come obiettivo la risoluzione del seguente problema:
data una sequenza di grafi pesati corrispondenti agli stati di una rete in diversi
istanti di tempo, derivare un grafo pesato e orientato, i cui nodi corrispondono alle
entità del grafo temporale e gli archi rappresentano le relazioni di trust con associato
grado di fiducia. Come quarta linea di ricerca è stato studiato un nuovo problema di
clustering su grafi probabilistici in cui le interazioni tra i nodi sono caratterizzate da
distribuzioni di probabilità e condizionate da fattori esterni ai nodi ma caratteristici
dell’ambiente in cui interagiscono. Questo contesto include ogni scenario in cui una
serie di azioni possono alterare le interazioni tra entità tra cui, ad esempio, i sistemi
di raccomandazione su piattaforme di social media e task di team formation. In particolare,
è stato considerato il caso in cui i fattori condizionanti le interazioni possono
essere modellati attraverso un clustering dei nodi del grafo e l’obiettivo è trovare il
clustering che massimizza l’interazione totale nel grafo. Per ciascuna linea di ricerca
sono stati proposti degli algoritmi che sono stati confrontati, su dati reali e/o generati
artificialmente, con lo stato dell’arte dei rispettivi problemi al fine di valutarne sia
l’efficacia che l’efficienza.Soggetto
Graph mining; Complex networks; graph clustering; Community detection; Trust network
Relazione
ING-INF/05;