Generalizing identity-based string similarity metrics: theory and applications
Creato da
Cauteruccio, Francesco
Leone, Nicola
Terracina, Giorgio
Metadata
Mostra tutti i dati dell'itemDescrizione
Formato
/
Dottorato di Ricerca in Matematica ed Informatica. Ciclo XXX SSD; Le stringhe giocano un ruolo fondamentale in informatica: codificando i dati, la loro interpretazione
permette di derivare informazione. Dato un insieme di stringhe, alcune interessanti
domande emergono: “queste stringhe sono correlate?”, e se lo sono, “possiamo misura
la loro correlazione?”. La definizione di un grado di similarit`a tra stringhe risulta essere
fortemente importante. Varie definizioni di similarit`a tra stringhe sono state definite nella
letteratura, derivanti dal concetto di metrica in matematica. Una delle pi`u famose metriche
di similarit`a tra stringhe `e la edit distance, definita come il numero minimo di edit operation
necessarie a trasformare una stringa in un’altra. Tuttavia, le varie definizioni presentano
un’assunzione chiave: simboli uguali tra le stringhe rappresentano la stessa identica informazione,
mentre simboli diversi introducono una qualche di↵erenza. Questa assunzione
risulta essere estremamente riduttiva: esistono casi in cui l’identit`a tra simboli sembra non
essere sufficiente a definire una similarit`a, e nel caso in cui non ci siano simboli in comune
tra due stringhe, si pu`o verificare che simboli diversi rappresentino la stessa informazione.
Inoltre, in alcuni casi una mappatura one-to-one tra i simboli risulta inefficace, quindi si
necessita una mappatura many-to-many. La necessit`a di avere una metrica di similarit`a
tra stringhe che sia in grado di catturare correlazioni nascoste tra le stringhe emerge, ove
il concetto chiave `e rappresentato dal considerare che simboli di↵erenti possono esprimere
concetti simili.
Lo scopo di questa tesi `e di contribuire in questo scenario. In primis, un framework che
generalizza la maggior parte delle metriche di similarit`a tra stringhe (basate sull’identit`a
tra simboli) viene presentato, idoneo a scenari di applicazione in cui sono presenti stringhe
definite su alfabeti eterogenei. La Multi-Parameterized Edit Distance (una generalizzazione
della edit distance con il supporto del framework) viene definita formalmente e studiata dal
punto di vista della complessit`a computazionale.
In seguito, di↵erenti euristiche, definite, implementate e testate, vengono presentate, in
modo da approcciarsi alle difficolt`a computazionali presenti. Varie euristiche sono presentate
e tre di esse sono studiate, discusse e testate in dettaglio.
Alcuni contesti di applicazione, studiati in questa tesi, sono quindi discussi, spaziando
dal settore ingegneristico a quello informatico biomedico: anomaly detection nelle Wireless
Sensors Area Network, analisi dei White Matter Fiber-Bundles e analisi degli Elettroencefalogrammi.
Le conclusioni e una panoramica dei lavori futuri chiudono la tesi.; Università della CalabriaSoggetto
Graph theory
Relazione
INF/01;