Please use this identifier to cite or link to this item: https://hdl.handle.net/10955/1820
Title: Generalizing identity-based string similarity metrics: theory and applications
Authors: Cauteruccio, Francesco
Leone, Nicola
Terracina, Giorgio
Keywords: Graph theory
Issue Date: 19-Jan-2018
Series/Report no.: INF/01;
Abstract: Le stringhe giocano un ruolo fondamentale in informatica: codificando i dati, la loro interpretazione permette di derivare informazione. Dato un insieme di stringhe, alcune interessanti domande emergono: “queste stringhe sono correlate?”, e se lo sono, “possiamo misura la loro correlazione?”. La definizione di un grado di similarit`a tra stringhe risulta essere fortemente importante. Varie definizioni di similarit`a tra stringhe sono state definite nella letteratura, derivanti dal concetto di metrica in matematica. Una delle pi`u famose metriche di similarit`a tra stringhe `e la edit distance, definita come il numero minimo di edit operation necessarie a trasformare una stringa in un’altra. Tuttavia, le varie definizioni presentano un’assunzione chiave: simboli uguali tra le stringhe rappresentano la stessa identica informazione, mentre simboli diversi introducono una qualche di↵erenza. Questa assunzione risulta essere estremamente riduttiva: esistono casi in cui l’identit`a tra simboli sembra non essere sufficiente a definire una similarit`a, e nel caso in cui non ci siano simboli in comune tra due stringhe, si pu`o verificare che simboli diversi rappresentino la stessa informazione. Inoltre, in alcuni casi una mappatura one-to-one tra i simboli risulta inefficace, quindi si necessita una mappatura many-to-many. La necessit`a di avere una metrica di similarit`a tra stringhe che sia in grado di catturare correlazioni nascoste tra le stringhe emerge, ove il concetto chiave `e rappresentato dal considerare che simboli di↵erenti possono esprimere concetti simili. Lo scopo di questa tesi `e di contribuire in questo scenario. In primis, un framework che generalizza la maggior parte delle metriche di similarit`a tra stringhe (basate sull’identit`a tra simboli) viene presentato, idoneo a scenari di applicazione in cui sono presenti stringhe definite su alfabeti eterogenei. La Multi-Parameterized Edit Distance (una generalizzazione della edit distance con il supporto del framework) viene definita formalmente e studiata dal punto di vista della complessit`a computazionale. In seguito, di↵erenti euristiche, definite, implementate e testate, vengono presentate, in modo da approcciarsi alle difficolt`a computazionali presenti. Varie euristiche sono presentate e tre di esse sono studiate, discusse e testate in dettaglio. Alcuni contesti di applicazione, studiati in questa tesi, sono quindi discussi, spaziando dal settore ingegneristico a quello informatico biomedico: anomaly detection nelle Wireless Sensors Area Network, analisi dei White Matter Fiber-Bundles e analisi degli Elettroencefalogrammi. Le conclusioni e una panoramica dei lavori futuri chiudono la tesi.
Description: Dottorato di Ricerca in Matematica ed Informatica. Ciclo XXX SSD
URI: http://hdl.handle.net/10955/1820
Appears in Collections:Dipartimento di Matematica e Informatica - Tesi di Dottorato

Files in This Item:
File Description SizeFormat 
Francesco_Cauteruccio-PhD_Thesis-final-frontespizio_non-firm.pdf25,37 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.