Mostra i principali dati dell'item

Generalizing identity-based string similarity metrics: theory and applications

dc.contributor.authorCauteruccio, Francesco
dc.contributor.authorLeone, Nicola
dc.contributor.authorTerracina, Giorgio
dc.date.accessioned2019-12-04T12:20:08Z
dc.date.available2019-12-04T12:20:08Z
dc.date.issued2018-01-19
dc.identifier.urihttp://hdl.handle.net/10955/1820
dc.descriptionDottorato di Ricerca in Matematica ed Informatica. Ciclo XXX SSDen_US
dc.description.abstractLe stringhe giocano un ruolo fondamentale in informatica: codificando i dati, la loro interpretazione permette di derivare informazione. Dato un insieme di stringhe, alcune interessanti domande emergono: “queste stringhe sono correlate?”, e se lo sono, “possiamo misura la loro correlazione?”. La definizione di un grado di similarit`a tra stringhe risulta essere fortemente importante. Varie definizioni di similarit`a tra stringhe sono state definite nella letteratura, derivanti dal concetto di metrica in matematica. Una delle pi`u famose metriche di similarit`a tra stringhe `e la edit distance, definita come il numero minimo di edit operation necessarie a trasformare una stringa in un’altra. Tuttavia, le varie definizioni presentano un’assunzione chiave: simboli uguali tra le stringhe rappresentano la stessa identica informazione, mentre simboli diversi introducono una qualche di↵erenza. Questa assunzione risulta essere estremamente riduttiva: esistono casi in cui l’identit`a tra simboli sembra non essere sufficiente a definire una similarit`a, e nel caso in cui non ci siano simboli in comune tra due stringhe, si pu`o verificare che simboli diversi rappresentino la stessa informazione. Inoltre, in alcuni casi una mappatura one-to-one tra i simboli risulta inefficace, quindi si necessita una mappatura many-to-many. La necessit`a di avere una metrica di similarit`a tra stringhe che sia in grado di catturare correlazioni nascoste tra le stringhe emerge, ove il concetto chiave `e rappresentato dal considerare che simboli di↵erenti possono esprimere concetti simili. Lo scopo di questa tesi `e di contribuire in questo scenario. In primis, un framework che generalizza la maggior parte delle metriche di similarit`a tra stringhe (basate sull’identit`a tra simboli) viene presentato, idoneo a scenari di applicazione in cui sono presenti stringhe definite su alfabeti eterogenei. La Multi-Parameterized Edit Distance (una generalizzazione della edit distance con il supporto del framework) viene definita formalmente e studiata dal punto di vista della complessit`a computazionale. In seguito, di↵erenti euristiche, definite, implementate e testate, vengono presentate, in modo da approcciarsi alle difficolt`a computazionali presenti. Varie euristiche sono presentate e tre di esse sono studiate, discusse e testate in dettaglio. Alcuni contesti di applicazione, studiati in questa tesi, sono quindi discussi, spaziando dal settore ingegneristico a quello informatico biomedico: anomaly detection nelle Wireless Sensors Area Network, analisi dei White Matter Fiber-Bundles e analisi degli Elettroencefalogrammi. Le conclusioni e una panoramica dei lavori futuri chiudono la tesi.en_US
dc.description.sponsorshipUniversità della Calabriaen_US
dc.language.isoenen_US
dc.relation.ispartofseriesINF/01;
dc.subjectGraph theoryen_US
dc.titleGeneralizing identity-based string similarity metrics: theory and applicationsen_US
dc.typeThesisen_US


Files in questo item

Questo item appare nelle seguenti collezioni

Mostra i principali dati dell'item