Please use this identifier to cite or link to this item:
https://hdl.handle.net/10955/1820
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Cauteruccio, Francesco | - |
dc.contributor.author | Leone, Nicola | - |
dc.contributor.author | Terracina, Giorgio | - |
dc.date.accessioned | 2019-12-04T12:20:08Z | - |
dc.date.available | 2019-12-04T12:20:08Z | - |
dc.date.issued | 2018-01-19 | - |
dc.identifier.uri | http://hdl.handle.net/10955/1820 | - |
dc.description | Dottorato di Ricerca in Matematica ed Informatica. Ciclo XXX SSD | en_US |
dc.description.abstract | Le stringhe giocano un ruolo fondamentale in informatica: codificando i dati, la loro interpretazione permette di derivare informazione. Dato un insieme di stringhe, alcune interessanti domande emergono: “queste stringhe sono correlate?”, e se lo sono, “possiamo misura la loro correlazione?”. La definizione di un grado di similarit`a tra stringhe risulta essere fortemente importante. Varie definizioni di similarit`a tra stringhe sono state definite nella letteratura, derivanti dal concetto di metrica in matematica. Una delle pi`u famose metriche di similarit`a tra stringhe `e la edit distance, definita come il numero minimo di edit operation necessarie a trasformare una stringa in un’altra. Tuttavia, le varie definizioni presentano un’assunzione chiave: simboli uguali tra le stringhe rappresentano la stessa identica informazione, mentre simboli diversi introducono una qualche di↵erenza. Questa assunzione risulta essere estremamente riduttiva: esistono casi in cui l’identit`a tra simboli sembra non essere sufficiente a definire una similarit`a, e nel caso in cui non ci siano simboli in comune tra due stringhe, si pu`o verificare che simboli diversi rappresentino la stessa informazione. Inoltre, in alcuni casi una mappatura one-to-one tra i simboli risulta inefficace, quindi si necessita una mappatura many-to-many. La necessit`a di avere una metrica di similarit`a tra stringhe che sia in grado di catturare correlazioni nascoste tra le stringhe emerge, ove il concetto chiave `e rappresentato dal considerare che simboli di↵erenti possono esprimere concetti simili. Lo scopo di questa tesi `e di contribuire in questo scenario. In primis, un framework che generalizza la maggior parte delle metriche di similarit`a tra stringhe (basate sull’identit`a tra simboli) viene presentato, idoneo a scenari di applicazione in cui sono presenti stringhe definite su alfabeti eterogenei. La Multi-Parameterized Edit Distance (una generalizzazione della edit distance con il supporto del framework) viene definita formalmente e studiata dal punto di vista della complessit`a computazionale. In seguito, di↵erenti euristiche, definite, implementate e testate, vengono presentate, in modo da approcciarsi alle difficolt`a computazionali presenti. Varie euristiche sono presentate e tre di esse sono studiate, discusse e testate in dettaglio. Alcuni contesti di applicazione, studiati in questa tesi, sono quindi discussi, spaziando dal settore ingegneristico a quello informatico biomedico: anomaly detection nelle Wireless Sensors Area Network, analisi dei White Matter Fiber-Bundles e analisi degli Elettroencefalogrammi. Le conclusioni e una panoramica dei lavori futuri chiudono la tesi. | en_US |
dc.description.sponsorship | Università della Calabria | en_US |
dc.language.iso | en | en_US |
dc.relation.ispartofseries | INF/01; | - |
dc.subject | Graph theory | en_US |
dc.title | Generalizing identity-based string similarity metrics: theory and applications | en_US |
dc.type | Thesis | en_US |
Appears in Collections: | Dipartimento di Matematica e Informatica - Tesi di Dottorato |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Francesco_Cauteruccio-PhD_Thesis-final-frontespizio_non-firm.pdf | 25,37 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.