GAMON discovering M-of-N hypotheses for text classification by a lattice-based genetic algorithm
Creato da
Pietramala, Adriana
Leone, Nicola
Rullo, Pasquale
Metadata
Show full item recordDescrizione
Format
/
Dottorato di Ricerca in Matematica ed Informatica, XXV Ciclo, a.a. 12013-2014; Lo sviluppo delle moderne tecnologie informatiche, nonch´e la diffusione dei servizi per il Web, ha
portato ad una considerevole produzione di informazioni e dati di diversa natura: documenti testuali
(dati non strutturati), basi di dati (dati strutturati) e pagine Html (dati semi-strutturati). La disponibilit`
a, sempre pi`u crescente, di considerevoli quantit`a di dati ha posto, di conseguenza, il problema
della loro memorizzazione, della loro organizzazione e del loro reperimento. Inoltre, se non ci
fossero strumenti idonei a trattare le sole informazioni di interesse, tutti questi dati rischierebbero
di essere inutilizzabili. Le informazioni, infatti, rappresentano il punto di partenza per l’estrazione
di conoscenza, attivit`a che, in passato, ha fatto riferimento all’analisi e all’interpretazione manuale,
fondata sull’attivit`a di uno o pi`u esperti addetti a prendere le decisioni sul caso corrente. L’analisi
manuale, chiaramente, presenta molteplici aspetti negativi. Prima tra tutti essa `e caratterizzata da
lunghi tempi di analisi e da alti costi di realizzazione; infine, risulta altamente soggettiva e in accurata.
Tali aspetti negativi vengono ulteriormente aggravati dall’enorme mole di dati da dover
trattare. Aggregare, classificare e recuperare le informazioni di interesse con tempestivit`a, efficacia
e a costi ridotti `e sicuramente pi`u vantaggioso rispetto ai tradizionali approcci di analisi manuale.
In particolare, la possibilit`a di poter classificare automaticamente enormi quantit`a di documenti,
potendoli poi ritrovare facilmente sulla base dei concetti espressi e sulle tematiche trattate, piuttosto
che affidarsi ad un’analisi manuale, `e una necessit`a che viene sentita non solo dalla comunit`a
scientifico/accademica, ma anche da quella aziendale, commerciale e finanziaria.
Il Text Classification (TC) o Text Categorization `e una disciplina che coniuga diverse aree
di ricerca, dall’Information Retrieval (IR), al Machine Learning (ML), al Natural Language Processing
(NLP) e mira alla costruzione di sistemi per la classificazione automatica dei dati in categorie
tematiche di interesse. In particolare, nel TC, i dati sono costituiti da una collezione di
documenti testuali non strutturati, i quali vengono suddivisi in gruppi sulla base del contenuto, attraverso
l’assegnamento del testo ad una o pi`u categorie tematiche predefinite. Le prime ricerche
nell’ambito del TC risalgono all’inizio degli anni ‘60. Tuttavia, `e solo nell’ultimo decennio che tale
problema sta suscitando un interesse crescente sia nel settore della ricerca scientifica che in contesti
industriali. Possibili applicazioni del TC spaziano dall’indicizzazione automatica di articoli
scientifici, all’organizzazione delle e-mail, al filtraggio dello spam, ecc.
Negli ultimi decenni, sono stati proposti un gran numero di sistemi per la classificazione di
documenti testuali suddivisibili, principalmente, in tre macro-tipologie sulla base dell’approccio
seguito nella costruzione dei classificatori:
• approccio di tipo Expert Systems (ES); • approccio di tipo Machine Learning (ML);
• approccio di tipo Ibrido. Ibrido.
Il primo approccio, affermatosi all’inizio degli anni ’60 prevede l’impiego di esperti di dominio
(classificazione manuale) nella definizione dei classificatori per le categorie di interesse.
Questo tipo di approccio ha consentito la definizione di classificatori molto efficaci. Di contro,
per`o, l’approccio di tipo ES presenta due svantaggi principali: risulta molto dispendioso in termini
di risorse umane utilizzate e poco flessibile. Infatti, nel momento in cui cambia il contesto di riferimento,
i nuovi classificatori devono essere nuovamente definiti manualmente. Per questo motivo, a
partire dagli anni ’90, l’approccio di tipo ES `e stato quasi completamente sostituito dall’approccio
di tipo ML, il cui obiettivo principale non `e la definizione dei classificatori, quanto la costruzione
di sistemi in grado di generare automaticamente i classificatori. Pi`u in particolare, nell’ambito
di questo paradigma, l’obiettivo `e la definizione di sistemi capaci di apprendere automaticamente
le caratteristiche di una o pi`u categorie, sulla base di un insieme di documenti precedentemente
classificati (training set). Questo approccio presenta numerosi vantaggi rispetto a quello di tipo
Expert Systems. I sistemi di apprendimento, infatti, mostrano generalmente un’elevata efficacia,
consentono un considerevole risparmio in termini di risorse umane impiegate nel processo di definizione
dei classificatori e garantiscono una immediata portabilit`a verso nuovi domini.
Negli ultimi anni sono stati proposti svariati sistemi per la classificazione automatica di documenti
testuali basati, essenzialmente, su processi di tipo induttivo. Tali sistemi sfruttano, generalmente,
misure statistiche e, talvolta, vengono importati nell’ambito del TC da altre aree dell’Information
Retrieval e del Data Mining. Un esempio emblematico `e il caso delle Support Vector Machine
(SVM) utilizzate, dapprima, per la risoluzione di problemi di regressione e, attualmente, considerate
allo stato dell’arte per il Text Categorization.
Un posto di rilievo nel paradigma dell’induzione di classificatori `e occupato dagli algoritmi di
apprendimento ”a regole” o ”rule-based”, dove i classificatori vengono specificati come insiemi
di regole. Tali classificatori hanno la propriet`a desiderabile di essere comprensibili da un lettore
umano, mentre la maggior parte degli altri approcci esistenti, come SVM e Neural Network, producono
classificatori che difficilmente un lettore umano riesce ad interpretare. Classificatori con
queste caratteristiche vengono spesso chiamati di tipo black-box. Infine, l’approccio di tipo Ibrido
combina il metodo Expert System con quello Machine Learning, per ottenere un sistema di categorizzazione
che sfrutta sia i benefici derivanti da una conoscenza di dominio, sia i benefici derivanti
dalla costruzione di sistemi automatici.
Ultimamente, la comunit`a scientifica sta adottando tecniche di TC sempre pi`u innovative che,
generalmente, si discostano di molto dagli approcci classici di tipo deterministico. In effetti, una
recente tendenza nell’ambito del TC `e quella di sfruttare tecniche di apprendimento basate su metaeuristiche,
come gli Algoritmi Evoluzionistici o Genetici. Tecniche di questo tipo sono, general mente, costituite da tre componenti essenziali:
• un insieme di soluzioni candidate, chiamato popolazione, costituito da individui o cromosomi.
Questi evolvono durante un certo numero di iterazioni (generazioni) generando, alla
fine dell’evoluzione, la soluzione migliore;
• una funzione obiettivo, chiamata funzione di fitness, usata per assegnare a ciascun individuo
un peso (score) che indica la bont`a dell’individuo stesso;
• un meccanismo evolutivo, basato su operatori evoluzionistici come crossover, mutazione ed
elitismo, che consentono di modificare il materiale genetico degli individui che costituiscono
la popolazione.
Approcci di questo tipo introducono notevoli vantaggi rispetto alle tecniche classiche. Ad esempio,
il meccanismo evolutivo `e noto per essere un metodo robusto e di successo, infatti, `e utilizzato
per la risoluzione di molti problemi di ottimizzazione intrinsecamente difficili da risolvere.
Inoltre, il meccanismo evolutivo riduce sensibilmente lo spazio di ricerca delle soluzioni ammissibili
e molte tecniche evolutive riescono a risolvere problemi complessi senza conoscere il preciso
metodo di soluzione.
In questo lavoro di tesi proponiamo un modello di classificazione a regole, denominato GAMoN,
basato sull’utilizzo di Algoritmi Genetici per l’induzione delle regole di classificazione. Un
classificatore H generato dal sistema GAMoN per una data categoria c assume la forma di una
disgiunzione di atomi Hic
del tipo:Hc = H1
c
∨ · · · ∨ Hr
c
dove ciascun atomo Hic
`e una quadrupla < Pos,Neg,mi, ni >, dove:
• Pos = {t1, .., tn} `e l’insieme dei termini positivi, ovvero l’insieme dei termini che sono
rappresentativi per la categoria c di riferimento;
• Neg = {tn+1, , tn+m} `e l’insieme dei termini negativi, ovvero l’insieme dei termini che sono
indicativi della non appartenenza alla categoria;
• mi e ni sono numeri naturali, chiamati soglie, tali che mi >= 0 e ni > 0.
Intuitivamente, il significato attribuito a ciascun atomo Hic
`e il seguente: “classifica il generico
documento d sotto la categoria c se almeno mi termini positivi compaiono in d e meno di
ni termini negativi compaiono in d”. Infatti, il linguaggio delle ipotesi introdotto da GAMoN `e
chiamato MofN+, una estensione dei classificatori di tipo MofN con la componente dei termini
negativi. Da qui nasce l’acronimo “GAMoN”, che sta ad indicare un sistema di classificazione testuale
basato su “Algoritmi Genetici” di tipo “M of N”. GAMoN `e un sistema di classificazione che nasce come estensione di “Olex-GA”, un modello di classificazione “a regole” basato sul paradigma
evoluzionistico e realizzato in precedenti lavori di ricerca. Un classificatore generato da GAMoN
coincide con quello di Olex-GA quando mi=1 e ni = 1. Infatti, un classificatore Olex-GA assume
il significato “se almeno uno dei termini positivi t1, ..., tn appare nel documento d e nessuno dei
termini negativi tn+1, , tn+m appare in d, allora classifica d sotto la categoria c”.
Il sistema GAMoN `e stato testato su 13 corpora di benchmark (Reuters-21578, Ohsumed, OH5,
OH0, OH10, OH15, Blogs Gender, Ohscale, 20 Newsgroups, Cade, SRAA, ODP e Market) e messo
a confronto con altri 5 sistemi di classificazione: BioHEL [18, 48] e Olex-GA [101], che sono sistemi
di classificazione a-regole basati sul paradigma evoluzionistico; Ripper [37] e C4.5 [105],
che sono sistemi di classificazione a-regole non evoluzionistici; infine, SMO che `e una implementazione
di SVM lineare [76]. Gli studi sperimentali mettono in evidenza come GAMoN induca
classificatori che sono, al tempo stesso, accurati e compatti. Tale propriet`a `e stata osservata su tutti
i corpora utilizzati nella sperimentazione, dove GAMoN ha mostrato sempre un comportamento
uniforme. Poich´e i corpora utilizzati si riferiscono a contesti applicativi notevolmente diversi, possiamo
affermare che GAMoN ha dato prova di essere un sistema robusto. Complessivamente,
GAMoN ha dimostrato un buon bilanciamento tra accuratezza e complessit`a del modello generato;
inoltre, `e risultato molto efficiente per la classificazione di corpora di grandi dimensioni.
Il seguito della tesi `e organizzato in tre parti principali di seguito elencate:
• nella Parte I verr`a definito formalmente il problema del Text Categorization e verranno rivisitati
i principali contesti applicativi nei quali sono sfruttate tecniche di questo tipo;
• nella Parte II verranno presentati diversi metodi e sistemi di classificazione documentale, al
fine di realizzare una valutazione comparativa delle loro peculiarit`a nell’ambito della tematica
di interesse;
• nella Parte III verr`a presentato dettagliatamente il sistema GAMoN. In particolare, verranno
riportate alcune definizioni formali quali, ad esempio, il linguaggio e lo spazio delle ipotesi,
gli operatori di crossover utilizzati dal sistema e verranno descritti e mostrati i risultati sperimentali
ottenuti, attraverso un’analisi comparativa con i sistemi di learning s`u citati; Università della CalabriaSoggetto
Informatica; Algoritmi genetici
Relazione
INF/01;