Olex Effective Rule Learning for Text Categorization
Mostra/ Apri
Creato da
Policicchio, Veronica Lucia
Canino, Annamaria
Rullo, Pasquale
Metadata
Mostra tutti i dati dell'itemDescrizione
Formato
/
Dottorato di Ricerca in Matematica ed Informatica,XX Ciclo,a.a. 2006-2007; Le prime ricerche nell’ambito del Text Categorization, una sotto-area dell’ Information
Retrieval il cui obiettivo `e la classificazione automatica di documenti
rispetto a un insieme di categorie predefinite, risalgono ai primi anni ‘60. Tuttavia
`e nell’ultimo decennio che tale problema ha ricevuto interesse crescente sia nel
settore della ricerca scientifica che in contesti applicativi. Infatti, la disponibilit`a
di grandi quantit`a di dati, resa possibile dallo sviluppo delle moderne tecnologie
informatiche e dei servizi web affermatisi di recente, ha posto il problema
della loro memorizzazione e organizzazione. Nell’ambito della comunit`a scientifica,
l’approccio dominante `e basato sull’applicazione di tecniche di tipo Machine
Learning, il cui obiettivo `e la definizione di sistemi capaci di “apprendere”
automaticamente le caratteristiche di una o pi`u categorie, sulla base di un insieme
di documenti precedentemente classificati (training set). Questo approccio presenta
numerosi vantaggi rispetto a quello di tipo Expert Systems (in cui esperti
di dominio sono impiegati nella definizione manuale dei classificatori per le categorie
di interesse). I sistemi di apprendimento, infatti, mostrano generalmente
un’elevata efficacia, consentono un considerevole risparmio in termini di risorse
umane impiegate nel processo di definizione dei classificatori e garantiscono una
immediata portabilit`a verso nuovi domini.
Negli ultimi anni sono stati proposti numerosi metodi, basati su processi di
tipo induttivo, per l’apprendimento automatico di classificatori. Questi sistemi
sono generalmente basati su tecniche statistiche e spesso sono stati importati
nell’ambito del Text Categorization da altre aree dell’Information Retrieval e del
Data Mining, come nel caso delle Support Vector Machine, dapprima utilizzate
per problemi di regressione e attualmente considerate allo stato dell’arte per il
Text Categorization.
Un posto di rilievo nel paradigma dell’induzione di classificatori `e occupato dagli
algoritmi di apprendimento rule-based. I classificatori, specificati come insiemi
di regole, hanno la propriet`a desiderabile di essere comprensibili da un lettore
umano, al contrario della maggior parte degli altri approcci esistenti, come Support
Vector Machine, Neural Network, che sono di tipo black-box, tali, cio`e, che
un umano non possa interpretare i classificatori prodotti, n´e intervenire nel processo
di apprendimento.
2
Nell’ambito del Text Categorization, il problema dell’induzione di regole pu`o
essere in generale formulato come segue. Dati:
1. Una conoscenza pregressa (background knowledge) B, rappresentata come
un insieme di fatti logici ground del tipo T 2 d che indicano la presenza del
termine t nel documento d (anche altri fatti possono far parte di B);
2. un insieme di esempi positivi, rappresentati come fatti logici ground del tipo
d 2 C , che individuano l’insieme dei documenti manualmente classificati
sotto la categoria c, cio`e la classificazione ideale di c (l’insieme degli esempi
negativi `e definito implicitamente secondo la ClosedWorld Assumption, per
cui se un documento d non `e esplicitamente definito come esempio positivo
per c, allora esso `e un esempio negativo.);
costruire un insieme di ipotesi (il classificatore di c) che, insieme alla background
knowledge, soddisfi tutti gli esempi (positivi e negativi).
Un problema di questo tipo `e computazionalmente complesso, a meno che
non si rilassi il vincolo per il quale l’algoritmo di learning deve rappresentare
con esattezza il concetto target e si consentano, invece, delle approssimazioni. Il
teorema di Valiant della PAC-learnability (Probably Approximately Correct) fornisce
un modello di “learning polinomiale” per un sottoinsieme della logica preposizionale.
Nel framework PAC, la quantit`a di risorse polinomialmente limitate (sia
in termini di numero di esempi che di tempo computazionale) `e controbilanciata
dall’accuratezza delle ipotesi indotte.
Le regole indotte a partire dalla background knowledge e dagli esempi (sia positivi
che negativi) consentiranno predizioni sull’appartenenza di un documento a
una categoria, sulla base della presenza/assenza di un insieme di termini nel dato
documento. Comunque, mentre nella teoria computazionale del learning si assume
che gli esempi di input siano consistenti con qualche ipotesi nello spazio
delle ipotesi, nel Text Categorization ci`o non `e necessariamente vero. Infatti, in
generale, non `e possibile classificare un documento sotto una data categoria solo
sulla base dei termini che appaiono in esso. L’ipotesi indotta, in tal caso, `e una tra
quelle che massimamente soddisfa sia gli esempi positivi che quelli negativi.
In questa tesi presentiamo Olex, una nuova tecnica per l’induzione di regole di
classificazione di testi. Il problema dell’apprendimento di classificatori in Olex `e
definito come un problema di ottimizzazione, in cui la F-misura `e utilizzata come
3
funzione obiettivo. In particolare, obiettivo del task di ottimizzazione `e quello
di determinare un insieme ottimo Xc di termini discriminanti (d-terms) capaci di
caratterizzare i documenti del training set della categoria c.
Un termine discriminante Ts `e una congiunzione di termini “semplici” con un
segno (positivo o negativo). Diciamo che Ts appare nel documento d se tutti i
termini di cui Ts `e composto appaiono in d. Intuitivamente, un termine positivo
che appare in un documento d `e indicativo dell’appartenenza di d alla categoria
c; dualmente, un termine negativo `e indicativo di non appartenenza. Quindi, un
documento che contenga almeno un d-term positivo e non contiene alcun d-term
negativo `e classificabile sotto c, secondo Xc.
Il task di ottimizzazione, quindi, pu`o essere definito informalmente come il
problema di trovare un insieme Xc di termini tali che l’insieme dei documenti del
training set classificabili sotto c, secondo Xc, massimizzi la funzione obiettivo
(intuitivamente, aderisca quanto pi`u possibile al training set della categoria c).
Dato un insieme (ottimo) di termini Xc, l’ipotesi corrispondente (il classificatore
di c) ha la forma seguente:
c à T1 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d
:::::
c à Tn 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d:
e stabilisce la classificazione del documento d sotto la categoria c, se d contiene
almeno uno dei termini positivi T1; ::::; Tk e non contiene alcun termine negativo
Tk+1; :::; Tn. Quindi, la presenza di un d-term positivo richiede la contestuale
assenza di tutti d-term negativi. I classificatori indotti contengono una regola per
ogni d-term positivo e tutte le regole condividono la stessa parte negativa, costituita
da un letterale negativo per ogni termine negativo in Xc.
Notiamo che il linguaggio delle ipotesi di Olex, costituito essenzialmente da clausole
di Horn estese da congiunzioni negative di termini, non `e PAC-learnable.
Siccome l’insieme che massimizza la funzione obiettivo dipende dalla scelta del
vocabolario (cio`e l’insieme dei termini selezionati per l’induzione dei classificatori),
al fine di trovare i classificatori “migliori” l’algoritmo di ottimizzazione
viene ripetuto con diversi vocabolari di input e infine i classificatori con le migliori
prestazioni vengono scelti.
4
Il linguaggio delle ipotesi di Olex `e originale e, come dimostrato dalla sperimentazione,
molto efficace nel produrre classificatori accurati e compatti. Gli
esperimenti effettuati su due corpora di benchmark generalmente usati in letteratura
al fine di confrontare algoritmi di learning, REUTERS-21578 e OHSUMED ,
hanno confermato le aspettative sul nostro modello. Infatti, su entrambi i data set,
Olex ha prestazioni molto elevate, tra le migliori in letteratura; inoltre, a differenza
di altri algoritmi di learning che mancano di interpretabilit`a, Olex ottieneinduce
modelli di classificazione che possono essere facilmente letti, compresi e modificati
da un essere umano.
Le elevate prestazioni ottenute sui data set presi in considerazione mostrano che
il paradigma “un letterale positivo, zero o pi`u letterali negativi” `e molto efficace.
Intuitivamente, possiamo dire che esso consente di catturare gran parte dei documenti
corretti (attraverso il letterale positivo) senza tuttavia commetter troppi
errori (grazie ai letterali negativi).
A differenza di altri sistemi di learning, Olex `e basato su idee molto semplici
e dirette e perci`o fornisce una chiara intuizione del modello alla base del processo
di apprendimento. Inoltre, Olex presenta diverse propriet`a desiderabili per
l’apprendimento di classificatori:
² `e accurato anche per categorie piccole, cio`e con un basso numero di documenti
manualmente associati a esse;
² non richiede tutto l’insieme di termini del training set per l’apprendimento
ma, al contrario, lavora bene anche su piccoli vocabolari;
² `e robusto, in quanto mostra un comportamento simile su tutti i data set
considerati.
Inoltre, grazie al fatto di essere rule-based, Olex consente una semplice integrazione
della conoscenza di dominio, racchiusa in thesauri, nel processo di
apprendimento. L’utilit`a di tale conoscenza nel processo di learning `e stata sperimentata
in Olex su due data set, relativi al settore assicurativo e fornitici da una
societ`a americana, la FCSI (Full Capture Solutions, Inc). Questa prima sperimentazione
ha mostrato che l’utilizzo di conoscenza di dominio d`a solo un piccolo
contributo al miglioramento delle prestazioni dei classificatori prodotti. Tuttavia
questo risultato deve ritenersi parziale; uteriori test saranno effettuati per stabilire
se questo risultato pu`o essere generalizzato oppure l’utilizzo di tesauri pi`u appropriati
possa effettivamente apportare un importante contributo nella classificazione
documentale.
5
Infine, il sistema sviluppato supporta l’integrazione dell’approccio manuale nell’
apprendimento automatico di classificatori. Grazie all’interpretabilit`a dei classificatori
prodotti, infatti, l’ingegnere della conoscenza pu`o partecipare alla costruzione
di un classificatore, specificando un insieme di regole da utilizzare congiuntamente
a quelle apprese automaticamente. Pi`u in dettaglio, al fine di supportare
un approccio ibrido, il sitema Olex `e stato progettato in maniera tale che i classificatori
prodotti automaticamente siano modificabili manualmente. Un’ulteriore
funzionalit`a introdotta al fine di sfruttare la conoscenza di dominio `e quella che
prevede il completamento automatico di un classificatore scritto manualmente.
Questa funzionalit`a consente di:
² scrivere un insieme di regole di classificazione, sulla base delle indicazioni
dell’ esperto del dominio, e verificarne l’accuratezza
² chiedere al sistema di completare automaticamente il classificatore manuale
al fine di migliorarne l’accuratezza.
I risultati sperimentali hanno mostrato che questa cooperazione pu`o avere effettivi
sinergici, consentendo di ottenere prestazioni migliori sia rispetto all’approccio
manuale che a quello automatico.
In sintesi, in questa tesi vengono affrontatele questioni su riportate e in particolare:
² viene definito formalmente il problema del Text Categorization e vengono
rivisitati i principali contesti applicativi nei quali sono sfruttate tecniche di
questo tipo;
² vengono discussi i metodi e i sistemi di classificazione documentale, al fine
di realizzare una valutazione comparativa delle loro peculiarit`a nell’ambito
della tematica di interesse;
² viene presentato il sistema Olex; in particolare, dopo aver definito il problema
di selezione dei termini discriminanti, che rappresenta il cuore del
nostro metodo, viene dimostrato che tale problema `e computazionalmente
difficile e viene poposta un’ euristica per la sua soluzione.
² vengono mostrati i risultati sperimentali ottenuti e viene effettuata una valutazione
comparativa delle prestazioni del nostro sistema rispetto ad altri
sitemi di learning esistenti in letteratura; Università della CalabriaSoggetto
Informatica; Induzione Matematica
Relazione
INF/01;