![]() |
|||||
|
L’analisi
testuale
nello studio di caso |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
di Francesca della Ratta
- Rinaldi (della stessa autrice, si può scaricare in formato .zip (peso 160 K) un’analisi delle parole usate in "Madame Bovary" di Flaubert ) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Ho chiesto a Lotaria se ha già letto alcuni miei libri che le avevo prestato. Mi ha detto di no, perché qui non ha a disposizione un elaboratore elettronico. M’ha spiegato che un elaboratore debitamente programmato può leggere un romanzo in pochi minuti e registrare la lista di tutti i vocaboli contenuti nel testo, in ordine di frequenza. “Cos’è infatti la lettura d’un testo se non la registrazione di certe ricorrenze tematiche, di certe insistenze di forme e di significati?” (…) L’idea che Lotaria legga i miei libri a questo modo mi crea dei problemi. Adesso ogni parola che scrivo la vedo già centrifugata dal cervello elettronico, disposta nella graduatoria delle frequenze, vicino ad altre parole che non so quali possano essere…Italo Calvino, Se una notte d’inverno un viaggiatore. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1 L’analisi testuale: uno strumento per la ricerca qualitativaGli approcci di ricerca qualitativi [O metodiche, dietro cui non ci sono differenze di metodo, ma appunto di approcci e strumenti, legati non alle disposizioni dei ricercatori ma alla natura e complessità del problema da indagare. Cfr Campelli (1991).] si caratterizzano per il ricorso a strumenti di raccolta dei dati a scarso livello di standardizzazione, con i quali è facile accumulare rapidamente una gran mole di materiale testuale (interviste, documenti, verbali di osservazione). Materiali testuali e documentari costituiscono una fonte di informazione sicuramente preziosa, rispetto alla quale è però necessaria una riflessione sulle tecniche di analisi da impiegare, per non incorrere in interpretazioni suggestive, ma formulate attraverso procedure di analisi difficilmente codificabili e ripetibili. Utilizzando questo tipo di materiale, il problema principale è quello di assicurare la profondità e la rilevanza delle interpretazioni, insieme alla costruzione di un percorso di analisi che garantisca la “trasparenza” e la riproducibilità delle procedure seguite. L’analisi testuale che si avvale delle tecniche statistiche assicura entrambi gli obiettivi: da un lato si può esplorare sistematicamente la struttura del testo (dimensioni, occorrenze, strutture grammaticali prevalenti), dall’altro la possibilità di ritornare in ogni momento al testo originario consente di arricchire le interpretazioni proposte, documentando l’intero percorso di analisi. Grazie a programmi informatici che consentono l’indicizzazione (o numerizzazione) rapida dei corpora testuali, è possibile analizzare in modo sistematico e talvolta semi-automatico corpora testuali di dimensioni consistenti e difficilmente esplorabili in altro modo, attraverso l’attuazione di tutti i confronti possibili e l’individuazione delle “dimensioni fondamentali di senso presenti in un testo oggetto di studio” (Bolasco, 1998, p. 3). Il ricorso alle tecniche di analisi testuale può essere poi considerato come una delle strategie ponte per eccellenza tra metodiche qualitative e quantitative; queste infatti evidenziano la possibilità di annullare, o quanto meno attenuare, la pretesa inconciliabilità di fondo tra ricerca “qualitativa” e ricerca “quantitativa”, coniugando la ricchezza interpretativa con la necessità di produrre lavori empirici pubblicamente controllabili. 2 Affermazione della statistica testualeGli studi quantitativi sulla lingua non hanno certo un’origine recente, e secondo Klaus Krippendorff (1980) lo studio più antico di cui si ha notizia risale al diciottesimo secolo, ed è relativo all’analisi di una raccolta di novanta inni intitolata Canti di Sion, compiuta in Svezia da un autore sconosciuto. All’inizio del ’900 si sono diffusi i primi studi di analisi del contenuto quantitativa applicata alla stampa (Losito, 1993), anche se Krippendorff fa risalire alla seconda metà del ’900 la prima applicazione di analisi del contenuto informatizzata (che l’autore definisce di statistica computerizzata), indicando in T.A. Sebeok e V.J. Zepfs [Il contributo citato da Krippendorff è quello di Sebeok e Zepfs (1958).] i pionieri di uno studio su 400 racconti popolari attraverso procedure di information retrieval (1980, pp. 34 e 174). In seguito, è alla scuola francese de l’analyse des donneés che va il merito di aver determinato un notevole salto di qualità nell’analisi dei dati testuali e di aver prodotto le principali proposte metodologiche e informatiche. Come precisa lo stesso Jean Paul Benzécri in Histoire et Préhistoire de l’Analyse des Données, l’analisi delle corrispondenze messa a punto dalla scuola francese “è stata inizialmente proposta come un metodo induttivo d’analisi di dati linguistici” (1982, p. 102). Risalgono ai primi anni ’80 le iniziali proposte metodologiche di Ludovic Lebart (1981 e 1982), che nel 1984 ha presentato un pacchetto software specifico per applicare l’analisi delle corrispondenze su dati testuali (Amaturo, 1989, p. 55). Rispetto all’analisi del contenuto tradizionale [Soprattutto rispetto all’analisi del contenuto “come inchiesta”, che assegna un ruolo preminente alla dimensione interpretativa già dal momento della costruzione della griglia di analisi (Rositi, 1988; Losito, 1993).], le strategie di analisi della scuola francese si differenziano per un approccio marcatamente induttivo e descrittivo, basato sulla disponibilità di “un sistema ampio di informazioni elementari, capace di cogliere il fenomeno nella sua complessità” (Bolasco, 1999, p. 21). Sono gli stessi Ludovic Lebart e André Salem a sottolineare questa differenza tra i due approcci: “l’analisi del contenuto si propone, senza attardarsi sul materiale testuale propriamente detto, di accedere direttamente ai significati dei differenti segmenti che compongono il testo. (…) Pertanto, la sua riuscita presuppone che il sistema di categorie definite a priori sia allo stesso tempo coerente e pertinente, cosa che è difficile assicurare nella pratica” (1994, p. 14). Secondo Lebart e Salem (1994), inoltre, il recente sviluppo delle tecniche statistiche, che consentono il trattamento delle variabili “qualitative” secondo una logica di confronto e non di misura [“Pour un statisticien, le texte doit etre appréhendé dans le domaine du discret, du qualitatif, du comptage et non de la mesure” (Lebart e Salem, 1994, p. 18).], ha determinato, insieme alle enormi possibilità offerte dall’informatica e dallo sviluppo di software sempre più specializzati, il potenziamento delle tecniche della statistica testuale, e soprattutto la loro applicazione a testi anche più brevi, diffondendone l’uso in contesti disciplinari molto differenziati rispetto alle origini [Una panoramica sui lavori che possono essere condotti su materiali testuali è offerta dalle Giornate Internazionali di Statistica Testuale (JADT), che dal 1990 costituiscono un’occasione di incontro e diffusione delle ricerche e delle proposte metodologiche della comunità di studiosi che utilizzano queste tecniche. Informazioni utili sull’ultima edizione delle giornate, che si è conclusa nel marzo 2004, si possono rinvenire al sito http://www.irisa.fr]. Tuttavia, sono proprio i progressi registrati nel campo delle tecniche di analisi e delle applicazioni software a suggerire di curare sempre più la rilevanza dei testi da sottoporre ad analisi, utilizzandone i risultati all’interno di specifici piani di ricerca che prevedano anche (e non solo) il ricorso all’analisi dei testi, in un’ottica di pluralità delle fonti che privilegi la triangolazione tra approcci e tecniche di ricerca. 3 Strategie di analisiPer riflettere sulle possibili strategie di analisi offerte da queste tecniche è bene precisare in primo luogo che le procedure della statistica testuale non si limitano semplicemente a “contare le parole”, anche se per corpus [Per corpus (o testo) si intende l’insieme dei testi oggetto di analisi, per testi i singoli spezzoni di testo che concorrono alla definizione del corpus. Ad esempio singoli resoconti di focus group o i singoli POF possono essere] di vaste dimensioni la semplice presentazione delle parole più ricorrenti è spesso di per sé altamente rilevante. Le strategie di analisi vanno dalla possibilità di “navigare” nel testo per approfondirne i contenuti, a quella di proiettare le parole sul piano fattoriale, arrivando infine alla determinazione di profili lessicali specifici, grazie al confronto tra alcune parti e la totalità del corpus. Inoltre, nel caso delle domande aperte in questionari strutturati è possibile far partecipare le variabili categoriali all’analisi, in modo da mettere in relazione le parole, e i significati a cui queste rinviano, a determinate caratteristiche degli autori dei soggetti intervistati. Una volta definita la tipologia di testi da analizzare (documenti scritti, resoconti di interviste, forum telematici), è necessario curarne l’organizzazione interna e la trascrizione, prestando attenzione ad alcuni requisiti, determinanti per la significatività dei risultati. Un requisito fondamentale è che i testi di cui si compone ogni corpus siano comparabili tra loro, per struttura, dimensioni, autore o destinatari. Nel caso in cui si disponga di più fonti di materiale testuale, la prima decisione è quindi relativa al numero e alla tipologia di corpora da sottoporre ad analisi. Inoltre, proprio perché l’insieme delle parole che compongono il corpus diviene oggetto d’analisi, è necessario che la sua trascrizione riproduca nel modo più fedele possibile il testo originario: pertanto nel caso di interviste è sempre consigliabile ricorrere alla registrazione. All’interno di un singolo corpus, poi, è utile rintracciare sotto-testi che possano essere riferiti a caratteristiche del testo o dei parlanti che lo hanno prodotto: in questo modo, associando a tutti i testi del corpus variabili sugli autori e/o sui frammenti è possibile ottenere una preziosa interazione tra variabili categoriali (o qualitative) e le parole presenti nel testo. Nel caso dell’analisi dei POF [Piani dell’Offerta Formativa.] - realizzata nell’ambito del progetto Quasi e presentata di seguito - si è rivelata fruttuosa la scelta di individuare per tutti i testi alcune sezioni di contenuto omogeneo in modo da consentire la descrizione della struttura tematica dei testi analizzati. Infine, generalmente è necessario disporre di testi sufficientemente lunghi: secondo Sergio Bolasco un corpus è piccolo quando non supera le 15.000 occorrenze [Il totale delle occorrenze corrisponde al totale delle forme presenti nel corpus, consentendo appunto una valutazione della dimensione dello stesso. Le forme grafiche sono l’unità d’analisi elementare: essere corrispondono all’insieme di caratteri compresi tra due spazi; generalmente coincidono con le parole che compongono il corpus, ma possono anche rappresentare ad esempio, l’unificazione di un insieme di forme dotato di significato specifico (es. studio_di_caso).]; medio quando raggiunge le 45.000 occorrenze e medio-grande quando supera le 100.000. La questione delle dimensioni è ritenuta cruciale dagli studiosi di statistica testuale, poiché “lo studio assume interesse quanto più ampia è l’estensione del corpus testuale, e, di conseguenza, quanto più risulta utile una sua analisi in modalità automatica” (Bolasco, 1999, p. 179). La definizione dei requisiti fondamentali di un corpus da sottoporre a questo tipo di analisi comporta minori difficoltà che non la descrizione delle possibili strategie di analisi. Infatti, per via della natura multi-tematica e multi-dimensionale di un testo le sue chiavi di lettura risultano molteplici, e non è semplice proporre un percorso standard utile per la descrizione del suo contenuto e della sua struttura argomentativa. Vi sono almeno tre dimensioni sulla cui base analizzare un corpus, che prendono in considerazione l’insieme dei riferimenti tematici, semantici e sintattici, che vi sono presenti. Si tratta di dimensioni non esaustive, trasversali e complementari tra loro, che possono essere individuate in successione, e che non necessariamente possono/devono essere analizzate congiuntamente. Ognuna di queste dimensioni può essere individuata in una particolare fase dell’analisi e con un differente grado di automazione del trattamento: i temi si possono rintracciare nella prima fase di analisi esplorativa, le strutture semantiche nella fase di analisi multidimensionale e le strutture morfo-sintattiche nel corso dell’analisi lessicale. 3.1 La dimensione tematica Riconoscere i riferimenti attorno a cui il testo è articolato consente di fornire indicazioni preliminari sul suo contenuto: l’analisi della dimensione tematica costituisce sicuramente il punto di partenza principale di qualsiasi analisi testuale. Se si segue l’impostazione lessicometrica (che parte dall’analisi delle parole e delle loro relazioni all’interno del testo) il punto di partenza è l’analisi del vocabolario, finalizzata all’individuazione di un nucleo di parole chiave capaci di sintetizzare il contenuto del corpus. Uno dei possibili schemi procedurali per questo livello d’analisi è riportato nella tabella che segue: Tab. 1 –Tappe procedurali per la descrizione del contenuto di un corpus
Una volta acquisito e normalizzato il testo, per descriverne il contenuto è molto utile individuare le parole tema, cioè quelle parole piene di significato che compaiono con frequenza molto alta nel testo e che ne costituiscono l’ossatura principale. Tuttavia, le parole tema non sono sufficienti a esplicitare il contenuto del testo. E’ allora possibile, disponendo di specifici lessici di riferimento, individuare le parole chiave di un testo, vale a dire quelle che, a prescindere dalla frequenza, risultano sovra-rappresentate rispetto a quanto non lo sono in un modello assunto come riferimento medio di una determinata comunità linguistica [Per questo confronto è possibile utilizzare il programma Taltac, messo a punto da Bolasco, Baiocchi e Morrone, che consente appunto di confrontare il testo in analisi con alcuni lessici di frequenza. Da tale confronto è possibile ottenere una misura di specificità: tanto più lo scarto avrà un valore elevato tanto più la forma potrà essere considerata caratterizzante il testo in questione (Cfr. Bolasco, 1999, pag. 223).]. Una volta selezionata la lista di parole sovra-rappresentate è possibile proporre una classificazione che ne semplifichi la lettura, distinguendo ad esempio tra soggetti, oggetti e attributi del discorso e le azioni (fattive, stative o dichiarative) che vi sono menzionate. Un’ulteriore contributo alla descrizione dei contenuti del testo è la selezione dei segmenti ripetuti [I segmenti ripetuti sono sequenze di parole ripetute più volte nel testo.] più significativi, di cui sono ricchi soprattutto i testi scritti. Anche sulla lista di segmenti può essere applicato un criterio di classificazione che associ tra loro i segmenti che rimandano ad una unità tematica simile. Disponendo di informazioni sui testi o sui loro autori è poi possibile metterle in relazione con il corpus, individuando le parole che caratterizzano determinati profili tipologici [I profili tipologici possono essere costruiti sulla base delle variabili disponibili sul testo o sui suoi autori, come età, sesso, condizione professionale, sezione del testo in analisi, condizioni di produzione, etc.]. Questo risultato viene ottenuto grazie al calcolo delle parole caratteristiche, procedura che consente di caratterizzare il linguaggio, o più semplicemente i riferimenti tematici sovra-rappresentati in determinati gruppi di individui o tipologie di testi. Alla base del calcolo delle parole specifiche vi è un’ipotesi probabilistica di equidistribuzione delle forme nel testo: nell’ipotesi che la frequenza relativa della forma i riscontrata nei testi prodotti da determinate tipologie di rispondenti sia proporzionale alla frequenza relativa della stessa forma i nell’intero corpus, l’obiettivo è quello di individuare le parole non equidistribuite e pertanto caratteristiche di un determinato gruppo. Il nucleo di parole e di frasi significative individuate (e la frequenza con cui compaiono) forniscono una rappresentazione sintetica dei riferimenti semantici presenti nel corpus, che possono essere approfonditi in una successiva fase di ritorno allo stesso: visualizzando il contesto d’uso delle parole in esame (vale a dire le n righe o le n forme che precedono e seguono la forma indicata, tutte le volte che questa compare nel corpus) è possibile ricostruire per ogni parola i riferimenti tematici a cui questa rinvia, tracciando una mappa concettuale tra parole e temi affrontati. Dai temi e riferimenti così individuati è possibile ricostruire uno schema classificatorio, utile per descrivere in modo analitico gli argomenti e i temi principali presenti nel testo. La fase esplorativa che consente di individuare gli argomenti che connotano un testo è piuttosto laboriosa, ma consente di scandagliarne sistematicamente i principali nuclei tematici e le sfumature di argomentazione. Inoltre, il confronto tra i ricercatori che analizzano lo stesso testo costituisce una garanzia dell’accuratezza e dell’esaustività del resoconto proposto, e può essere foriero di ulteriori elementi interpretativi. 3.2 La dimensione semantica L’individuazione di categorie tematiche è soltanto il primo passo dell’esplorazione che può essere condotta su un testo: attraverso l’analisi delle corrispondenze è poi possibile individuare le dimensioni semantiche lungo cui è strutturato. L’analisi delle corrispondenze è una particolare tecnica di analisi multidimensionale, messa a punto dalla scuola francese de l’analyse des donneés, che consente di sintetizzare l’informazione contenuta in una matrice di dati, visualizzando sul piano fattoriale l’associazione tra alcune forme ritenute rilevanti ai fini dell’analisi [Generalmente si stabilisce una soglia di frequenza oltre cui le forme non rientrano nelle analisi; inoltre, con una apposita procedura, possono essere eliminate alcune forme che si ritengono poco significative (generalmente le parole vuote o strumentali, che sono le più frequenti nel testo). La selezione del testo è dettata dall’esigenza di ridurre le dimensioni delle matrici su cui vengono calcolate le distanze.]. Gli assi possono essere interpretati in qualità di dimensioni semantiche attraverso cui leggere il corpus: più le parole sono distanti dall’origine degli assi più elevato è il loro contributo alla determinazione (e quindi al significato) degli assi; inoltre, la vicinanza tra parole sul piano fattoriale rinvia a una loro combinazione o associazione nel testo originario. Per effettuare l’analisi delle corrispondenze è necessario organizzare i dati in matrice. Vi sono due tipi principali di matrici testuali (Bolasco, 1999; pp. 208-12): la matrice frammenti*forme, in cui in riga vi sono i frammenti di testo - considerati come unità di analisi (gli individui)- e in colonna le forme selezionate per lo studio, considerate come variabili relative a ciascun individuo, e quella forme*testi, in cui sulle righe ci sono le forme (forme grafiche o lemmi) e sulle colonne una delle variabili su cui si è deciso di ripartire i testi (ad esempio si raggruppano le risposte secondo una caratteristica degli intervistati o una combinazione tipologica). L’analisi delle corrispondenze consente di visualizzare sul piano grafico alcune associazioni tra parole e variabili-modalità, tali da suggerire la lettura del testo attraverso fattori che suggeriscono dimensioni di senso latenti. Probabilmente l’analisi delle corrispondenze lessicali è una delle più note tecniche di analisi statistica dei testi (Amaturo, 1989), anche se è bene precisare che il contributo informativo di questa tecnica diventa davvero significativo soltanto in seguito ad una approfondita analisi tematica del testo, che permette la formulazione di interpretazioni sull’associazione tra le parole effettivamente in relazione a contenuti presenti nel testo. Generalmente si considera questa tecnica utile per l’analisi di testi particolari, caratterizzati da un elevato livello di ridondanza, come le risposte a domande aperte, per cui diventa massima l’interazione tra variabili categoriali e variabili testuali. Tab. 2 – Esempio di matrice forme*testi: parole utilizzate nei titoli delle tesi di laureati in Sociologia per voto di laurea
Fonte: Fasanella, A., della Ratta, F., et al, (2002) Tuttavia, è bene segnalare che l’analisi delle corrispondenze è fortemente condizionata dal tipo di trattamento che viene effettuato sul testo: essa infatti può essere applicata (pena l’illeggibilità dei risultati) soltanto ad una porzione molto limitata del testo (200-300 parole o forme testuali) [Le forme testuali sono il risultato di alcune procedure di trattamento del testo e contengono informazioni aggiuntive rispetto alla forma originaria. Una forma testuale può essere la parola seguita dall’indicazione della categoria grammaticale (insegnare_V) o un insieme di parole legate tra loro (o lessicalizzate) perché dotate di un significato particolare (studio_di_caso). Cfr. Bolasco, 1999.]. Il processo di selezione delle forme può apportare modifiche anche sostanziali al testo originario, e i risultati che emergono in seguito a diverse strategie di trattamento sono spesso molto diversi tra loro. Ad esempio, si può scegliere di limitarsi all’eliminazione automatica delle parole che non superano una determinata soglia di frequenza, insieme all’eliminazione delle parole “vuote” (preposizioni e articoli), privilegiando un criterio frequentista che enfatizza il ruolo delle parole più utilizzate. E’ invece possibile decidere di intervenire sul testo, mediante la fusione di più parole in un’unica categoria. La fusione delle parole può seguire un criterio semantico (tutte le parole che fanno riferimento alla stessa dimensione tematica, a prescindere dalla categoria grammaticale), un criterio grammaticale (ad esempio tutte le forme di un verbo ricondotte al lemma originario) o una combinazione di essi. E’ bene essere consapevoli che ognuna di queste scelte condiziona il risultato e fa emergere dimensioni anche differenti tra loro; raramente è sufficiente condurre un’unica analisi e più spesso è necessaria una combinazione di criteri: la pubblicazione di un grafico fattoriale generalmente nasconde molti tentativi di analisi. L’analisi delle corrispondenze è sicuramente utile per sintetizzare i risultati di un’analisi e per proporre criteri e dimensioni per la lettura di un testo, ma non sempre risulta una tappa di analisi necessaria, soprattutto nei casi di materiale testuale complesso come documenti o resoconti di interviste e focus group. 3.3 la dimensione morfo-sintattica Infine, una prospettiva di analisi molto interessante è quella che deriva dalla riflessione intorno alla struttura linguistica del testo, che può fornire indicazioni sulle diverse strategie discorsive utilizzate dai locutori. È probabilmente comune a molti l’esperienza di interrogarsi sulle peculiarità degli stili argomentativi osservabili in differenti contesti o tra differenti locutori, e la possibilità di analizzare sistematicamente la struttura enunciativa di un testo costituisce un livello di approfondimento il cui interesse è sicuramente non indifferente. Sono stati soprattutto gli psicologi a interrogarsi sulla possibilità di costruire, a partire dall’uso del linguaggio, indicatori da cui ricavare categorie psicologiche, tratti di personalità o livelli di ansia; anche se recentemente si considera più proficua la direzione di ricerca che analizza la struttura dei testi alla ricerca di stili di argomentazione, la cui variabilità viene analizzata soprattutto in relazione al contesto di riferimento (Amerio, 1995). Ad esempio, la propensione alla nominalizzazione (la tendenza a trasformare le forme verbali in sostantivi) è considerata tipica del linguaggio scientifico e dei contesti formali, mentre le conversazioni informali sono caratterizzate dalla prevalenza di verbi e dal ricorso a frasi brevi; la predominanza di nomi e aggettivi rispetto a verbi e avverbi denota un linguaggio descrittivo, mentre la prevalenza di pronomi denota un atteggiamento di partecipazione e di “presa in carico” da parte del locutore (Amerio, 1966; Marchand 1998). E’ inoltre possibile ottenere informazioni sulla specificità o sulla ricchezza del vocabolario, attraverso il grado di concentrazione di parole poco diffuse nella comunità linguistica di riferimento o attraverso alcuni rapporti (il più noto è il rapporto tra le forme diverse e il totale delle forme) che possono essere calcolati sul numero di parole diverse o sulla percentuale di hapax (parole che compaiono una volta sola nel corpus). Sul linguaggio scritto possono essere poi calcolati appositi indici, detti di leggibilità, che rimandano all’articolazione o complessità del testo, prendendo in considerazione la punteggiatura, la lunghezza della frase e la lunghezza delle singole parole (Piemontese, 1996). Una volta individuate le caratteristiche stilistiche dei testi è possibile quindi classificarli sulla base delle caratteristiche grammaticali che li distinguono o li rendono simili: spiccato uso dei pronomi, forme verbali prevalenti (modi, tempi e persona), propensione alla nominalizzazione, elevati indici di articolazione o non-leggibilità, livello di ricchezza lessicale. Tali indicatori diventano rilevanti soprattutto in fase comparativa, poiché è soprattutto riferendo ai profili degli autori o al contesto di produzione le differenze stilistiche tra testi che dati di questo tipo diventano significativi. Per analizzare la struttura morfologica e sintattica di un insieme di testi in modo automatico sono necessari dei dizionari che consentano di riconoscere per ciascuna forma la categoria grammaticale di appartenenza. Anche in questo caso il ricorso a dizionari esterni si scontra con il problema dell’ambiguità del linguaggio, poiché non tutte le parole possono essere attribuite univocamente a una categoria grammaticale, e in alcuni casi è necessario l’intervento manuale del ricercatore. Se il ricorso a dizionari esterni rende complessa l’assegnazione delle categorie, l’analisi della dimensione enunciativa di un testo pone soprattutto un problema di tipo teorico-interpretativo. Infatti, la costruzione di indicatori sull’uso del linguaggio risulta poco significativa in assenza di precise ipotesi interpretative, che finora sono state prodotte soprattutto in ambito psico-linguistico. A questo proposito è molto interessante la tradizione di analisi automatica del discorso introdotta da M. Pecheux, in particolar modo nella recente versione dell’analisi proposizionale del discorso (o analisi cognitivo-discorsiva) proposta da Rodolphe Ghiglione, che si pone l’obiettivo di analizzare un testo andando oltre la semplice analisi descrittiva delle parole e delle loro relazioni statistiche, tipica dell’approccio lessicometrico. Secondo Ghiglione la limitazione di questo approccio è che questo consente esclusivamente la descrizione di ciò che viene detto nel testo, ma non di come e perché questo viene detto. L’obiettivo dell’analisi proposizionale del discorso è invece quello di mettere in evidenza le strategie discorsive dei parlanti attraverso l’analisi di specifici elementi del linguaggio, considerati come “portatori di tracce (indicatori) dei sistemi di rappresentazione dei locutori e delle operazioni cognitive sottostanti ad ogni operazione di discorso” (Ghiglione et al., 1998, p. 65). L’analisi proposizionale del discorso prevede che, grazie al ricorso a specifici dizionari, all’interno della proposizione (unità di senso minimale) siano individuati e conteggiati alcuni elementi indispensabili per l’interpretazione del testo: i referenti nodali (referent-noyaux), sostantivi o loro sostituti, considerati come gli oggetti o i soggetti della predicazione e indicativi degli argomenti su cui si struttura il testo; le categorie e le modalità di coniugazione dei verbi; gli aggettivi (distinti in oggettivi e soggettivi) e gli elementi di connessione e di relazione (congiunzioni, avverbi, preposizioni). Particolarmente interessante è la proposta di classificazione dei verbi, distinti in fattivi, riferiti cioè all’azione e alla dimensione del fare, stativi, relativi alla dimensione dell’essere e dell’avere e indicativi dello “stato delle cose”, riflessivi o dichiarativi, relativi alla sfera del dire e del pensare, e performativi, riferiti alla possibilità già segnalata da Austin di modificare uno stato mediante un atto locutorio. Il ricorso prevalente a una di queste classi di verbi è indicativo, secondo Ghiglione, di precise strategie discorsive: ad esempio solitamente nel discorso politico sono utilizzati prevalentemente i verbi fattivi, che i locutori utilizzano per “farci intendere che sono uomini che agiscono efficacemente” (Ghiglione et al, 1998; p. 66); un’utilizzazione prevalente di verbi stativi indica invece “un’intenzione da parte del locutore di ancorare quello che dice nel reale, in modo da sottolineare la verità degli oggetti discorsivi messi in campo”, mentre l’uso dei verbi riflessivi permette al locutore di “mettersi in scena, di farsi carico di quello che dice in modo più o meno forte, esprimendo la certezza o al contrario il dubbio, una credenza più o meno avverata a proposito di qualcosa o qualcuno” (ivi). La combinazione degli elementi del discorso consente di delineare quattro diversi stili argomentativi: enunciativo, in cui il locutore espone il proprio punto di vista e cerca di influenzare l’interlocutore (ad esempio con prevalenza di verbi stativi), descrittivo, in cui il narratore descrive, identifica e classifica qualcosa (prevalenza di sostantivi, aggettivi e verbi fattivi), narrativo, in cui viene esposta una serie di avvenimenti che si succedono nel tempo e nello spazio (prevalenza di verbi fattivi), e argomentativo, in cui il soggetto è implicato in prima persona, argomenta e cerca di persuadere l’interlocutore (prevalenza di verbi riflessivi e elementi connettivi). Il fascino di un approccio di questo tipo sta sicuramente nel tentativo di fornire elementi per la comparazione delle strategie discorsive utilizzate da diversi soggetti e in diversi contesti. Proprio in ragione della stretta connessione con una teoria di riferimento sulle dinamiche cognitive del processo di comunicazione, il suo impiego prevede però la condivisione dei costrutti teorici utilizzati, anche se la strategia di analisi suggerita (definizione di dizionari specifici e classificazione di categorie grammaticali sulla base delle loro funzioni linguistiche) costituisce un percorso di analisi di sicura significatività. 4 Conclusioni: vantaggi e svantaggi dell’analisi testualeIl ricorso alle tecniche di statistica testuale consente la sistematica esplorazione e descrizione del materiale testuale raccolto, contribuendo alla narrazione descrittiva intorno ai temi indagati, uno degli obiettivi principali di disegni di ricerca che privilegiano approcci più qualitativi. Dopo aver illustrato le possibili strategie di analisi che si possono condurre su testi, alcune delle quali saranno presentate nei paragrafi successivi, può risultare utile soffermarsi sui vantaggi e sugli svantaggi di questo tipo di tecniche. Una delle critiche più frequenti rivolte agli studi condotti su un’ampia base di materiale documentario è quella di produrre risultati privi di rigore, insieme ad una massa di documenti illeggibili e difficili da analizzare (Blumer, 1939). In realtà l’analisi testuale computer assistita offre una risposta valida a questo tipo di critiche. Infatti, se da un lato il rigore delle procedure è garantito dalla possibilità/necessità di esplicitare ogni percorso di analisi assistito da un elaboratore privo di “conoscenza tacita”, dall’altro con queste tecniche l’ampia dimensione dei testi diventa un requisito essenziale piuttosto che uno svantaggio. Sintetizzando quanto esposto fin qui sulle possibili strategie di analisi è possibile sintetizzare i punti di forza delle procedure di analisi testuale nei seguenti aspetti: - la potenzialità descrittivo-esplorativa rispetto a corpora testuali anche molto vasti (Amaturo, 1989); - l’ispezionabilità della base dei dati (Ricolfi, 1997) e quindi la garanzia della ripetibilità e dell’intersoggettività dell’analisi (prerogativa da non confondersi con la pretesa di oggettività garantita in modo acritico dal supporto tecnico-informatico); - l’esplicitazione necessaria delle fasi dell’analisi che contribuisce alla ricostruzione delle procedure e al loro controllo (Gobo, 1998); - l’integrazione e la connessione dei dati testuali con variabili categoriali associate ai documenti che incoraggiano strategie di triangolazione nel disegno della ricerca (Denzin, 1970). Come si è cercato di mostrare finora, la gamma di procedure che può essere applicata ad un corpus è abbastanza vasta, ma di volta in volta è necessario stabilire il percorso di analisi più adatto al tipo di testo da analizzare. Per produrre risultati significativi è necessario prestare attenzione alla “qualità” del corpus da analizzare, sia curandone la rilevanza teorica sia assicurando la confrontabilità dei diversi testi sottoposti ad analisi. Inoltre, come già precisato precedentemente, uno dei requisiti fondamentali è la disponibilità di alcune informazioni sugli autori dei testi o sul contesto di produzione degli stessi, sia nel caso di interviste, sia nel caso di documenti o discorsi. La disponibilità di tali informazioni per ogni frammento di testo determina uno dei principali vantaggi di queste tecniche, e cioè la possibilità di effettuare confronti tra parti differenti dello stesso corpus. Questa possibilità è il motivo che spinge gli studiosi di statistica testuale a considerare le domande aperte una delle migliori applicazioni di queste tecniche, proprio per la naturale ed ampia disponibilità di variabili, che forniscono altrettante chiavi di lettura del testo. Nel caso di interviste libere o resoconti di focus group, invece, se l’obiettivo è quello di individuare le parole specifiche per sottogruppi di intervistati, è necessario stabilire in anticipo le variabili che definiscono i sottogruppi, in modo che queste siano equidistribuite nel campione prescelto. La possibilità di far interagire i testi e le variabili relative ai loro autori/produttori è uno degli aspetti metodologici più interessanti di questo tipo di tecniche, poiché mette in luce l’importanza dell’inserimento delle tecniche di analisi testuale all’interno di un disegno di ricerca più ampio, visto che l’interazione tra variabili testuali e variabili strutturate può produrre effetti vantaggiosi sia per l’analisi dei dati che per l’analisi dei testi. I programmi informatici [Per una rassegna dei programmi informatici disponibili si consulti il saggio di R. Tesch (1995) o la nota riportata in un articolo del 2000 curato da chi scrive.] disponibili sono ormai in grado di fornire abbastanza rapidamente tutti gli elementi necessari alla descrizione del corpus, una volta che questo sia stato adeguatamente preparato. L’operazione di preparazione del testo può talvolta risultare particolarmente onerosa, soprattutto nel caso di documenti da trascrivere, o da correggere/adattare per l’analisi. Rapidità d’analisi e applicabilità a ampie quantità di dati sono generalmente riconosciuti come i vantaggi indiscussi di questo tipo di tecniche, soprattutto grazie ai recenti sviluppi dell’informatica, anche se il computer non risolve certamente i problemi di fondo dell’analisi dei testi. Infatti il ruolo delle decisioni del ricercatore rimane determinante per la qualità dell’analisi, in quanto non è possibile (e probabilmente nemmeno auspicabile) rendere automatici tutti procedimenti di analisi, anche a causa dell’incapacità del ricercatore “di spiegare la sua conoscenza nei termini di un programma per computer” (Krippendorf, 1983; p. 172). Pertanto, lo strumento informatico è uno strumento prezioso per guidare il ricercatore nell’analisi, ma non può sostituirlo, poiché, come fa notare Franco Rositi, l’automazione e i supporti informatici devono “aiutare il giudizio, e non eliminarlo” (Rositi, 1988, p. 74). Le fasi di preparazione e analisi del testo quindi non sono né completamente automatizzabili né esenti da problemi metodologici, ma tuttavia, con un adeguato addestramento del ricercatore, consentono di raggiungere risultati sicuramente premianti, con uno sforzo di poco superiore a quello profuso nelle tradizionali analisi di dati standardizzati. Va però ricordato che i risultati di queste tecniche sono eminentemente esplorativi e descrittivi, e che soprattutto sono difficilmente quantificabili (Amaturo, 1989). Le uniche possibilità di quantificazione dei temi rinvenuti sono riconducibili - per testi di dimensioni adeguate - alla rilevazione della frequenza con cui parole o gruppi di parole compaiono nel testo, oppure a procedure di classificazione automatica in grado di offrire una valutazione anche quantitativa delle categorie rinvenute (ad esempio cfr. Reinert, 1995). Risulta poi difficile stabilire relazioni tra le variabili tematiche individuate, e tra queste e altre variabili esterne al testo in analisi, poiché queste tecniche non consentono di sistematizzare in una matrice di dati “casi per variabili” i risultati ottenuti. Questo, forse, è in realtà uno dei limiti di queste tecniche, che sembrano rimanere confinate a un livello d’analisi esplorativo/descrittivo pur ricco di elementi interpretativi. Lo statuto esplorativo/descrittivo di queste tecniche non va tuttavia disprezzato, soprattutto considerando che gli obiettivi che inducono il ricercatore a utilizzare tecniche non standardizzate, come interviste o domande aperte, non sono generalmente obiettivi di quantificazione ma piuttosto di esplorazione di dimensioni e di approfondimento di aspetti poco conosciuti e rilevanti ai fini dell’indagine.
4.1 Analisi testuale e analisi del contenuto È proprio in considerazione di questo “limite” delle tecniche di statistica testuale che diventa interessante un confronto con le procedure tradizionali di analisi del contenuto, che, al contrario, definendo in anticipo gli elementi da rinvenire e da quantificare nel testo, consentono la produzione di una matrice di dati su cui applicare le procedure di analisi convenzionali. In realtà, l’analisi testuale assistita dal computer viene spesso assimilata alla famiglia delle tecniche di analisi del contenuto (Rositi, 1988; Amaturo, 1993; Losito, 1993; Bolasco, 1999), e generalmente associata più specificamente alla tradizione di analisi del contenuto quantitativa (o semantica quantitativa; cfr. Losito, 1993), in cui “le unità di classificazione coincidono con gli elementi significanti o con gli elementi della struttura linguistica” (Rositi, 1988, p. 71). L’esistenza o meno di una griglia d’analisi attraverso cui leggere il testo in esame è sicuramente un buon criterio per distinguere i diversi approcci all’analisi del contenuto, ed è anche l’elemento principale a cui possono essere attribuite le differenze sulla natura dei risultati ottenuti. Infatti, l’approccio di analisi previsto dalla statistica testuale non contempla la necessità di griglie predefinite e si basa su procedure relativamente automatizzabili per il riconoscimento dell’unità d’analisi. Le unità di analisi possono essere conteggiate, visualizzate graficamente per evidenziarne l’associazione, oppure possono concorrere alla determinazione di cluster, ma non producono automaticamente come risultato una matrice di dati tale da permettere il confronto puntuale tra le variabili testuali e dati di contesto esterno. Invece, le procedure di analisi del contenuto “tipo inchiesta”, proprio grazie alla definizione di una griglia di codifica standardizzata, producono una matrice di dati in tutti gli aspetti assimilabile alle matrici di dati comunemente utilizzate nelle indagini survey. Questa differenza, insita nel processo di costruzione dei dati e quindi nella natura dei risultati, deve pertanto risultare chiara al ricercatore che si trova a dover scegliere tra i due tipi di approccio: se per gli obiettivi dell’indagine sono sufficienti una approfondita sintesi dell’informazione contenuta nei dati, la visualizzazione delle associazioni multiple tra parole e la connessione tra dati testuali e dati di contesto (che non presuppone la piena integrazione tra tipi di dati), allora ci si può limitare all’approccio delle tecniche di statistica testuale, che offrono il vantaggio di poter analizzare in tempi relativamente brevi una grossa mole di dati. Se invece l’obiettivo dell’analisi è quello di rilevare la presenza di determinati temi, o caratteristiche del testo in analisi, in modo da produrre una matrice di dati analizzabile secondo le tradizionali procedure di analisi mono e multidimensionale, allora è necessario utilizzare una strategia di analisi del contenuto “tipo inchiesta”, che preveda cioè la definizione di una griglia di analisi su cui interrogare il testo. Nulla vieta però che questi due approcci, piuttosto che opposti siano considerati complementari, soprattutto nel caso in cui il ricercatore valuti più opportuno ottenere come risultato dell’analisi una matrice di dati “casi per variabili”. Infatti, in questo caso, se da un lato le procedure di analisi del contenuto “tipo inchiesta” risultano sicuramente più adatte, dall’altro le tecniche di statistica testuale potrebbero rivelarsi uno strumento particolarmente utile per le fasi preparatorie dell’analisi e per la definizione delle categorie (Amaturo, 1993, p. 69). Già Krippendorf, infatti, sottolineava che “prima di concettualizzare i propri dati (…) e decidere sulle procedure analitiche che potrebbero essere più appropriate, il ricercatore dovrebbe cercare di ricavare una visione d’insieme riguardo alla varietà, al genere e alla distribuzione dei dati” (1983, p. 174) e che lo strumento informatico si mostra particolarmente adatto a questo scopo, soprattutto per le procedure di information retrieval che “permetto[no] all’analista di esaminare sistematicamente l’intera base di dati da una prospettiva particolare” (ivi). E’ proprio in riferimento alla necessità di coniugare i due differenti approcci, che, a avviso di chi scrive, si rivela utile una procedura di “analisi del contenuto di secondo livello” [Su tale procedura informazioni più dettagliate sono contenute in della Ratta, 2001.], che ancori la costruzione delle categorie di analisi anche ai risultati dell’analisi testuale. L’esplorazione preliminare del testo con le tecniche di statistica testuale consente, infatti, di definire categorie di analisi più aderenti al contenuto effettivo del testo in analisi, integrando il sistema di categorie con le dimensioni emerse dall’analisi testuale e aumentando il grado di validità semantica della griglia di codifica utilizzata. Bibliografia· Aa.Vv., (1992), Jornades internationales d’analisis de dades textual, UPC, Barcelona. · Aa.Vv., (1993), Secondes journées internationales d’analyse statistique de données textuelles, Montpellier, Paris, Enst. · Aa.Vv., (2000), JADT 2000. Actes des 5es journées internationales d’analyse statistique de données textuelles, Lausanne, Rajman &Chappellier. · Aa.Vv., (2002), JADT 2002. Actes des 6es journées internationales d’analyse statistique de données textuelles, Rennes, Irisa. · Amaturo, E., (1989), Analyse des données & analisi di dati nelle scienze sociali, Torino, Centro Scientifico Editore. · Amaturo, E., (1993), Messaggio, simbolo, comunicazione. Introduzione all’analisi del contenuto, Roma, NIS. · Amerio, P., (1966), “Studio del comportamento verbale mediante analisi quantitativa del rapporto verbi-aggettivi”, <Rendiconti>, No. 13, pp. 3-42. · Amerio, P., (1995), Fondamenti teorici di psicologia sociale, Bologna, Il Mulino. · Beccaria, G. L., (a cura di), (1996), Dizionario di linguistica, Torino, Einaudi. · Blumer, H., An Appraisal of Thomas and Znaniecki’s “The Polish Peasant in Europe and America”, New York, Social Science Research Council, Bulletin 44 · Bolasco, S., (1996), “Il lessico del discorso programmatico di governo”, in Villone, M., Zuliani, A., (a cura di), L’attività dei governi della repubblica italiana (1948-1994), Bologna, Il Mulino. · Bolasco, S., (1997), “L’analisi informatica dei testi”, in Ricolfi, L., (a cura di), La ricerca qualitativa, Roma, NIS. · Bolasco, S., (1999), Analisi multidimensionale dei dati. Metodi, strategie e criteri d’interpretazione, Roma, Carocci. · Bolasco e Cipriani, (a cura di), (1995), Ricerca qualitativa e computer. Teorie, metodi e applicazioni, Milano, Angeli. · Bolasco, S., Baiocchi, F., Morrone A., (2000), Taltac. Trattamento automatico lessico-testuale per l’analisi del contenuto, Roma, Cisu. · Cipolla, C., De Lillo, A. (a cura di), (1996), Il sociologo e le sirene. La sfida dei metodi qualitativi, Milano, Angeli. · Campelli, E., (1977), L’uso dei documenti e delle storie di vita nella ricerca sociologica, Roma, Elia. · Campelli, E., (1991), Il metodo e il suo contrario. Sul recupero della problematica del metodo in sociologia, Milano, Angeli. · Campelli, E., (1996), Metodi qualitativi e teoria sociale, in Cipolla e De Lillo (a c. di), Il sociologo e le sirene. La sfida dei metodi qualitativi, Milano, Angeli. · De Mauro, T., (1980), Guida all’uso delle parole, Roma, Editori Riuniti. · De Mauro, T., (2001), Linguistica elementare, Bari, Laterza. · De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M., (1993), Lessico di frequenza dell’italiano parlato, Milano, Etas Libri. · della Ratta-Rinaldi, F., (2000), Nel campo del testo. La statistica testuale e l’analisi di domande aperte, storie orali e documenti nella ricerca sociale, tesi di dottorato in Metodologia delle Scienze Sociali e Politiche, Facoltà di Sociologia, Università degli Studi “La Sapienza”, aa. 1998/99, Roma. · della Ratta-Rinaldi, F., (2000), L’analisi testuale: un strumento per la ricerca sociale, <Sociologia e ricerca sociale>, N. 61. · della Ratta-Rinaldi, F., (2001), Il contributo dell’analisi testuale alle strategie di classificazione, <Sociologia e ricerca sociale>, N. 64. · della Ratta-Rinaldi F., Morrone A., (2002), Stilistica e uso dei modi e dei tempi verbali: il caso dei discorsi programmatici dei governi italiani dal 1948 al 1992, in Aa.Vv., JADT 2002. Actes des 6es journées internationales d’analyse statistique de données textuelles, Rennes, Irisa. · Elia, A., (1995), “Dizionari elettronici e applicazioni informatiche”, in Bolasco e Cipriani, (a cura di), Ricerca qualitativa e computer, Milano, Angeli. · Fasanella, A., della Ratta-Rinaldi, F. et al. (2002), La valutazione dei laureati in Sociologia al momento del conseguimento del titolo, in via di elaborazione. · Gambarara, D. (a cura di), (1999), Semantica. Teorie, tendenze e problemi contemporanei, Roma, Carocci. · Ghiglione, R., Landré, A., Bromberg, M., Molette, P., (1998), L’analyse automatique des contenus, Paris, Dunod. · Giami, A., Korpès, J.L., Lavigne, C., Scelles, R., (1995), “Une exemple d’articulation de methodes d’analyse qualitative et quantitatives sur des entretiens semi-directifs: les representations du handicap”, <Bulletin de Methodologie Sociologique>, No. 47. · Giglioli, P., (1973), Linguaggio e società, Bologna, Il Mulino. · Habert, B., Nazarenko, A., Salem, A., (1997), Les linguistiques de corpus, Paris, Colin. · Halliday, M.A.K., (1973), “Il linguaggio in una prospettiva sociale”, in Giglioli, Linguaggio e società, Bologna, il Mulino. · Holsti, O.R., (1968), “Content Analysis”, in Lindzey, G., e Anderson, E., (a cura di), The Handbook of Social Psychology, Cambridge, Addison-Wesley. · Holsti, O.R., (1969), Content Analysis for the Social Sciences and Humanities, Cambridge, Addison-Wesley. · Hudson, R., (1996), Sociolinguistica, Bologna, Il Mulino. · Jenny, J., (1997), “Methodes et pratiques formalisées d’analyse de contenu et de siscours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification”, <Bullettin de Methodologie Sociologique>, N. 54. · IBM, (1989), VELI, Vocabolario elettronico della lingua italiana. Il vocabolario del 2000, Roma, Centro di ricerca IBM Italia. · Krippendorf, K., (1983), Analisi del contenuto. Introduzione metodologica, Torino, ERI. [(1980), Content Analysis. An Introduction to its Methodology, London, Sage.] · Lana, M., (1994), L’uso del computer nell’analisi dei testi, Milano, Angeli. · Lasswell, H.D., Leites, N., (a cura di), (1979), Il linguaggio della politica. Studi di semantica quantitativa, Torino, ERI. [Language of Politics. Studies in Quantitative Semantics, New York, Stewart] · Lebart, L., Salem, A., (1988), Analyse statistique des données textuelles. Question ouverte et lexicométrie, Paris, Dunod. · Lebart, L., Salem, A., (1994), Statistique textuelle, Paris, Dunod. · Lepschy, G.C., (1992), La Linguistica del Novecento, Bologna, il Mulino. · Losito, G., (1993), L’analisi del contenuto nella ricerca sociale, Milano, Angeli. · Losito, G., (1995), “Imputazione semantica e attendibilità delle operazioni di classificazione computerizzata”, in Bolasco e Cipriani, (a cura di), Ricerca qualitativa e computer, Milano, Angeli. · Marchand, P., (1998), L’Analyse du Discours Assistée par Ordinateur. Concepts, Méthodes, Outils, Paris, Colin. · Mellet, S., (1998), Quatrièmes Journées Internationales d’Analise Statistique des Données Textuelles, InaLF, Nice. · Piemontese, M. E., (1996), Capire e farsi capire. Teorie e tecniche della scrittura controllata, Napoli, Tecnodid. · Pitrone, M. C., (1984), Il sondaggio, Milano, Angeli. · Reinert, M., (1995), “I mondi lessicali di un corpus di 304 racconti di incubo attraverso il metodo Alceste”, in Cipriani, R., Bolasco. S., Ricerca qualitativa e computer, Milano, Angeli. · Ricciardi, M., (a cura di), (1996), Lingua letteratura computer, Torino, Bollati Boringhieri. · Rizzi, A., (1985), “Alcune analisi statistiche della lingua italiana”, <Statistica>, n.1. · Rositi, (1970), L’analisi del contenuto come interpretazione, Torino, Eri. · Rositi, F., (1988), “Analisi del contenuto”, in Rositi, F., e Livolsi, M., La ricerca sull’industria culturale, Roma, NIS.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||