In limine

Qualche considerazione sull'indicizzazione per soggetto
prima e dopo l'automazione [*]

di Michele Santoro




E' un dato di fatto che il dibattito biblioteconomico in Italia si sta allargando fino a coinvolgere una buona parte degli operatori di biblioteca, proprio coloro che quotidianamente sono chiamati a misurarsi con gli svariati problemi che la pratica bibliotecaria comporta: e a questo dibattito un apporto non piccolo sta fornendo "Bibliotime" con l'ospitare i contributi di quanti abbiano qualcosa da segnalare, da esprimere, da recriminare. Vanno dunque accolti con vivo interesse interventi di non poco momento, quale quello apparso sul numero 2/1991 di "Bibliotime" avente per tema la soggettazione in ambiente SBN: articolo che, pur muovendo da un angolo visuale particolare quale quello di una base locale, affronta temi di portata tanto vasta da meritare, a nostro avviso, qualche ulteriore puntualizzazione ed approfondimento. L'istanza di fondo da cui muove l'estensore dell'articolo, e cioè la contraddizione provocata dal permanere di tecniche d'indicizzazione tradizionali in contesti di forte automazione delle procedure, allo stato attuale è uno dei problemi più dibattuti anche nel nostro paese: il convegno di Trieste del 1985 su "Indicizzazione per soggetto e automazione" ed alcuni interventi dei successivi congressi dell'AIB hanno dato la misura delle molteplici e complesse problematiche, ed offerto suggerimenti e consigli, senza in nessun caso pervenire a prese di posizioni definitive. E in realtà ciò perché siamo di fronte ad un nodo concettuale di proporzioni assai ampie, che non solo riguarda le scelte delle singole biblioteche, ma che viene a coinvolgere e a mettere in discussione le diverse strategie di indicizzazione per soggetto, le quali inevitabilmente si vedono sottoposte a una complessiva e decisa ridefinizione.

Partendo dal consolidato punto di vista che non è più possibile, in ambiente automatizzato, ripetere pedissequamente le procedure della soggettazione tradizionale, l'autore dell'articolo propone alcune soluzioni nate, come egli stesso si esprime, da "discussioni estemporanee sorte proprio a terminale, durante il lavoro concreto di soggettazione" e volte a migliorare l'efficacia delle ricerche da parte degli utenti. Dunque, poiché i meccanismi di consultazione della base di dati costringono l'utente a dover ripetere la procedura d'interrogazione tante volte quante sono le intestazioni di soggetto, la proposta che viene fatta è quella di evitare di assegnare ai documenti descrittori troppo analitici e, di conseguenza di "considerare i soggetti  come qualcosa che raggruppa i documenti", qualcosa che sia in grado di "riunire sotto di sé in un numero significativo di notizie", onde evitare di "disperdere le informazioni e rendere la vita più complicata ai ricercatori".

E' una proposta che, pur asserendo l'autore di voler "tenere distinti gli aspetti informatici da quelli biblioteconomici", pare nascere dalla imperfetta potenzialità delle macchine e dall'esigenza di migliorare le condizioni di ricerca degli utenti: e dunque potrebbe essere accolta, se non coinvolgesse uno dei punti di maggiore importanza nel dibattito teorico e nella pratica della soggettazione, vale a dire il discorso sulla specificità del soggetto.

Pur senza voler rifare un percorso storico già da altri delineato [1], ci pare tuttavia opportuno ricordare come le basi dell'indicizzazione alfabetica per soggetto, tracciate con chiarezza dalle Rules di Cutter, pongano a fondamento dell'espressione del contenuto concettuale del documento la norma del "soggetto specifico": la principale preoccupazione di Cutter, com’è noto, è quella di evitare voci di soggetto troppo ampie o generali, ossia le voci corrispondenti alla classe che include il soggetto; per riprendere il celebre esempio di Cutter, un libro sui gatti va soggettato sotto la voce GATTI, e non sotto FELINI o MAMMIFERI o ANIMALI DOMESTICI. "In sostanza - chiarisce Serrai - ogni entità per quanto piccola deve figurare come soggetto autonomo e venire espressa da un descrittore che sia formulato indipendentemente dal rapporto di appartenenza di quella entità ad altre" [2].

I motivi di una tale presa di posizione appaiono con tutta evidenza volti a stabilire una relazione non solo tra il contenuto semantico del documento e la corrispondente voce di soggetto, ma fra questa e la possibile formulazione della richiesta da parte del ricercatore. Difatti, come spiega Coates, "un soggetto ha di solito parecchi livelli generici, ma soltanto uno specifico. Noi adottiamo il termine rappresentante l'unico livello specifico, perché non sappiamo a quale dei vari termini generici il ricercatore si accosterà" [3].

E' poi lo stesso Coates a proporre, sulla base dell'influsso esercitato da Ranganathan e da Kaiser, una nuova definizione di specificità, secondo la quale "soggetto sarebbe il tema del documento, se unitario, in tutte le sue articolazioni, intese non come improprie suddivisioni [...] ma come delimitazioni che consentono di conformare la voce al principio della coestensività" [4]; il soggetto insomma deve esprimere per intero il contenuto del documento, e se ciò avviene esso è  "coestensivo" all'area semantica del documento, individuando e sommarizzando i vari aspetti del suo contenuto, senza che per questo venga meno la sua specificità. Tralasciando le implicazioni che si dipartono dalla concezione di soggetto coestensivo (costruzione di una voce di soggetto composta piuttosto che assegnazione di un certo numero di soggetti semplici), vediamo come, almeno nella tradizione catalografica europea, il soggetto specifico (nel senso di "coestesivo") mantenga intatta la funzione attribuitale da Cutter, affinché l'accesso a un documento possa avvenire nella maniera più diretta, sulla base del termine che designa il soggetto del documento e non sulla base della voce che ne esprime la classe di appartenenza.

E' tuttavia vero che non esiste un grado assoluto di specificità, e che questa può venire in qualche modo commisurata al tipo di biblioteca (e quindi di utenza) per la quale il documento viene indicizzato; di conseguenza potrà esistere un grado di estensione semantica più o meno ampio, a seconda che la biblioteca decida di effettuare una politica di sommarizzazione, tendente alla "enunciazione del [...]contenuto complessivo [del documento]", oppure una indicizzazione spinta che invece "mira ad estrarre tutti i concetti principali trattati nel documento" [5], ma senza che comunque vengano inficiati i principi della specificità e della coestensione.

Come si vede, il problema è centrale nell'ambito dell'indicizzazione per soggetto, con conseguenze sia sul piano della catalogazione che su quello della ricerca. La soluzione proposta dall'autore dell'articolo pare andare in una direzione che nega o attenua la validità dell'accesso specifico, al fine di costruire ciò che viene definito un "indice" (ma sarebbe meglio dire una "classe"), in grado di raggruppare documenti di contenuto affine, per aumentare il grado di richiamo e per agevolare le ricerche degli utenti con l'eventuale reperimento di liste di termini di significato comune. E' una presa di posizione che nasce senz’altro da un'opzione in favore di un'utenza meno specialistica e che tiene conto della natura della base bibliografica nella quale si trova ad operare, ma che tuttavia, nella riproposizione di voci di soggetto che potremmo definire "alfabetico-classificate", pare non essere in grado di costruire quel ponte ideale tra descrittori, documenti e collezioni tale da soddisfare le mutate esigenze di interrogazione e di ricerca. Se infatti è vero quanto asserisce Serrai sul pericolo insito nell'allestimento di cataloghi costituiti da entità semantiche disorganiche e slegate fra loro, è altrettanto vero come lo stesso Serrai si esprime, che "al posto di una catalogazione semantica sparpagliata ed episodica [...] la biblioteca dovrebbe offrire, attraverso il catalogo, il filtrato prodotto dalla applicazione di una griglia semantica ai documenti in arrivo: segnalando non più i documenti, ma i significati contenuti nei documenti" [6]. Il soggetto pertanto, lungi dal porsi come nucleo di raggruppamento di documenti di contenuto affine, si qualifica nettamente come "indice dei significati di un documento" [7], specifico e coestensivo con il contenuto semantico di questo; solo assegnando un adeguato livello di specificità è allora possibile distinguere i documenti all'interno della collezione - a differenza di quanto avverrebbe con voci classificate - in quanto "ciò che non è stato specificato al momento dell'indicizzazione non può essere più recuperato"; così come "una politica d'indicizzazione non pienamente specifica [...] vanifica la possibilità di adottare una strategia di ricerca uniforme, con quello che ciò comporta anche per l'orientamento degli utenti" [8]. Nell'articolo in questione si legge poi che "nel catalogo online SBN [...] l'accesso è possibile dai vari descrittori": la qual cosa sembra voler dire che è ammessa una interrogazione di tipo postcoordinato, anche se limitata all’uso del solo operatore "AND". La possibilità di adottare strategie di ricerca con ricombinazione a posteriori dei termini all'interno di sistemi rigidamente precoordinati è un argomento ampiamente dibattuto e che ha condotto a prese disposizioni opposte e contraddittorie nella teoria e nella prassi dell'indicizzazione per soggetto.

Ci riferiamo in particolare alle scelte catalografiche della Library of Congress tendenti, nella ridefinizione del criterio della specificità verso un progressivo ampliamento dell'estensione semantica delle voci, alla adozione di una pluralità di accessi al posto di una stringa di soggetti che sommarizzi il contenuto del documento secondo il principio della coestensione: in tal modo, per riprendere un esempio fra i più significativi, un documento sulla cornea del ratto viene indicizzato con: "RATTO - Anatomia"; "MAMMIFERI -Anatomia" e "CORNEA".

Tale pratica catalografica, pur non disgiunta da quella del tutto opposta di assegnare voci composte formate dal soggetto con le sue suddivisioni, ha ricevuto una sorta di consacrazione appunto con la possibilità di applicare procedure di tipo postcoordinato ai propri descrittori: non tenendo conto, come hanno notato Maltese e Petrucciani, che la ricerca postcoordinata ha senso e produce risposte soddisfacenti "se i singoli termini hanno un valore fisso, ben definito, non legato alla loro posizione o al significato dei termini contigui della voce" [9], aspetti che invece sono caratteristici della catalogazione per soggetti di tipo tradizionale. D'altro canto si avverte l'importanza di descrizioni che siano supportate da una struttura linguistica fortemente controllata, al fine di evitare il più possibile ambiguità e sovrapposizioni concettuali, a differenza di quanto avviene nella pratica della soggettazione tradizionale, tendente ad approssimarsi il più possibile al linguaggio naturale e all'uso comune della lingua. Appaiono pertanto evidenti, in termini di ridondanza e di mancanza di precisione, i rischi connessi ad un'applicazione tout court di meccanismi propri della postcoordinazione a sistemi precoordinati, soprattutto tenendo conto che la logica d'interrogazione booleana è applicabile con successo sulla base di un'indicizzazione rigorosamente controllata come quella realizzata  mediante un thesaurus, ma del tutto inadatta ad una sua applicazione alle tradizionali ricerche di biblioteca [10]. Se a ciò si aggiunge la notevole rigidità della logica booleana [11], in grado di operare solo sui due valori di completa appartenenza o completa estraneità dei documenti rispetto alla richiesta, si comprende come la risposta, in termini di effettiva pertinenza dei documenti recuperati, non sempre sia adeguata alle domande dell'utenza. Pertanto oggi, al di là della proposizione di modelli basati sui cosiddetti insiemi sfumati (che darebbero la possibilità di effettuare domande sulla base di livelli di pertinenza diversificati a seconda degli scopi della ricerca), si assiste all'individuazione di sistemi di recupero più snelli e dinamici, quali ad esempio quelli operanti in ambienti ipertestuali, o le applicazioni di intelligenza artificiale negli OPAC dell'ultima generazione.

La necessità di uno stringente controllo linguistico, da più parti avvertita e messa in evidenza, ci conduce ad un altro punto di non minore importanza presente nell'articolo in questione: lo strumento linguistico da adoperarsi nella moderna pratica della soggettazione; secondo l'autore infatti, gli strumenti in grado di fornire indicazioni linguistiche aggiornate ed efficaci andrebbero individuati nei "dizionari", da usarsi come "standard comune per dirimere dubbi e disuniformità fra noi e i nostri utenti".

La proposta di ricorrere ai dizionari linguistici in quanto depositari di termini consolidati dall'uso comune pare richiamarsi direttamente alla visione, propria di Cutter e dei suoi tempi, dei "soggetti stabiliti", ossia garantiti dal contesto sociale e sanzionati dall'uso comune della lingua: un soggetto, per essere tale, deve aver subito un processo di "stabilizzazione" in virtù del quale viene abilitato come descrittore. Poiché normalmente Cutter individua come referente e destinatario delle sue regole il "presumibile lettore medio di una presumibile biblioteca di dimensioni   medie" [12], è ovvio che tale stabilizzazione lessicale va inquadrata nel contesto di un'utenza la quale, sia pur nella diversità delle richieste formulate, condivide un comune atteggiamento di ricerca su una medesima base linguistica: proprio su tale base Cutter può identificare il criterio dell' "uso comune" e porlo come principio cardine nella adozione delle voci di soggetto, nella scelta dei sinonimi e nell'individuazione dell'ordine di citazione di un soggetto composto.

Nel riformulare, a 75 anni di distanza, i principi di Cutter con la compilazione di un vero e proprio manuale volto a organizzare e guidare l'attività indicizzatoria della Library of Congress, D. J. Haykin prende in considerazione anche l'aspetto riguardante l'uso comune della lingua. Convinzione di Haykin è che in ogni tipo di biblioteca esistano diverse categorie di utenti, tra le quali vanno identificate le più significative onde adeguare a queste le scelte catalografiche più importanti; alla luce della concezione dell' "utente come fuoco" va allora interpretato anche il principio dell'uso comune, che per Haykin non può andare disgiunto dal criterio del "semantic change", vale adire dell'aggiornamento dei termini a contatto con la continua evoluzione della lingua. Comunque, nella scelta dei termini da adottare come voci di soggetto, "Haykin raccomanda di non utilizzare i dizionari linguistici generali che registrano tutti i termini della lingua, senza selezionare i più nuovi o i più usati rispetto a quelli più vecchi o meno usati" [13]; per contro, Haykin identifica nella letteratura periodica specializzata la fonte cui attingere con sicurezza le voci da adottare come descrittori.

Al giorno d'oggi, quando la letteratura prodotta nei vari campi dello scibile è aumentata in misura esponenziale, appare possibile ricorrere all'autorità dei vocabolari linguistici solo a condizione che questi, come suggerisce lo standard sull'analisi concettuale, siano effettivamente riconosciuti come "autorità nei loro campi" e accompagnati dove possibile da strumenti di controllo quali thesauri e schemi di classificazione di riconosciuta scientificità e aderenza alle materie trattate. Fonte principale della terminologia, senz'altro nei settori di particolare specializzazione disciplinare ma anche in contesti più generali, dovrebbe continuare ad essere la letteratura specializzata, in quanto portatrice della terminologia scientificamente attestata e prevalente; che è poi quanto aveva proposto Haykin e prima di lui Henry Evelin Bliss con la sua concezione del "consenso scientifico" sul quale soltanto può riposare l'organizzazione di ogni valida struttura documentaria.

 

Note

[1] Cfr. F. MIKSA, The subject in the dictionary catalog from Cutter to present. Chicago, American Library Association, 1983; A. SERRAI, Del catalogo alfabetico per soggetti. Semantica del rapporto indicale. Roma, Bulzoni, 1979; R. CAFFO, Analisi e indicizzazione dei documenti. Milano, Bibliografica, 1988, pp. 27-35, 117-182.

[2] A. SERRAI, cit., p. 66.

[3] E. J. COATES, Subject catalogues. Headings and structures. London, The Library Association, 1960, p. 37 (trad. di A. Serrai).

[4] A. PETRUCCIANI, La lettera uccide. Un contributo alla riconsiderazione della catalogazione alfabetica per soggetto, "Biblioteche oggi", 4 (1986), n. 3, p. 38.

[5] D. MALTESE, Elementi di indicizzazione per soggetto. L'analisi dei documenti e l'indicizzazione a catena. Milano, Bibliografica, 1982, p. 11.

[6] A. SERRAI, Ricerche di biblioteconomia e di bibliografia. Firenze, Giunta Regionale Toscana - La Nuova Italia, 1983, p. 2.

[7] Ivi, p. 1.

[8] D. MALTESE - A. PETRUCCIANI, Un'esperienza d'indicizzazione per soggetto. Materiali per la versione italiana di PRECIS. Roma, AIB, 1990, p. 247.

[9] D. MALTESE - A. PETRUCCIANI, cit., p. 250.

[10] Ivi, p. 248 sgg.

[11] Cfr. C. H. HILDRETH, Beyond Boolean: designing the next generation of outline catalogs, "Library trends", 35 (1986-87), pp. 646-667.

[12] A. SERRAI, Del catalogo alfabetico per soggetti, cit., p. 65.

[13] R. CAFFO, cit., p.


[*] Pubblicato su "Bibliotime", 2 (1991) 4, p. 4-5.