Linguaggio e scrittura: La codifica dei fumetti italiani

lunedì 2 dicembre 2013

La codifica dei fumetti italiani

Dall'articolo di Walsh: Kirby come esempio di cbml:panel, eccetera

Giovedì scorso ha ottenuto la laurea magistrale in Informatica umanistica uno dei miei studenti, Salvatore Figuccia. La sua tesi (correlatore Roberto Rosselli Del Turco, controrelatore Alessandro Lenci) era intitolata Codifica CBML-TEI di fumetti italiani e analisi linguistica.

Come mai un argomento del genere? Beh, io sto studiando da molto tempo l’italiano dei fumetti. Argomento importante per la storia linguistica del Novecento ma quasi del tutto privo di studi sistematici: l’unica monografia oggi esistente è Parola di papero di Daniela Pietrini, dedicata però ai soli fumetti Disney. Certo, io ho pubblicato, negli anni, diversi interventi sull’italiano dei fumetti, ma tutti su argomenti molto circoscritti. Avendo tempo, sarebbe arrivato il momento di tirare le fila e sintetizzare…

Questo però significa avere alle spalle ampi spogli linguistici. Il che a sua volta richiede l’esistenza di corpus di fumetti in cui il testo sia stato trascritto e digitalizzato, in modo da poter fare analisi automatiche. E, a sua volta, ciò richiede uno standard di codifica intelligente, che contenga tutti gli elementi utili a un’analisi linguistica. Le caratteristiche editoriali dei fumetti rendono tuttavia questo tipo di lavoro tutt’altro che banale.

Facciamo un esempio pratico: il linguaggio dei diversi personaggi. In molti fumetti alcuni tipi di espressione sono collegati a un unico personaggio – nei fumetti Disney, solo Pippo fa yuk, yuk – oppure sono distribuiti tra personaggi in modo marcato e ripetuto. Quindi un’analisi, mettiamo, delle Sturmtruppen di Bonvi deve distinguere per esempio tra il finto tedesco delle Sturmtruppen e l’italiano non alterato di Galeazzo Musolesi, e così via. Per arrivare a questo risultato, però, si deve usare un sistema di trascrizione che non solo distingua tra i diversi personaggi ma consenta poi, accoppiato agli opportuni strumenti elettronici, di limitare per esempio i risultati di uno spoglio linguistico a uno specifico personaggio, o di escludere il personaggio medesimo da uno spoglio generale, e così via.

La maggiore iniziativa mondiale nella codifica di testi umanistici è la TEI (Text Encoding Initiative). La TEI pubblica importanti linee guida e ha previsto la codifica di molti tipi diversi di testo, dalle opere teatrali alle edizioni critiche, ma non ha mai fornito standard per i fumetti. Questa lacuna è stata di recente colmata in buona parte dalla proposta di John A. Walsh (Università dell’Indiana), che ha proposto il vocabolario CBML. In pratica, CBML è un sistema che da un lato indica come usare per la codifica dei fumetti i classici elementi TEI e dall’altro aggiunge a essi “a number of elements targeted at the distinctive formal features of comics, such as panels, balloons, and narrative captions”. La proposta è stata articolata da Walsh anche in un articolo del Digital Humanities Quarterly intitolato Comic Book Markup Language: An Introduction and Rationale, che aggiunge molte informazioni interessanti e casi d’uso.

Tutto bene, quindi? Sì e no. Nel senso che Walsh ha lavorato per la codifica dei “comic book” americani, cioè di prodotti editoriali di un certo tipo, e la codifica dei fumetti italiani richiede un po’ di aggiustamenti da questo punto di vista. Per esempio, i “comic book” americani contengono tipicamente una storia singola; molte riviste a fumetti italiane invece contengono più storie, di autori differenti (come nel caso di Topolino), e occorre quindi trovare un modo per raggruppare i diversi materali. E così via.

Di qui l’importanza della tesi di Salvatore Figuccia, che ha preso come punto di partenza il lavoro di Walsh e ha controllato la sua applicabilità anche ai fumetti italiani. Come avevano già suggerito esperimenti più limitati condotti in alcuni elaborati di laurea triennale, l’esperimento ha confermato che per trascrivere i fumetti italiani più popolari non è necessario aggiungere nuovi elementi alla proposta di Walsh – il che faciliterà l’interscambio di dati. Occorre avere invece dei criteri di trascrizione molto dettagliati, per mantenere coerenza tra prodotti che seguono standard piuttosto diversi. La tesi ha quindi incluso una prima bozza di criteri e, come dimostrazione, la trascrizione completa di un fascicolo di Topolino e di due prodotti bonelliani (un numero di Tex e uno di Dylan Dog), oltre a un primo assaggio di analisi linguistica sulle interiezioni. Nel complesso, si tratta di un importante passo avanti nella direzione del lavoro complessivo di cui parlavo all’inizio.