1. Il Processo: uno strumento di conoscenza della realtà
Le intercettazioni telefoniche e ambientali sono di cruciale importanza nelle fasi investigative e processuali. Tuttavia, la legislazione presenta un vuoto rispetto al ruolo del trascrittore e del perito fonico, che in pratica non sono contemplati. Un vuoto aggravato dall’assenza di percorsi formativi per chisi trova a operare nel settore, a partire dagli organi di polizia giudiziaria. Operazioni delicatissime – che richiedono competenze interdisciplinari nel campo della fonetica acustica e dell’ingegneria – sono molto spesso condotte da figure che raramente hanno assimilato una pratica scientifica di base, costrette al fai da te, e in genere inconsapevoli che il Processo è in primo luogo uno strumento di conoscenza della realtà.
Tuttii modelli scientifici contemporanei concordano sul fatto che la conoscenza della realtà si raggiunge attraverso ipotesi su fatti osservabili e oggettivamente misurabili grazie a un metodo (detto ipotetico-deduttivo), che è pubblico, condiviso e replicabile da tutti. Se si fanno delle ipotesi sulla realtà, si osserva e analizza un campione coerente di dati tramite un metodo (spesso con l’ausilio di strumenti statistici) e si scopre che i dati sono coerenti con le ipotesi iniziali, allora l’ipotesi è confermata (ma non vera, perché la scienza non pretende di catturare le verità assoluta), la conoscenza della realtà analizzata è stata raggiunta e si possono fare inferenze e predizioni sul mondo. In questo modo la conoscenza del mondo avviene a prescindere dall’osservatore, un essere umano caratterizzato e condizionato da determinate peculiarità, come i sensi, l'intelligenza, la personalità e altri fattori storici. In sintesi, il metodo scientifico permette di interpretare la realtà a prescindere da condizionamenti esterni.
Sulla base del principio del Giusto Processo, il Tribunale è il luogo in cui la giustizia si realizza tramite procedure controllabili e ripetibili che portano a inferenze e predizioni (sotto forma di ‘decisioni’) sulla base dell’evidenza. L’evidenza, attraverso l’accertamento pertinente e completo dei fatti, deve portare alla formazione della prova grazie alla pratica comunicativa del contraddittorio. Come si può vedere, il principio del Giusto processo di per sé, fatte le dovute distinzioni, non è lontano dalle procedure scientifiche contemporanee (cfr. Ferrua 2007; Fallone 2012). Tuttavia, il lungo cammino, iniziato coraggiosamente da Galileo, che ha portato la scienza a svincolarsi da pratiche incontrollate, riservate solo a pochi adepti (avvolti in un alone magico e vaticinante), si ferma nei Tribunali dinanzi alla trascrizione di intercettazioni e alla comparazione della voce. Nei Tribunali italiani qualsiasi metodo di trascrizione del parlato e di comparazione della voce è ben accetto, anche se non ha un riconoscimento scientifico (e al momento oltre il 70% di questi metodi sono privi di fondamenti scientifici, soprattutto per quanto concerne la comparazione della voce: cfr. Romito, Galatà 2008). Al contrario, in alcuni paesi europei e soprattutto negli USA è possibile utilizzaresolo metodi che hanno ottenuto un riconoscimento scientifico attraverso la discussione in un convegno, congresso o attraverso la pubblicazione su una rivista scientifica basata sulla revisione fra pari.
Per quel che concerne la trascrizione del parlato, banalmente si pensa che chiunque sia in grado di usare un programma di videoscrittura possa, con un po’ di pazienza, trascrivere il parlato intercettato. Salvo poi stupirsi quando in Tribunale il contenuto della trascrizione è contestato, l'ascolto in aula non chiarisce i dubbi sollevati, le trascrizioni si moltiplicano all’infinito e i consulenti chiamati in soccorso non riescono a risolvere in modo definitivo il problema (cfr. Grimaldi 1995; Bellucci 2005; Paoloni, Zavattaro 2007). Tale pratica si riflette sulla lunghezza dei Processi, genera un enorme dispendio di soldi pubblici e fa ricadere la responsabilità ultima sul Giudice, inficiando alla base le fondamenta teoriche del Giusto Processo.
Di particolare rilievo è la comparazione della voce, su cui qui mi concentrerò, in quanto essa più di altre richiede l’azione congiunta di conoscenze multidisciplinari applicate all’analisi della voce, che non è un segnale come tutti gli altri, ma ha peculiarità che sono proprie della specie umana. Prima di entrare nel vivo della questione, è necessario capire in modo sintetico i presupposti forensi per la comparazione della voce, come si possono individuare i parametri del segnale vocale sulla base di alcuni principi di fisica acustica e qual è il metodo pseudo-scientifico che tuttora viene adoperato nella maggioranza dei Tribunali. Infine, ci concentreremo sul metodo che a livello internazionale, allo stato attuale delle conoscenze scientifiche,è ritenuto più adatto ai principi del Giusto Processo: un metodo che si ispira alla biometria e che, come nel caso del DNA, si prefigge di individuare un soggetto a partire da parametri relativi a caratteristiche biologiche oggettive.
2. Presupposti forensi per la comparazione scientifica della voce
In genere, nella comparazione della voce il parlato registrato della voce anonima (reo) viene messo a confronto con il parlato registrato della voce nota (imputato). Tutte le parti coinvolte (polizia giudiziaria, giudici e avvocati) mirano a sapere se la voce dell’anonimo appartenga alla voce nota. A seconda del sistema legale in cui ci si trova a operare, intercettazioni telefoniche e/o ambientali oppure registrazioni di interrogatori possono essere utilizzate come evidenza nel caso in cui il sospettato sia poco o per nulla collaborativo. In caso contrario, si può anche ricorrere all’acquisizione di ulteriore materiale audio dal sospettato tramite ‘saggio fonico’. Il saggio fonico è di estrema importanza ai fini della comparazione (come vedremo in seguito) e richiede competenze derivate dal campo della linguistica, soprattutto da quel settore della linguistica che ha sviluppato metodiche di rilevamento del parlato spontaneo o semi-spontaneo conducendo inchieste sul campo con l’ausilio dei questionari opportunamente costruiti; perché se i dati ottenuti dalle intercettazioni e quelli ricavati dal saggio non sono coerenti la comparazione scientifica delle voci è minata alla base (la questione richiederebbe un intervento a parte e riflessioni più accurate di quelle qui appena accennate).
La comparazione della voce può essere richiesta sia dalla Polizia giudiziaria sia da privati al di là di un dibattimento in Tribunale; ma in genere si rende necessario depositare una perizia che sia scientificamente motivata (quando chi a redigerla ha le competenze scientifiche) che sarà poi utilizzata come evidenza in un processo e che deve essere discussa e difesa oralmente in dibattimento da parte dell’esperto responsabile della perizia (Jessen, 2008).
3. La biometria della voce
Al contrario di altri parametri biometrici, la voce ha una elevata variabilità sia intraparlatore (la variabilità della voce di un individue nel tempo, a causa di stati emotivi, ecc.) che interparlatore (la variabilità della voce da individuo a individuo): tuttavia all’interno di tale variabilità si possono individuare dei parametri stabili che ne consentono la comparazione. In modo particolare, a offrire parametri stabili sono le vocali (per questo utilizzate nella pratica forense) che sono generate tramite un segnale periodico prodotto da tre effetti: (i) il movimento periodico delle corde vocali che genera la frequenza fondamentale (F0) correlata con il tono della voce di ciascun individuo; (ii) il rumore prodotto dalla fonazione; (iii) le modificazioni del flusso d’aria a seconda della forma che gli articolatori assumono all’interno del cavo orale nel processo di produzione. Questi tre effetti generano uno spettro di frequenza, la cosiddetta struttura formantica.
La struttura formantica è caratterizzata da una serie di picchi discreti nello spettro di frequenza che sono il risultato dell’interazione tra la frequenza di vibrazione delle corde vocali e le risonanze che si generano all’interno del tratto vocale del parlante. La frequenza di questi picchi, che corrisponde alle frequenze formantiche, come anche la frequenza relativa tra i picchi, varia in base ai differenti suoni realizzati poiché sono coinvolti differenti articolatori (lingua, denti, palato, labbra, ecc.). La struttura formantica del parlato interagisce con la struttura armonica del parlato (rappresentata da multipli interi della frequenza fondamentale). Le armoniche che sono vicine alla frequenza di risonanza del tratto vocale sono chiamate Formanti.
Lo spettrogramma rappresenta le componenti del suono in un grafico a tre dimensioni, in cui il tempo è posto sull’asse delle ascisse, la frequenza sull’asse delle ordinate e l’intensità attraverso il maggiore o il minore annerimento delle frequenze (oppure attraverso una scala di colori). La frequenza di questi picchi, generalmente espressa in Hz, come anche la frequenza relativa tra i picchi, varia in base ai differenti suoni prodotti. La frequenza più bassa è nota come prima formante (F1) e le formanti successive sono la F2, F3 ecc. Generalmente, le vocali sono classificate considerando i primi due picchi dell’inviluppo spettrale (Peterson& Barney, 1952): vedi Figura1. La prima formante è inversamente proporzionle al movimento della lingua nella dimensione verticale (alto/basso), mentre la seconda formante riflette il luogo di articolazione nella dimensione orizzontale (anteriorità/posteriorità della lingua) del cavo orale. La F2, insieme con la frequenza della terza formante, può dare utili indicazioni sull’arrotondamento delle labbra (Stevens, 1998).
Quello che vediamo rappresentato in Figura 1 può essere tradotto in termini numerici, per cui ogni vocale sarà caratterizzato da alcuni valori in Hz relativi alle primedue formanti. Per esempio, la vocale [i] dell’italiano standard è mediamente caratterizzata da una F1 di 280 Hz e da una F2 di 2240 Hz, mentre la [a] da una F1 di 800 Hz e da una F2 di 1280 Hz, ecc. (cfr. Ferrero, Magno Caldognetto 1986). Ottenendo più misurazioni da diversi campioni vocalici dello stesso tipo si possono così effettuare analisi statistiche delle voci analizzate e compararle fra loro.
Da fonetica forense |
Fig. 1: invilupppi spettrali (in alto) e spettrogrammi (in basso) delle vocali cardinali [a], [i] e [u] realizzate da un parlante italiano di sesso maschile. Le prime tre formanti sono messe in evidenza dalle linee tratteggiate.
4. L’illusione dell’impronta vocale
Prima che si giungesse a un approccio di tipo biometrico, un esperimento condotto dagli ingegneri dei Laboratori Bell in USA (Kersta, 1962) testò se la comparazione solo visiva degli spettrogrammi (vedi Figura 1) poteva essere utile per l’identificazione del parlatore. L’esperimento, secondo i ricercatori, dimostrò che tale comparazione poteva avere successo e la pratica, ingenuamente associata all’idea delle impronte digitali, si diffuse ovunque (e purtroppo continua ad essere ingenuamente applicata). Nel corso del tempo, tuttavia, la maggior parte degli scienziati assunse un atteggiamento scettico sull’affidabilità di questo metodo poiché non era stato sufficientemente testato (Steven et al. 1968) e in alcuni casi fu respinto in modo completo (Hollien, 1977). Bolt et al. (1973) hanno criticato il metodo sollevando numerose questioni a riguardo:
(1) quando due spettrogrammi sono simili, tale similarità indica che si tratta dello stesso parlante o semplicemente che si tratta della stessa parola pronunciata?
(2) le similarità irrilevanti possono fuorviare una giuria composta da persone non esperte?
(3) quanto sono costanti i parametri della voce?
(4) quanto tali parametri sono caratterizzanti per il soggetto?
(5) questi parametri possono essere simulati o camuffati?
Nonostante questo metodo sia stato strenuamente difeso da Tosi (1979), abile nell’utilizzarlo in alcuni processi USA che ebbero una vasta eco, il 24 luglio del 2007 una risoluzione dell’Associazione Internazionale di Fonetica Forense e di Acustica (IAFPA) ha definitivamente deliberato che questo metodo è privo di fondamenti scientifici, dichiarando esplicitamente che esso non deve essere utilizzato in ambito forense.
5. La forza dell’evidenza
Nell’ottica del Giusto Processo la questione inerente la comparazione della voce può essere così formulata: qualcuno può essere riconosciuto in base alle caratteristiche della propria voce al di là di ogni ragionevole dubbio? In altre parole, si può essere certi che la voce intercettata sia proprio quella del sospettato? Poiché un processo, dopotutto, è un evento in cui si ‘decide’ sulla base di evidenze, un modo ragionevole di porre la questione potrebbe essere: qual è la probabilità che, data l’evidenza delle voci comparate, il parlato registrato della voce dell’anonimo e quello della voce nota appartengano alla stessa persona? Tuttavia, il perito fonico non può rispondere a questa domanda. È importante comprendere questo problema da cui deriva tutto quello che diremo in seguito. Perché? La risposta è che il perito fonico dovrebbe essere in grado di definire una soglia che marchi un confine netto tra la variabilità associata a uno stesso soggetto e la variabilità associata a soggetti diversi; tuttavia la sperimentazione e l'osservazione scientifica hanno dimostrato che tale confine non esiste (cfr. Robertson, Vignaux 1995; Aitken,Taroni 2004). Da un punto di vista tecnico questo significa che non è possibile valutare con certezza assoluta se due tracce vocali appartengano o meno allo stesso parlante, a meno che il perito non sia in grado di prendere in esame tutte, ma proprio tutte, le evidenze emergenti nel processo (a partire da quelle investigative). E in genere il perito fonico non è nelle condizioni di farlo. Eppure i Tribunali continuano a porre ai periti quesiti di questo tipoa cui i periti, solerti, rispondono.
Qui le cose si complicano, ma cercheremo di semplificarle aprendo un’altra prospettiva di analisi. La soluzione al problema è nota da circa tre secoli e si deve a Thomas Bayes e al teorema che porta il suo nome e che ha influenzato tutte le scienze contemporanee. Secondo il modello bayesiano nella comparazione della voce l’obiettivo è di valutare il rapporto tra la probabilità che due tracce vocali appartengano alla stessa persona e la probabilità che le tracce appartengano a persone diverse. Tale rapporto viene tecnicamente definito rapporto di verosimiglianza (Likelihood Ratio - LR) Invece di chiederci quanto è probabile che i campioni di voce del sospettato e del reo appartengano alla stessa persona, dobbiamo chiederci (cfr. Rose, 2005): quante probabilità ci sono che i campioni delle due voci, date alcune differenze fra di loro, siano stati prodotti dalla stessa persona piuttosto che da parlanti differenti appartenenti alla stessa popolazione? Se una delle due probabilità è marcatamente maggiore dell'altra, allora il rapporto di verosimiglianza può fornire evidenze (indicazioni) a favore di una certa ipotesi (per esempio, le voci appartengono alla stessa persona), in caso contrario le tracce vocali hanno scarsa valenza probatoria.
In quest’ottica, l’approccio prevede il confronto della voce dell’anonimo sia con la voce dell’imputato sia con le voci della popolazione di riferimento presenti in un database (dello stesso sesso, della stessa lingua, ecc.). Nella Figura 2 si può vedere rappresentato in modo schematico questo tipo di analisi, dove le caratteristiche della voce dell’intercettato, dell’imputato e della popolazione di riferimento (calcolate in valori formantici in Hz) sono riassunte nell’asse orizzontale del grafico. Come si può notare, sia le caratteristiche dell’imputato si quelle della popolazione di riferimento sono date da una serie di valori che formano delle curve. Ciò è dovuto al fatto che in entrambe i casi l’analisi viene effettuata, come abbiamo detto, su più campioni che presentano variabilità: intraparlatore nel caso dell’imputato, interparlatore nel caso della popolazione di riferimento (che contiene voci di diversi parlanti).
Da fonetica forense |
Figura 2: Confronto bayesiano tra anonimo (intercettato), imputato e popolazione di riferimento (adattata da Cerniglia, Lenti, Alderighi 2014).
All’intersezione fra le due curve si colloca la soglia che delimita la distanza al di sotto della quale è più verosimile che la voce dell’intercettato appartenga all’imputato, mentre al di sopra è più verosimile che appartenga ad una persona diversa. L’analisi statistica permette di calcolare l’errore di falso positivo (accettare che la voce dell’intercettato appartengaall’imputato quando in realtà così non è) e di falso negativo o di falsa esclusione dell’ipotesi (rifiutare che la voce dell’intercettato appartengaall’imputato quando in realtà così è). Nell’esempio in Figura 2, poiché le caratteristiche della voce dell’intercettato si trovano a destra della soglia identificata, è verosimile che le due voci appartengano a due persone diverse (Cerniglia, Lenti, Alderighi 2014).
Questa è l’evidenza che il perito fonico deve portare in tribunale, ovvero un ulteriore indizio a favore o sfavore di una certa ipotesi che, come tale, sarà il Giudice, tramite gli atti a sua disposizione il dibattimento, a inquadrare nell’ambito più complesso dell’intero Processo.
6. Conclusioni
Come abbiamo visto, l’approccio scientifico alla comparazione della voce è materia delicata e complicata che richiede conoscenze nel campo della linguistica, dell’acustica, del trattamento del segnale e della statistica. Non basta, come si crede, confrontare impressionisticamente alcuni spettrogrammi o calcolare le medie delle formanti vocaliche e vedere se quelle dell’anonimo e dell’imputato sono simili in termini di probabilità, ma si tratta di un lavoro lungo e meticoloso. Soprattutto, è fondamentale che il perito fonico sappia interpretare i dati ottenuti da un punto di vista forense. Allo stato attuale delle conoscenze scientifiche, l’unico metodo adatto allo scopo è quello del rapporto di verosimiglianza basato sulla Teoria diBayes.
All’interno di questa prospettiva ai fini della conoscenza scientifica della realtà ciò che conta non è solo la dimostrazione di una ipotesi, ma soprattutto la falsificazione di tutte le possibili ipotesi alternative, ovvero quelle che non risultano compatibili con l’analisi dei dati. Stimando le probabilità dell’evidenza (e non le probabilità di identificazione/non identificazione)rispetto alle ipotesi della difesa e dell’accusa si è in grado di operare secondo i principi del Giusto Processo, al di là di ogni ragionevole dubbio. Ignorare tale approccio è a proprio rischio e pericolo.
Bibliografia
Aitken C.G.G., Taroni F., Statistics and the Evaluation of Evidence for Forensic Scientits. Wiley, Chichester, 2004.
Bellucci, P., A onor del vero. Fondamenti di linguistica giudiziaria, Torino, Utet, 2005.
Bolt, R. H. Cooper, F. S., David, E. E., Denes, P. B., Pickett, J. M., Stevens, K. S., Speaker identification by speech spectrograms: some further observations, Journal of the Acoustical Society of America, 54, 2, 1973, 531–53.
Cerniglia, A., Lenti, M., Alderighi, M., Analisi e interpretazione di un segnale vocale in ambito giudiziario: un caso reale, Comunicazione presentata al 41° Congresso Nazionale dell’Associazione Italiana di Acustica, Pisa, 17-19 giugno 2014.
Fallone, A., Il processo aperto: il principio di falsificazione oltre ogni ragionevole dubbio nel processo penale, Milano, Giuffrè, 2012.
Ferrero, Franco E. & Magno Caldognetto, Emanuela, Elementi di fonetica acustica, in Trattato di foniatria e logopedia, a cura di L. Croatto, Padova, La Garangola, 1983-1988, 4 voll., vol. 3° (Aspetti fonetici della comunicazione), 1986, pp. 155-196.
Ferrua, P., Epistemologia scientifica ed epistemologia giudiziaria: differenze, analogie, interralazioni, Padova, CEDAM, 2007.
Grimaldi M., 1996, Aspetti pragmalinguistici, caratterizzazione del parlante e attività investigativa, in F. Fedi, A. Paoloni (a c. di), Caratterizzazione del Parlatore, Fondazione Ugo Bordoni, Roma, Vol. XXIII: 109-120.
Hollien, H., Status report of "voiceprint" identification in the United States, Occasionally, 2, 1977, 29–40.
Jessen, M., Forensic Phonetics, Language and Linguistics Compass 2, 4, 2008, 671–711.
Kersta, L. G., Voiceprint identification, Nature, 196, 1962, pp. 1253–1257.
Paoloni, A., Zavattaro, D., Intercettazionitelefoniche e ambientali, Torino, Centro Scientifico Editore, 2007.
Peterson, G. E. and Barney, H. L., Control methods used in a study of the vowels, Journal of the Acoustical Society of America, 24, 2, 1952, 175–184.
Robertson. B., Vignaux, G.A., Interpreting Evidence. Wiley, Chichester, 1995.
Romito L., Galata' V., Speaker Recognition in Italy: evaluation of method sused in forensic cases. Atti del convegno "4-CFE", Granada - Spagna, 11-14/02, 2008, A cura di Pamies A., Melguizo E., Método Ediciones: Granada, Spain, 2008, Vol. 1, pp. 229-240
Rose P., Forensic Speaker Identification, Taylor and Francis, London & New York, 2002.
Rose, P., Forensic speaker recognition at the beginning of the twenty-first century – An overview and a demonstration, Australian Journal of Forensic Sciences, 37, 2, 2005, 4–30.
Stevens, K. N, Carl. E W., Carbonell, J. R. and Woods B., Speaker authentication and identification: A comparison of spectrographic and auditory presentations of speech material, Journal of the Acoustical Society of America, 44, 1968, 1596–1607.
Stevens, K. N., Acoustic phonetics. Cambridge, MA: The MIT Press, 1998.