Audio Forensics – Intervista con Dr Robert C. Maher               Dr Rob Maher

Benvenuto al Dr. Robert C. Maher, esperto in Audio Forense e autore di uno dei più importanti libri di audio forense al mondo “Principles of Forensic Audio Analysis”.
Grazie per aver accettato il mio invito a parlare di audioforense. Guardando la sua biografia alla Montana State University possiamo leggere: “Il dottor Maher è un membro della Audio Engineering Society, un membro senior di IEEE, un membro associato dell’American Academy of Forensic Sciences e un membro di ASA, ASEE, Eta Kappa Nu, Tau Beta Pi, Phi Kappa Phi e Sigma Xi (copresidente del capitolo MSU). Nel tempo libero, il dottor Maher ama la musica, l’escursionismo e la corsa su strada e su pista. È stato presidente del
Big Sky Wind Drinkers running club e membro di diversi gruppi musicali amatoriali, tra cui la  Second String Orchestra e il coro della chiesa.”. Una grande esperienza! Ci Racconti qualcosa in più su di lei e sulla sua passione per l’audio e la musica:

Ho sempre desiderato avere abbastanza talento per poter diventare un musicista professionista, ma i miei talenti risiedono nel regno della matematica, della scienza e dell’ingegneria. Fortunatamente, ho potuto lavorare nel campo dell’ingegneria audio, che mi ha permesso di interagire con musicisti e compositori per molti anni.

Quando si è avvicinato per la prima volta all’audio forense e come?

La maggior parte della mia carriera fino al 2005 circa è stata nel campo dell’audio per l’intrattenimento: sintesi del segnale e miglioramento della qualità audio. Quando sono entrato a far parte della Montana State University, ho iniziato a cercare opportunità di nicchia per applicare l’elaborazione del segnale audio in modi che avrebbero avuto senso nel Montana, che non è un’area altamente connessa all’industria dell’intrattenimento. Ho iniziato a lavorare con il National Park Service per capire meglio il paesaggio sonoro naturale dei parchi e delle aree selvagge, e questo ha portato a un interesse nell’identificare e classificare i suoni nelle registrazioni a lungo termine. Più o meno nello stesso periodo, ricordo di aver ricevuto una telefonata da un avvocato difensore che aveva una registrazione da segreteria telefonica con il suono di uno sparo. L’avvocato ha chiesto se potevo analizzare quella registrazione e determinare l’esatta pistola che aveva emesso il suono, fino al numero di serie dell’arma da fuoco. Gli ho detto che non pensavo fosse possibile. Più tardi, ho iniziato a pensarci un po’ di più e ho deciso di saperne di più sulle caratteristiche dei suoni degli spari in modo da poter capire cosa fosse o non fosse possibile. Ciò alla fine ha portato a esperimenti, documenti di ricerca e quindi finanziamenti alla ricerca dal Dipartimento di giustizia degli Stati Uniti per studiare l’acustica degli spari.

C’è un caso interessante che vorrebbe condividere?

Uno dei miei primi casi significativi riguardava una registrazione di un call center di emergenza. L’operatore ha risposto alla chiamata, ma non è riuscito a sentire nessuno dall’altra parte. Dopo 20-30 secondi, l’operatore ha rinunciato e ha riattaccato. Si è scoperto che la vittima di un rapimento (e poi omicidio) era riuscita ad avviare la telefonata con il suo cellulare, ma poi non poteva parlare perché il rapitore era nelle vicinanze. Tuttavia, alcune espressioni pronunciate dal rapitore sono state riprese dalla registrazione della telefonata, anche se l’operatore del call center non le aveva sentite. Il mio lavoro è stato migliorare le espressioni di sottofondo in modo che i testimoni potessero verificare l’identità del rapitore.

Un caso famoso?

Forse il caso più “famoso” in cui sono stato coinvolto è accaduto molto di recente. Questo riguardava le registrazioni audio del recente caso della sparatoria alla giornalista di Al Jazeera Shireen Abu Akleh nella città di Jenin, in Cisgiordania. Sono stato contattato per la prima volta l’11 maggio 2022, il giorno della sparatoria, dai giornalisti di un’agenzia investigativa indipendente Bellingcat (dai Paesi Bassi) in merito ai suoni di spari che avevano in alcune registrazioni di telefoni cellulari generate dagli utenti e in una delle telecamere del giornalista durante la sparatoria a Jenin. Insieme a spari lontani, ho immediatamente riconosciuto che ciò che la registrazione conteneva era lo schiocco di un proiettile supersonico che passava il microfono, seguito dall’arrivo del colpo di volata dell’arma da fuoco. Il proiettile del fucile supersonico scende di 2-3 volte la velocità del suono, quindi l’intervallo di tempo tra l’onda d’urto del proiettile e l’arrivo del suono dell’esplosione della volata fornisce un’indicazione della distanza del tiratore, se la velocità del proiettile è nota o stimata.
I giornalisti di Bellingcat hanno combinato queste informazioni acustiche forensi con altre prove che avevano raccolto, quindi hanno “sgominato” la concorrenza quando il loro rapporto è apparso il 14 maggio, pochi giorni dopo la sparatoria dell’11 maggio.
Più o meno nello stesso periodo, i giornalisti della CNN mi hanno contattato con un video aggiuntivo dalla scena che includeva più prove acustiche di spari che ho interpretato per loro. La CNN ha lanciato il suo rapporto il 26 maggio.
Inoltre, un giornalista del New York Times mi ha contattato diverse settimane fa, ma hanno ritardato il loro rapporto mentre lavoravano per ottenere maggiori informazioni dai testimoni e foto della scena. Il rapporto del New York Times, inclusa la mia interpretazione audio-forense, è apparso il 20 giugno.

Quali sono gli obiettivi che ha visto superare negli ultimi anni in Audio Forensics?

Trovo che le tre aree chiave dell’analisi forense dell’audio siano autenticità, miglioramento e interpretazione.
L’autenticità è importante nelle indagini forensi perché le circostanze della registrazione hanno un effetto significativo sulle conclusioni che l’investigatore trae dalle prove audio, in particolare verificando l’assenza di alterazioni involontarie o deliberate alla registrazione.
Il miglioramento dell’audio di solito significa cercare di rendere intelligibile il parlato degradato o di individuare i suoni di sottofondo parzialmente oscurati dal rumore. Gli esami audio forensi spesso implicano registrazioni effettuate di nascosto o in circostanze che non consentivano il posizionamento ideale del microfono o il rapporto segnale-rumore ottimizzato.
L’interpretazione delle prove audio può comportare molte domande di interesse forense, come la ricostruzione delle linee temporali, la trascrizione dei dialoghi, la determinazione degli intervalli di tempo tra gli eventi e l’identificazione di suoni sconosciuti. La maggior parte del mio lavoro di audioforense rientra in questa categoria: scrivere rapporti per documentare come i suoni registrati possono informare le indagini sull’incidente.

L’analisi forense dell’audio include molte sfaccettature, come il ripristino, l’analisi delle manomissioni e, naturalmente, anche le trascrizioni. Molti software sono stati sviluppati e continuamente aggiornati in tal senso, ma c’è un campo in cui, ahimè, secondo me non ci siamo ancora. Confronto vocale. Personalmente ho avuto modo di testare i migliori software di confronto automatico sul mercato, con risultati infruttuosi. Sto parlando di comparazione della mia voce rispetto alla mia stessa voce in diverse condizioni di registrazione. Qual’è la sua esperienza al riguardo?

Nella mia esperienza, un esaminatore audio forense viene solitamente contattato quando la qualità della registrazione non è particolarmente buona, con molta distorsione, rumore e altro degrado. Altre situazioni riguardano il parlato che è stato inviato tramite un codificatore digitale da un canale di un telefono cellulare e quindi presenta artefatti di codifica non lineare oltre a rumore e distorsione. Allo stato attuale, questi tipi di segnali non sono ben elaborati automaticamente dai sistemi software esistenti. Sono particolarmente preoccupato per il fatto che funzionari e avvocati dei tribunali possano essere inclini ad attribuire a questi sistemi software più affidabilità di quanto sia appropriato, e sono necessarie molte ricerche per valutare la coerenza e l’affidabilità del confronto vocale e di altre applicazioni, in particolare quelle che affermano ” intelligenza artificiale” è coinvolta.

Lei crede che un giorno sarà possibile affermare con assoluta certezza che una voce appartenga o meno a una persona come per le impronte digitali, oppure saremo sempre alla mercé della probabilità statistica per i limiti che la voce impone a livello scientifico?

Non credo sia ragionevole aspettarsi una certezza assoluta dal confronto vocale. La corte avrebbe bisogno di elaborare un modo per valutare l’incertezza di questo tipo di identificazione, dal momento che i parametri acustici coinvolti sono suscettibili di molte deviazioni a seconda delle circostanze della registrazione: quanto è stanco l’oratore, qual è lo stato emotivo, ha raffreddore o mal di gola, ecc. Queste variazioni naturali anche dal discorso registrato da un oratore noto devono essere comprese, specialmente come questi cambiamenti non possono essere previsti in una data registrazione.

Nel mio paese, l’Italia, in genere l’esperto di audioforense viene spesso confuso con, ad esempio, il trascrittore esperto. Non esiste una cultura e una conoscenza dell’audio forense da parte di avvocati o forze dell’ordine. Com’è la situazione negli Stati Uniti?

Negli Stati Uniti, c’è sicuramente lavoro per la trascrizione del dialogo parlato, ma ho scoperto che i tribunali generalmente non introducono trascrizioni soggettive come prova, a meno che entrambe le parti (accusa e difesa) stabiliscano l’utilità e l’affidabilità della trascrizione. Gli Stati Uniti hanno un sistema di giustizia contraddittoria, quindi spesso le due parti non sono d’accordo sulla trascrizione, e quindi il tribunale può invece chiedere alla giuria di ascoltare la registrazione e giungere a una conclusione su ciò che viene detto.
La maggior parte del mio lavoro nell’audio-forense rientra nella categoria dell’interpretazione: identificare quanto tempo è trascorso tra i diversi eventi, contare il numero di spari o determinare quando un particolare individuo ha fatto una dichiarazione udibile (ad esempio, “Ferma, questa è la Polizia!”)

Nella sua esperienza ci sono grandi differenze tra USA ed Europa per quanto riguarda i metodi di Audio Forensics?

Penso che i metodi degli esaminatori audio forensi siano probabilmente molto simili, ma penso che il ruolo degli esaminatori in tribunale possa essere diverso. Non sono stato direttamente coinvolto in nessuna indagine penale europea.

Al momento non ci sono studi universitari, almeno in Italia, che portino ad un adeguato background di Audio Forensics. Quali studi secondo lei potrebbero portare, se possibile, a un percorso di laurea adatto a un esperto di audioforense abbastanza preparato?

Penso che sia difficile definire un curriculum esatto per l’audioforense, ma la mia inclinazione è quella di avere un background universitario completo in matematica e scienze. Preferisco chiaramente le persone che capiscono l’ingegneria audio e abbiano abilità e formazione nell’elaborazione del segnale digitale e nell’acustica. È necessaria una comprensione dei punti di forza e di debolezza fisici della registrazione e dell’analisi audio, nonché una chiara comprensione dell’etica professionale. Ad esempio, essere sufficientemente indipendenti e fiduciosi per evitare pregiudizi e influenze degli investigatori e degli avvocati. Spesso un esaminatore è costretto a trarre una conclusione particolare.

L’Audio Forensics è molto complessa, ed erroneamente potrebbe essere inserita solo nell’ambito linguistico o fonico, o in generale e impropriamente in quello digitale forense. Personalmente vengo dal mondo dell’ingegneria audio e della registrazione in studio, e anche dell’ascolto tecnico musicale come musicista. Dopo molti anni di abitudine all’ascolto tecnico mi sono specializzato in Audio forense.
Qual è secondo lei l’ambito professionale che meglio si presta all’approccio dell’audio forense?

Penso che un background formale in ingegneria a livello universitario sia una buona base per l’analisi forense dell’audio. La maggior parte delle persone in linguistica ha uno studio molto limitato in matematica e nell’elaborazione dei segnali, e questa mancanza di formazione rende difficile la loro comprensione della fisica e i principi scientifici coinvolti nell’acustica e nell’interpretazione delle registrazioni audio.

Ci sono delle linee guida nell’audioforense negli Stati Uniti? Se si, redatte da chi?

Stanno iniziando a esserci varie linee guida e “best practice” per l’analisi forense dell’audio, ma non è ancora chiaro come queste linee guida vengano applicate. Il gruppo di lavoro scientifico sulle prove digitali (SWGDE) è un gruppo che sta cercando di far adottare e accettare alcuni standard e linee guida dai professionisti.

Che consiglio darebbe a chi vuole avvicinarsi a questo mondo?

Consiglio alle persone interessate all’analisi scientifica del materiale audio di cercare una laurea regolare in ingegneria o scienze fisiche. Ci sono certamente opportunità anche per i tecnici che si occupano della gestione e dell’elaborazione iniziale dei dati.

Grazie mille per il suo tempo!


Welcome to Dr. Robert C. Maher, author of one of the best audio forensics book worldwide “Principles of Forensic Audio Analysis”. Thank you for accepting my invitation to speak about audio forensics. Looking your bio at Montana State University we can read: “Dr. Maher is a Fellow of the Audio Engineering Society, a Senior Member of IEEE, an Associate Member of the American Academy of Forensic Sciences, and a member of ASA, ASEE, Eta Kappa Nu, Tau Beta Pi, Phi Kappa Phi, and Sigma Xi (MSU chapter co-chair). In his spare time, Dr. Maher enjoys music, hiking, and both road and trail running. He is past-president of the local Big Sky Wind Drinkers running club, and member of several amateur music groups including the Second String Orchestra (cellist), and church choir (bass/baritone). He and his wife have two grown sons.” A huge experience. Tell us something more about you, and your passion for audio and music:

I have always wished that I was sufficiently talented to be a professional musician, but my talents lie in the realm of math, science, and engineering. Fortunately, I have been able to work in the general field of audio engineering, which has allowed me to interact with musicians and composers over many years.

When you first approached audio forensics and how?

The majority of my career up to 2005 or so had been in the field of entertainment audio: signal synthesis and audio quality enhancement. When I joined Montana State University, I started looking for niche opportunities to apply audio signal processing in ways that would make sense in Montana, which is not an area highly connected to the entertainment industry. I started to work with the National Park Service to understand more about the natural soundscape of parks and wilderness areas, and that led to an interest in identifying and classifying sounds in long-term recordings.About that same time, I remember receiving a telephone call from a defense attorney who had a telephone answering machine recording of the sound of a gunshot. The attorney asked if I could analyze that recording and determine the exact gun that had made the sound—like right down to the serial number of the firearm. I told him that I did not think it was possible. Later, I started to think about it some more, and I decided to learn more about the characteristics of gunshot sounds so that I could understand what was and was not possible. That eventually led to experiments, research papers, and then research funding from the U.S. Department of Justice to study gunshot acoustics.

Is there a nice case you would like to share?

One of my first significant cases involved an emergency call center recording. The dispatch operator answered the call, but could not hear anyone on the other end. After 20-30 seconds, the operator gave up and hung up the phone. It turned out that the victim of a kidnapping (and later murder) had managed to initiate the call with her cell phone, but then could not speak because the kidnapper was nearby. Nevertheless, some utterances spoken by the kidnapper were picked up by the phone call recording, even though the emergency call center operator had not heard them. My work was to enhance the background utterances so that witnesses could verify the kidnapper’ s identity.

A famous case?

Perhaps the most “famous” case I was involved in happened very recently. This was regarding audio recordings from the recent case of the shooting of Al Jazeera journalist Shireen Abu Akleh in the West Bank town of Jenin. I was first contacted May 11, 2022, the day of the shooting, by reporters from an independent investigation agency Bellingcat (from the Netherlands) regarding the gunshot sounds they had in some user generated cell phone recordings and one of the reporter’s cameras at the shooting scene in Jenin. Along with distant gunfire, I immediately recognized that what the recording contained was the crack of a supersonic bullet passing the microphone, followed by the arrival of the muzzle blast of the firearm. The supersonic rifle bullet gets down range 2-3 times the speed of sound, so the time gap between the shock wave from the bullet and the arrival of the muzzle blast sound gives an indication of distance of the shooter, if the speed of the bullet is known or estimated.
The Bellingcat reporters combined this forensic acoustic information with other evidence they had gathered, so they “scooped” the competition when their report appeared May 14, just a few days after the May 11 shooting.
About that same time, CNN reporters contacted me with additional video from the scene that included more gunshot acoustic evidence that I interpreted for them. CNN issued their report on May 26.
Also, a reporter from the New York Times contacted me several weeks ago, but they delayed their report as they worked on getting more information from witnesses and photos from the scene. The New York Times report, including my audio forensic interpretation, appeared on June 20.

What are the goals you have seen cut in recent years in Audio Forensics?

I find that the three key areas of audio forensic analysis are authenticity, enhancement, and interpretation.
Authenticity is important in forensic investigations because the circumstances of the recording have a significant effect upon the conclusions the investigator draws from the audio evidence—particularly verifying the absence of inadvertent or deliberate alterations to the recording.
Audio enhancement usually means trying to make degraded speech intelligible, or pick out background sounds partially obscured by noise. Forensic audio examinations often involve recordings made surreptitiously or under circumstances that did not permit ideal microphone placement or optimized signal-to-noise ratio.
Interpretation of audio evidence may involve many questions of forensic interest, such as reconstructing timelines, transcribing dialog, determining time intervals between events, and identifying unknown sounds. Most of my own audio forensic work falls into this category: writing reports to document how the recorded sounds can inform the investigation of the incident.

Audio forensics includes many facets, such as restoration, tampering analysis, and of course transcripts as well. Many software have been developed and continuously updated in this regard, but there is a field in which, alas, in my opinion we are not yet. Voice Comparison. Personally I have had the opportunity to test the best automatic comparison software in the market, with unsuccessful results. I’m talking about my voice vs my voice in different recording conditions. What is your experience about?

In my experience, an audio forensic examiner is usually contacted when the quality of the recording is not particularly good, with lots of distortion, noise, and other degradation. Other situations involve speech that has been sent through a digital coder from a cell phone channel, and therefore has nonlinear coding artifacts in addition to noise and distortion. At present, these types of signals are not well processed automatically by existing software systems. I am particularly concerned that court officials and advocates may be inclined to attribute more reliability to these software systems than is appropriate, and a great deal of research is needed to assess the consistency and reliability of voice comparison and other applications, especially those that claim “artificial intelligence” is involved.

Do you think that one day it will be possible to assert with absolute certainty that a voice does or does not belong to a person as for fingerprints, or will we always be at the mercy of statistical probability due to the limits that the voice imposes on a scientific level?

I do not believe it is reasonable to expect absolute certainty with voice comparison. The court would need to develop a way to evaluate the uncertainty of this sort of identification, since the acoustic parameters involved are susceptible to many deviations depending upon the circumstances of the recording:  how tired is the talker, what is the emotional state, do they have a cold or sore throat, etc. These natural variations even from speech recorded by a known talker must be understood, especially how these changes cannot be predicted in any given recording.

In my country, Italy, in general audio forensics expert are often confused with, for example, experienced transcriber. There is not an audio forensics culture and knowledge by lawyers or law enforcements. How is the situation in the United States? 

In the U.S., there is certainly work for transcription of spoken dialog, but I have found that courts generally do not introduce subjective transcripts as evidence, unless both sides (prosecution and defense) stipulate to the usefulness and reliability of the transcript. The U.S. has an adversarial justice system, so often the two sides will not agree on the transcript, and therefore the court may instead have the jury listen to the recording and come to their own conclusion about what is being said.
As I noted above, most of my work in audio forensics is in the category of interpretation: identifying how much time transpired between different events, counting the number of gunshots, or determining when a particular individual made an audible statement (e.g., “Freeze, this is the Police!”)

In your experience there are big differences between USA and Europe regarding Audio Forensics methods ?

I think the methods of the audio forensic examiners is likely very similar, but I think the role of the examiners in court may be different. I have not been directly involved in any European criminal investigations.

At the moment there are no university studies, at least in Italy, that lead to a proper Audio Forensics background. What studies do you think could lead, if possible, to a degree path suitable for a fairly prepared audio forensics expert?

I think it is hard to define an exact curriculum for audio forensics, but my inclination is to have a full college-level background in math and science. I clearly prefer individuals who understand audio engineering, such as having skill and training in digital signal processing and acoustics. There is a need for an understanding of the physical strengths and weaknesses of audio recording and analysis, as well as a clear understanding of professional ethics. For example, being sufficiently independent and confident to avoid biases and influences of the investigators and attorneys. Often an examiner is pressured to come up with a particular conclusion.

Audio Forensics is very complex, and mistakenly it could be inserted only in the linguistic or sound engineering field, or generally and improperly in digital forensics. I personally come from the world of audio engineering and studio recording, and also of music technical listening as a musician. After many years of being used to technical listening I specialized in Audio forensics. 
In your opinion, what is the professional field that best lends itself to the approach of forensic audio?

As I noted above, I find that a formal college-level background in engineering is a good basis for audio forensic analysis. Most individuals in linguistics have very limited study in mathematics and signal processing, and this lack of training makes it difficult for them to understand the physics and scientific principles involved in acoustics and interpretation of audio recordings.

Are there any guidelines in audio forensics in the United States? If yes, drawn up by whom?

There are starting to be various guidelines and “best practices” for audio forensics analysis, but it is not clear how these guidelines are being enforced yet.  The Scientific Working Group on Digital Evidence (SWGDE) is one group that is trying to get some standards and guidelines adopted and accepted by practitioners.

What advice would you give to those who want to approach this world?

As you can tell, I advise people interested in scientific analysis of audio material to seek a regular college degree in engineering or the physical sciences. There are certainly opportunities for technicians who do the initial data handling and processing, too.

Thank you for your time

Informazioni e Preventivi

Legal Mail (PEC): marcoperino@pec.it

WhatsApp

+390159526958