Smart speaker, si avvicina l'era dei pagamenti digitali

La tecnologia è già pronta. Google e Amazon mettono a disposizione i loro servizi “Pay”; in alternativa lo sviluppatore può scegliere di configurare un metodo merchant-managed, che sfrutta cioè le API custom esposte dal venditore. La sicurezza è ancora un ostacolo

“Alexa, paga la bolletta della luce”. Da un po’ di tempo si parla della possibilità di effettuare pagamenti digitali semplicemente chiedendolo ai nostri smart speaker. Chiaramente la “rivoluzione” non riguarda solo il pagamento delle utenze ma anche, ad esempio, inviare denaro ad amici o ricaricare il proprio conto telefonico. Si tratta di alcuni dei casi d’uso abilitati dalle tecnologie di Natural Language Processing (NLP) messe a disposizione dagli ecosistemi Google e Amazon.

I due colossi del web già da qualche anno hanno introdotto sul mercato italiano le loro famiglie di dispositivi con UI vocale. Nonostante questi oggetti siano stati molto ben accolti dagli italiani, quando c’è da acquistare qualcosa – vuoi per un fatto culturale o vuoi per scetticismo – c’è poco da fare: usiamo lo smartphone o addirittura apriamo il notebook.

Quali sono gli aspetti da prendere in considerazione quando si vuole sviluppare una app di pagamenti vocali? Quali sono le tendenze di mercato? Quali sono i vincoli tecnici e di compliance?

Indice degli argomenti

Il canale vocale, traguardo della Human Computer Interaction (HCI)

Il canale vocale è un traguardo della Human Computer Interaction (HCI), fra l’altro previsto già in Star Trek nel 1966. Utilizzare le UI vocali ha il chiaro vantaggio di non disturbare il nostro senso principale: la vista. Gli occhi sono di gran lunga il modo con cui raccogliamo più informazioni dall’ambiente. In alcune circostanze, distogliere lo sguardo può rappresentare addirittura un pericolo, ad esempio quando siamo alla guida. L’interazione vocale ci aiuta a rendere più efficiente la nostra vita. Essendo infatti un canale parallelo a quello della vista, ci permette di accedere a funzioni extra lasciandoci continuare a svolgere le nostre attività in sicurezza.

Oltre a essere eyes-free, il canale vocale è anche hands-free. Se abbiamo le mani occupate, le app vocali – cosiddette skills – ci vengono in aiuto. Questo, unito alla simmetricità del canale voice (usiamo lo stesso mezzo trasmissivo sia per ascoltare che per rispondere), rende l’interazione vocale quella che più si avvicina alla natura dell’essere umano.

Purtroppo però il canale vocale ha il brutto vizio di essere lineare e transiente. Il contrario dei display insomma, che forniscono immagini bidimensionali e che rimangono lì finché non lo decidiamo noi. Cambia pertanto drasticamente il paradigma della progettazione delle applicazioni, e questo ha impatto ovviamente anche nel mondo dei pagamenti. Vi ci vedete a dettare un IBAN ad Alexa? Questo vuol dire che uno smart speaker non può essere utilizzato per effettuare pagamenti digitali?

Smart speaker, pagare usando la voce

È evidente quindi che – perlomeno quando si parla di pagamenti – il più delle volte la UI vocale può rappresentare uno “shortcut” verso azioni frequenti e pre-configurate. Ad esempio, se devo mandare dei soldi a Giorgio, l’applicazione vocale deve attingere dal database degli utenti per recuperare l’IBAN o la mail di Giorgio. Se voglio ricaricare il mio numero di telefono, questo deve essere pre-digitato nella pagina profilo. Se devo pagare la bolletta di gennaio, la skill deve prelevare gli estremi di pagamento della fattura.

La potenza del Natural Language Processing (NLP) è quella di riuscire a catturare in una sola interazione una serie dinamica di parametri. Invia 20 euro a Daniele. Rateizza la bolletta della luce in 4 settimane. Quanto ho speso al pub la scorsa notte? Ripeti l’ordine del sushi della scorsa settimana. Fate l’esercizio di pensare a quanti click vi siete risparmiati. Avreste dovuto prima trovare il cellulare (“Dove l’ho messo?”). Poi avreste dovuto inserire il codice di sblocco, aprire l’app, fare il login, selezionare la funzione e inserire i parametri in un form, magari dovendo cercare le opzioni in lunghi elenchi. Forse ci è quasi passata la voglia di sushi.

La voce è il doppio click dell’IoT, l’NLP è il suo interprete e i pagamenti la killer application.

Il mercato dei pagamenti digitali “vocali”

A volte, dare un occhio oltreoceano è come guardare in una sfera di cristallo: si vede il futuro. E quello che si vede è un futuro roseo per i pagamenti con la voce. Una ricerca dell’osservatorio americano Business Insider ha evidenziato come il popolo a stelle e strisce – già avvezzo per cultura alle operazioni per così dire “fast & smart” (pensate agli ordini in auto dal McDonald) – sia in piena fase di transizione dei pagamenti sul canale vocale.

Nel 2017, l’8% degli intervistati ha dichiarato di aver usato almeno una volta i comandi vocali per comprare qualcosa, inviare soldi a un amico o pagare una bolletta. Una percentuale già elevatissima 4 anni fa (un miraggio per l’Italia, anche oggi) ma che è destinata a salire ulteriormente, dato che le stime dicono che nel 2022 un americano su tre userà la voce per spostare denaro. Questo grazie a tre fattori chiave: una esplosione del numero di device voice-enabled, un “guadagno generazionale” dell’intelligenza artificiale, e una offerta più ricca per il consumatore.

La risposta di GAFA (Google Apple Facebook Amazon) non si fa di certo attendere, anzi sono proprio quelli che stanno realizzando i servizi che renderanno possibile la prossima generazione dei pagamenti. Così come le banche non stanno certo a guardare: Bank of America, Capital One, USAA e altre hanno già scommesso da tempo sulla AI e i pagamenti con la voce.

Banche e pagamenti con la voce in Italia

Il volume “Digital Banking e FinTech. L’intermediazione finanziaria tra cambiamenti tecnologici e sfide di mercato” uscito nel 2020 con Bancaria Editrice ha disegnato la situazione della digital transformation nel settore finanziario in Italia. Il volume riporta anche i contributi di importanti attori del sistema finanziario italiano, quali Intesa Sanpaolo, Gruppo Sella, Banca Popolare di Puglia e Basilicata, Credimi, Illimity, Supernovae Labs, che hanno maturato esperienze interessanti nell’ambito della digital transformation, ivi incluso il dominio dei pagamenti con la voce.

Fra le diverse esperienze raccontate spicca quella di Banca Sella, che nel 2018 ha lanciato la prima applicazione di voice banking italiana per Google Assistant. Il progetto pilota, che permette di effettuare ricariche telefoniche e di carte prepagate, ha visto la luce grazie alla collaborazione della banca con una start-up pugliese sua partecipata. L’iniziativa è stata poi seguita anche da Widiba, banca online con un occhio particolare all’innovazione tecnologica.

Il problema della sicurezza

Una delle grandi sfide dell’innovazione tecnologica è quella di dover conciliare user experience e sicurezza. Ogni volta che si introduce nuova tecnologia sul mercato si generano nuovi rischi per l’utente. Questi possono essere mitigati attraverso tecniche specifiche di sicurezza, che però intaccano l’experience portata dall’innovazione. Veramente un controsenso!

Il canale vocale non è esente da rischi, e non c’è nemmeno bisogno di pensare a sofisticate tecniche di hacking: basta utilizzare un classico replay attack. Per chi non lo sapesse, il replay attack è la tecnica che consiste nell’ascoltare e registrare un messaggio inviato sulla rete, in modo da poterlo riprodurre successivamente per confondere il destinatario che penserà di parlare con un soggetto in buona fede.

Gli smart speaker offrono una funzionalità chiamata “voice match”. In fase di configurazione, l’assistente ci chiede di pronunciare delle frasi in modo da imparare a riconoscere il nostro timbro. Il voice match è ottimo per fornire servizi personalizzati in un contesto popolato da diverse persone: playlist Spotify su misura, ricette idonee alla dieta, ultime notizie sulla squadra del cuore, ecc. Se lo vogliamo utilizzare come meccanismo di sicurezza, invece, fallisce miseramente. Fate una prova: fatevi inviare da un vostro convivente un messaggio vocale su WhatsApp con la frase “Alexa, come mi chiamo?”. Poi fate play vicino all’Amazon Echo. Potete immaginare il risultato.

Per questo motivo le skill di pagamenti richiedono uno step aggiuntivo di autorizzazione, che può consistere nella pronuncia di un codice segreto – meglio se temporaneo (One Time Password) e ricevuto sul cellulare. Brutta storia per la User Experience. Insomma si può sicuramente fare di meglio. Per il futuro ci possiamo probabilmente aspettare un utilizzo combinato di più tecniche di riconoscimento biometrico, unite all’utilizzo di informazioni di posizione derivanti dall’Internet of Things e tecniche di machine learning per identificare scenari anomali di utilizzo del canale vocale. Insomma, volendo utilizzare uno smart speaker per effettuare pagamenti digitali dobbiamo necessariamente coinvolgere altre tecnologie per garantirne la sicurezza.

Lo stato dell’arte della tecnologia

La tecnologia per i pagamenti è prontissima. Per quanto riguarda il pagamento in sé, sia Google che Amazon mettono a disposizione (manco a dirlo) i loro servizi Google Pay e Amazon Pay. In alternativa lo sviluppatore può scegliere di configurare un metodo merchant-managed, che sfrutta cioè le API custom esposte dal venditore.

Per quanto riguarda la experience di pagamento, ci sono delle differenze. Su Google è obbligatorio usare le Transaction APIs per veicolare un acquisto fatto tramite voce. In sostanza l’applicazione deve consegnare a Google i dati dell’ordine, così che venga creata una scheda di riepilogo visiva che i device dotati di display (il Google Nest Hub ad esempio) mostrano all’utente. Se il dispositivo non è dotato di display (come il Google Home), allora l’experience si sposta sullo smartphone dell’utente. Insomma, Google non se la sente di veicolare acquisti “alla cieca”.

Su Alexa invece è possibile iniziare e completare il processo di acquisto sullo stesso dispositivo, anche senza display. Alexa soffre però di un grosso limite di compliance: in Europa non è possibile veicolare Personal Financial Information (PFI). Le guideline di sviluppo vietano infatti di fornire informazioni quali il saldo del conto o gli ultimi movimenti della carta. Questo probabilmente perché Amazon teme che queste informazioni possano essere registrate e violate in qualche modo. Questo è un limite che vale sono sul territorio europeo, dato che ad esempio in USA, India e UAE esistono da anni skill che gestiscono PFI. Fa eccezione una banca inglese (Starling Bank) che è riuscita a vedere certificata la sua skill già nel 2017, probabilmente per via di alcuni accordi commerciali con Amazon.

Conclusioni

Al lettore che vorrà vedere ampliate le potenzialità finanziarie di Alexa, chiedo di andare a questo link e votare la relativa feature request. Amazon attinge dai suggerimenti degli utenti su questo portale per pianificare il rilascio di nuove funzionalità. Chi lo sa se in un futuro abbastanza breve Amazon possa decidere di sciogliere questo nodo e permettere finalmente skill finanziarie complete anche in Europa.

Smart speaker, si avvicina l’era dei pagamenti digitali

Il canale vocale, traguardo della Human Computer Interaction (HCI)

Smart speaker, pagare usando la voce

Il mercato dei pagamenti digitali “vocali”

Banche e pagamenti con la voce in Italia

Il problema della sicurezza

Lo stato dell’arte della tecnologia

Conclusioni

Articoli correlati

Smart speaker, si avvicina l’era dei pagamenti digitali

Il canale vocale, traguardo della Human Computer Interaction (HCI)

Smart speaker, pagare usando la voce

Il mercato dei pagamenti digitali “vocali”

Banche e pagamenti con la voce in Italia

Il problema della sicurezza

Lo stato dell’arte della tecnologia

Conclusioni

Articoli correlati

UE verso la sovranità digitale, è tempo del Chips Act

Codice Rss

Codice Rss