Jauh lebih mudah berbicara dengan ponsel cerdas daripada mencoba mengetik instruksi pada keyboardnya. Ini terutama benar ketika seseorang mencoba masuk ke perangkat atau sistem: Beberapa orang akan memilih untuk mengetikkan kata sandi aman yang panjang dan rumit jika alternatifnya hanya mengucapkan beberapa kata dan diautentikasi dengan suara mereka. Tetapi suara dapat direkam, disimulasikan atau bahkan ditiru, membuat otentikasi suara rentan terhadap serangan.
Metode paling umum untuk mengamankan otentikasi berbasis suara hanya melibatkan memastikan bahwa analisis frasa sandi lisan tidak dirusak mereka dengan aman menyimpan frasa sandi dan cetak suara pengguna yang sah dalam database terenkripsi. Tetapi mengamankan sistem otentikasi suara harus dimulai dengan suara itu sendiri.
Serangan termudah pada otentikasi suara adalah peniruan identitas: Temukan seseorang yang terdengar cukup mirip dengan orang sungguhan dan minta mereka untuk menanggapi petunjuk masuk. Untungnya, ada sistem verifikasi speaker otomatis yang dapat mendeteksi tiruan manusia. Namun, sistem tersebut tidak dapat mendeteksi serangan berbasis mesin yang lebih canggih, di mana penyerang menggunakan komputer dan speaker untuk mensimulasikan atau memutar ulang rekaman suara seseorang.
Jika seseorang merekam suara Anda, dia dapat menggunakan rekaman itu untuk membuat model komputer yang dapat menghasilkan kata apa pun dalam suara Anda, untuk selengkapnya di Kumpulan Berita Informasi Terpercaya. Konsekuensinya, dari menyamar sebagai Anda bersama teman-teman hingga masuk ke rekening bank Anda, sangatlah mengerikan. Penelitian yang saya dan kolega saya lakukan menggunakan properti fundamental dari speaker audio, dan sensor smartphone sendiri, untuk mengalahkan serangan yang dibantu komputer ini.
Bagaimana speaker bekerja
Speaker konvensional mengandung magnet, yang bergetar bolak-balik sesuai dengan fluktuasi sinyal listrik atau digital, mengubahnya menjadi gelombang suara di udara. Menempatkan speaker di depan mikrofon smartphone, misalnya, berarti memindahkan magnet sangat dekat ke smartphone. Dan sebagian besar ponsel cerdas memiliki magnetometer, chip elektronik yang dapat mendeteksi medan magnet. (Ini berguna saat menggunakan kompas atau aplikasi navigasi, misalnya.)
Jika smartphone mendeteksi magnet di dekatnya selama proses otentikasi suara, itu bisa menjadi indikator bahwa manusia sungguhan mungkin tidak sedang berbicara.
Memastikan itu orang yang berbicara
Itu hanya salah satu bagian dari sistem kami. Jika seseorang menggunakan speaker yang lebih kecil, seperti headphone, magnetometer mungkin tidak mendeteksi magnetnya yang lebih kecil. Jadi, kami menggunakan pembelajaran mesin dan matematika tingkat lanjut untuk memeriksa sifat fisik suara saat masuk ke mikrofon.
Sistem kami mengharuskan pengguna untuk memegang smartphone di depan wajahnya dan memindahkannya dari satu sisi ke sisi lain dalam setengah lingkaran sambil berbicara. Kami menggabungkan suara yang ditangkap mikrofon dengan data gerakan dari giroskop dan akselerometer di dalam smartphone aplikasi sensor yang sama digunakan untuk mengetahui saat Anda berjalan atau berlari, atau mengubah arah.
Dengan menggunakan data itu, kami dapat menghitung seberapa jauh suara dihasilkan dari mikrofon yang memungkinkan kami mengidentifikasi kemungkinan seseorang menggunakan speaker pada jarak tertentu sehingga magnetnya tidak akan terdeteksi. Dan kita dapat membandingkan pergerakan ponsel dengan perubahan suara untuk mengetahui apakah ia dibuat oleh sumber suara yang kira-kira seukuran mulut manusia di dekat ponsel.
Semua ini, tentu saja, bisa dikalahkan oleh peniru terampil manusia sungguhan yang meniru suara pengguna. Namun perlu diingat bahwa metode verifikasi pembicara yang ada dapat menangkap peniru identitas, menggunakan teknik pembelajaran mesin yang mengidentifikasi apakah pembicara memodifikasi atau menyamarkan suara normalnya. Kami memasukkan kemampuan itu ke dalam sistem kami juga.
Apakah deteksi berfungsi?
Ketika kami menguji sistem kami, kami menemukan bahwa ketika sumber suara berjarak 6 sentimeter (2 inci) dari mikrofon, kami selalu dapat membedakan antara manusia dan speaker yang dikendalikan komputer. Pada jarak itu, magnet di loudspeaker normal cukup kuat untuk mengganggu magnetometer ponsel dengan jelas. Dan jika penyerang menggunakan speaker earphone, mikrofon tersebut cukup dekat dengan sumber suara untuk mendeteksinya.
Jika sumber suara jauh dari mikrofon, gangguan magnetis dari speaker akan lebih sulit dideteksi. Juga lebih sulit untuk menganalisis pergerakan sumber suara dalam hubungannya dengan telepon jika jaraknya lebih jauh. Namun dengan menggunakan beberapa lini pertahanan, kami dapat mengalahkan sebagian besar serangan berbasis speaker dan manusia serta secara signifikan meningkatkan keamanan aplikasi seluler berbasis suara.
Saat ini, sistem kami adalah aplikasi yang berdiri sendiri, tetapi di masa mendatang kami akan dapat mengintegrasikannya ke dalam sistem autentikasi suara lainnya.