歐洲首例AI詐騙!用CEO聲音騙走22萬,逼真語音合成只需1分鍾錄音

想到可以利用AI進行詐騙的可不止一些初創公司,當下AI技術如此發達,換臉都能輕松實現,那聲音呢?

提到這種變聲技術,可能最先想到的是《名偵探柯南》中柯南使用的蝴蝶結變聲器,柯南正是利用阿笠博士的這個發明把“沉睡的毛利小五郎”捧上了偵探界的神壇。

但是試想,如果有人把這項技術用於詐騙,是不是頓時後背發涼?

據《華爾街日報》報道,今年3月份,有犯罪分子就使用了類似的AI技術,他們成功模仿了英國某能源公司在德國母公司CEO的聲音,詐騙了220,000歐元(約1,730,806人民幣)。

網絡犯罪專家稱,這是黑客攻擊中利用AI技術的一次不尋常案例。

三次電話,損失22萬歐元

案發時,該公司的CEO誤以為他正在與他的老板,也就是德國母公司的CEO通電話,老板要求他將資金彙給匈牙利供應商。據該公司的保險公司Euler Hermes Group SA稱,來電者表示該請求非常緊急,要求行政人員在一小時內付款。

慕尼黑的金融服務公司Allianz SE旗下子公司Euler Hermes的欺詐專家Rüdiger Kirsch說,犯罪分子總共打了三次電話。220,000歐元轉移後,他們打電話說母公司已經轉移資金償還英國公司,然後他們在當天晚些時候進行了第三次電話會議,再次冒充首席執行官,要求第二次付款。由於轉賬償還資金還沒有到來,而第三次電話是來自奧地利的電話號碼,行政部門開始懷疑,沒有支付第二筆款項。

根據Kirsch先生的說法,轉入匈牙利銀行賬戶的資金隨後轉移到墨西哥並分發到其他地方,調查人員沒有發現任何嫌犯,而且,Euler Hermes承擔了受害公司索賠的全部金額,但沒有處理要求追回涉及AI犯罪損失的索賠。

Kirsch先生認為,使用AI詐騙對公司來說是新的挑戰,傳統網絡安全工具無法發現欺騙性的聲音,而黑客往往就是使用商業語音生成軟件進行攻擊。Kirsch先生用這種產品錄制了自己的聲音,並說複制版本聽起來很真實。

目前還不清楚攻擊者是否使用機器人對受害者的問題作出反應。歐洲刑警組織歐洲網絡犯罪中心戰略負責人菲利普·阿曼說,如果他們這樣做,執法當局調查可能會更加困難。Kirsch先生說,警方對此案的調查已經結束,歐洲刑警組織沒有參與。

從語音轉發到語音複制,聲音還有多少可信度?

其實,執法當局和AI專家早有預言,犯罪分子將使用AI進行自動化網絡攻擊。無論是誰策劃了這一事件,他們都已經使用AI軟件成功地通過電話模仿了德國高管的聲音。

雖然有歐洲官員表示,這是他們第一次聽說在歐洲發生AI變聲語音詐騙,而且犯罪分子明顯依賴於AI變聲技術,但這遠非第一起利用語音進行詐騙的案件,在國內,變聲技術早已被用於網絡詐騙中,人民網微博最早在去年八月就發布了利用微信語音詐騙的案件消息。

犯罪分子利用的是一種名叫“增強版微信”的軟件,這種“增強版微信”具有能夠轉發語音消息、克隆好友朋友圈、看到對方撤回的消息等功能。

據稱,這些功能都是服務於一些“特殊用戶”的,比如自定義位置,就能讓客戶在國內實現海外“雲度假”,或者讓一些商家假裝自己是“海外代購”等。

脫離微信而言,利用聲音合成技術也已經實現了語音複制。

去年,三名蒙特利爾大學博士聯合創辦的名為“琴鳥”(Lyrebird)的公司開發出了一種“語音合成”技術,只要對目標人物的聲音進行1分鍾的錄音,丟給“Lyrebird”處理,就能得到一個特別的密鑰,利用這個密鑰可以生成目標人物任何想說的話。

“琴鳥”(Lyrebird)不僅能利用語音模仿演算模仿出任何人的聲音,還能在聲音中加入“感情”元素,讓聲音聽上去更為逼真。

去年Black Hat大會上也展示了一種聲音模擬技術,這項技術是通過獲取某人長時間的錄音,拼接其聲音片段實現模擬。阿曼先生表示,雖然很難預測使用AI的網絡攻擊是否會很快上升,但如果AI技術能夠讓黑客攻擊更成功或更有利可圖,他們會更傾向於使用該技術。

基於神經網絡和機器學習的AI變聲技術

不管是成功詐騙歐洲公司的黑客們利用的技術,還是加拿大的“琴鳥”(Lyrebird),它們最終都能得到高還原度的合成聲音,在這背後依賴的技術正是神經網絡(Neural Network)和機器學習(Machine Learning)。

神經網絡通過模擬電信號在人腦神經元之間的傳遞過程,對輸入數據進行處理,同時利用分層的神經元,從大量樣本數據中總結出共同特征。

第一個用神經網絡生成人類自然語音的,就是Google的DeepMind研究實驗室發布的WaveNet。

接下來就以WaveNet為例,簡單介紹一下AI是如何通過神經網絡和機器學習來合成語音的。

論文鏈接:

https://arxiv.org/abs/1609.03499

WaveNet是基於PixelCNN的音頻生成模型,在這個生成模型中,每個音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來建模。這個網絡沒有池化層,模型的輸出與輸入具有相同的時間維數。

在模型架構中使用臨時卷積可以確保模型不會違反數據建模的順序。在該模型中,每個預測語音樣本被反饋到網絡上用來幫助預測下一個語音樣本,由於臨時卷積沒有周期性連接,因此它們比RNN訓練地更快。

使用臨時卷積的主要挑戰之一是需要很多層來增加感受野,為了解決這一難題,作者使用了加寬的卷積,加寬的卷積使只有幾層的網絡能有更大的感受野。模型使用了Softmax分布對各個音頻樣本的條件分布建模。

這個模型在多人情景的語音生成、文本到語音的轉換、音樂音頻建模等方面進行了評估。測試中使用的是平均意見評分(MOS),MOS可以評測聲音的質量,本質上就是一個人對聲音質量的評價一樣。它有1到5之間的數字,其中5表示質量最好。

相關檢測技術正在研究中

聯合國區域間犯罪與司法研究所人工智能與機器人中心主任Irakli Beridze表示,將機器學習技術應用於欺騙性聲音使網絡犯罪變得更加容易。

聯合國中心正在研究檢測虛假視頻的技術,Beridze先生稱這對於黑客來說可能是一個更有用的工具。 “想象一下,以CEO的聲音進行視頻通話,這是您熟悉的面部表情,這樣的話你根本不會有任何疑慮。”他說。

推特上有網友對此也發表了看法,認為可以利用AI技術破除AI難關,或許這會成為未來解決類似問題的主要辦法之一。

在百度上輸入“語音詐騙”、“識別”等關鍵詞,可以看到百度經驗的相關帖子,雖然這些“經驗”都已經相當古早,但能看出大家與這類詐騙的對抗已然是相當持久。

不管怎樣,希望相關的識別技術能早日研究出來。

不知道大家有沒有遇到過類似的語音詐騙事件?當真的遇到這類事件應該如何應對最好呢?歡迎大家留言討論。

相關報道:https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

 

 

分享至: