歐洲首例AI詐騙！用CEO聲音騙走22萬，逼真語音合成只需1分鍾錄音

2019-09-10

想到可以利用AI進行詐騙的可不止一些初創公司，當下AI技術如此發達，換臉都能輕松實現，那聲音呢?

提到這種變聲技術，可能最先想到的是《名偵探柯南》中柯南使用的蝴蝶結變聲器，柯南正是利用阿笠博士的這個發明把“沉睡的毛利小五郎”捧上了偵探界的神壇。

但是試想，如果有人把這項技術用於詐騙，是不是頓時後背發涼?

據《華爾街日報》報道，今年3月份，有犯罪分子就使用了類似的AI技術，他們成功模仿了英國某能源公司在德國母公司CEO的聲音，詐騙了220,000歐元(約1,730,806人民幣)。

網絡犯罪專家稱，這是黑客攻擊中利用AI技術的一次不尋常案例。

三次電話，損失22萬歐元

案發時，該公司的CEO誤以為他正在與他的老板，也就是德國母公司的CEO通電話，老板要求他將資金彙給匈牙利供應商。據該公司的保險公司Euler Hermes Group SA稱，來電者表示該請求非常緊急，要求行政人員在一小時內付款。

慕尼黑的金融服務公司Allianz SE旗下子公司Euler Hermes的欺詐專家Rüdiger Kirsch說，犯罪分子總共打了三次電話。220,000歐元轉移後，他們打電話說母公司已經轉移資金償還英國公司，然後他們在當天晚些時候進行了第三次電話會議，再次冒充首席執行官，要求第二次付款。由於轉賬償還資金還沒有到來，而第三次電話是來自奧地利的電話號碼，行政部門開始懷疑，沒有支付第二筆款項。

根據Kirsch先生的說法，轉入匈牙利銀行賬戶的資金隨後轉移到墨西哥並分發到其他地方，調查人員沒有發現任何嫌犯，而且，Euler Hermes承擔了受害公司索賠的全部金額，但沒有處理要求追回涉及AI犯罪損失的索賠。

Kirsch先生認為，使用AI詐騙對公司來說是新的挑戰，傳統網絡安全工具無法發現欺騙性的聲音，而黑客往往就是使用商業語音生成軟件進行攻擊。Kirsch先生用這種產品錄制了自己的聲音，並說複制版本聽起來很真實。

目前還不清楚攻擊者是否使用機器人對受害者的問題作出反應。歐洲刑警組織歐洲網絡犯罪中心戰略負責人菲利普·阿曼說，如果他們這樣做，執法當局調查可能會更加困難。Kirsch先生說，警方對此案的調查已經結束，歐洲刑警組織沒有參與。

從語音轉發到語音複制，聲音還有多少可信度?

其實，執法當局和AI專家早有預言，犯罪分子將使用AI進行自動化網絡攻擊。無論是誰策劃了這一事件，他們都已經使用AI軟件成功地通過電話模仿了德國高管的聲音。

雖然有歐洲官員表示，這是他們第一次聽說在歐洲發生AI變聲語音詐騙，而且犯罪分子明顯依賴於AI變聲技術，但這遠非第一起利用語音進行詐騙的案件，在國內，變聲技術早已被用於網絡詐騙中，人民網微博最早在去年八月就發布了利用微信語音詐騙的案件消息。

犯罪分子利用的是一種名叫“增強版微信”的軟件，這種“增強版微信”具有能夠轉發語音消息、克隆好友朋友圈、看到對方撤回的消息等功能。

據稱，這些功能都是服務於一些“特殊用戶”的，比如自定義位置，就能讓客戶在國內實現海外“雲度假”，或者讓一些商家假裝自己是“海外代購”等。

脫離微信而言，利用聲音合成技術也已經實現了語音複制。

去年，三名蒙特利爾大學博士聯合創辦的名為“琴鳥”(Lyrebird)的公司開發出了一種“語音合成”技術，只要對目標人物的聲音進行1分鍾的錄音，丟給“Lyrebird”處理，就能得到一個特別的密鑰，利用這個密鑰可以生成目標人物任何想說的話。

“琴鳥”(Lyrebird)不僅能利用語音模仿演算模仿出任何人的聲音，還能在聲音中加入“感情”元素，讓聲音聽上去更為逼真。

去年Black Hat大會上也展示了一種聲音模擬技術，這項技術是通過獲取某人長時間的錄音，拼接其聲音片段實現模擬。阿曼先生表示，雖然很難預測使用AI的網絡攻擊是否會很快上升，但如果AI技術能夠讓黑客攻擊更成功或更有利可圖，他們會更傾向於使用該技術。

基於神經網絡和機器學習的AI變聲技術

不管是成功詐騙歐洲公司的黑客們利用的技術，還是加拿大的“琴鳥”(Lyrebird)，它們最終都能得到高還原度的合成聲音，在這背後依賴的技術正是神經網絡(Neural Network)和機器學習(Machine Learning)。

神經網絡通過模擬電信號在人腦神經元之間的傳遞過程，對輸入數據進行處理，同時利用分層的神經元，從大量樣本數據中總結出共同特征。

第一個用神經網絡生成人類自然語音的，就是Google的DeepMind研究實驗室發布的WaveNet。

接下來就以WaveNet為例，簡單介紹一下AI是如何通過神經網絡和機器學習來合成語音的。

論文鏈接：

https://arxiv.org/abs/1609.03499

WaveNet是基於PixelCNN的音頻生成模型，在這個生成模型中，每個音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來建模。這個網絡沒有池化層，模型的輸出與輸入具有相同的時間維數。

在模型架構中使用臨時卷積可以確保模型不會違反數據建模的順序。在該模型中，每個預測語音樣本被反饋到網絡上用來幫助預測下一個語音樣本，由於臨時卷積沒有周期性連接，因此它們比RNN訓練地更快。

使用臨時卷積的主要挑戰之一是需要很多層來增加感受野，為了解決這一難題，作者使用了加寬的卷積，加寬的卷積使只有幾層的網絡能有更大的感受野。模型使用了Softmax分布對各個音頻樣本的條件分布建模。

這個模型在多人情景的語音生成、文本到語音的轉換、音樂音頻建模等方面進行了評估。測試中使用的是平均意見評分(MOS)，MOS可以評測聲音的質量，本質上就是一個人對聲音質量的評價一樣。它有1到5之間的數字，其中5表示質量最好。

相關檢測技術正在研究中

聯合國區域間犯罪與司法研究所人工智能與機器人中心主任Irakli Beridze表示，將機器學習技術應用於欺騙性聲音使網絡犯罪變得更加容易。

聯合國中心正在研究檢測虛假視頻的技術，Beridze先生稱這對於黑客來說可能是一個更有用的工具。 “想象一下，以CEO的聲音進行視頻通話，這是您熟悉的面部表情，這樣的話你根本不會有任何疑慮。”他說。

推特上有網友對此也發表了看法，認為可以利用AI技術破除AI難關，或許這會成為未來解決類似問題的主要辦法之一。

在百度上輸入“語音詐騙”、“識別”等關鍵詞，可以看到百度經驗的相關帖子，雖然這些“經驗”都已經相當古早，但能看出大家與這類詐騙的對抗已然是相當持久。

不管怎樣，希望相關的識別技術能早日研究出來。

不知道大家有沒有遇到過類似的語音詐騙事件?當真的遇到這類事件應該如何應對最好呢?歡迎大家留言討論。

相關報道：https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

分享至：