图片来自“123rf.com.cn”
女兒過生日時,朋友送給司蘭一臺智能音箱,是市場上常見的主流品牌的款式,小方盒子、價格不高。司蘭對新奇事物的興趣一般,就隨手擺放在了客廳,倒是6歲的女兒愛上了這個小音箱,總是纏著它講故事。
逐漸地,司蘭對這個智能音箱產生了好感。“簡直是哄娃神器”,欣喜之餘,她開始在淘寶上瀏覽相關產品,計劃買一臺配置更高、音質更好的款式。
直到數月前的一天,司蘭無意間打開了與智能音箱連接的手機App,卻意外發現,其中記錄的一段文字,正是自己與丈夫剛剛聊天內容的文字轉寫。令她驚訝的是,這段對話發生在女兒聽完故事之後,理論上,音箱已經處於休眠狀態,不應收取聲音,更不應該將內容傳輸至手機、並轉為文字。
“它一直在偷聽我們家裡的談話嗎?”疑慮浮現在司蘭的心頭。家人也對智能音箱產生了忌憚,新機購買計劃自然擱淺,對於已有的這台音箱,司蘭則選擇了“斷電”,“女兒喜歡聽故事,聽的時候開一會,聽完就拔電源”。最近四、五個月,他們都是這樣使用的。
正在“監聽”的音箱
智能音箱第一起廣為人知的“竊聽事件”發生於美國俄勒岡州。
2018年5月,Danielle的丈夫接到一位下屬的電話:“馬上拔掉你的Echo設備插頭,你被黑客攻擊了!”Danielle居住在俄勒岡州波特蘭市,家中擁有四台亞馬遜智能音箱Echo設備。當天早些時候,她丈夫的這位下屬接到一份錄音文檔,隨手打開後,卻聽到了Danielle和丈夫在家中的私密談話,夫妻倆正在商量使用哪個牌子的硬木地板。
震驚之下,Danielle拔掉了所有Echo設備電源,迅速撥打亞馬遜客服電話尋求解釋,同時,她將這一事件爆料給哥倫比亞廣播公司。
對於這一事故,亞馬遜給出的回覆是“誤操作”,意思是,在運行時,Echo設備將一段對話的內容誤解為指令,以為用戶希望將此前的語音內容發送給通訊錄中的某個人,隨即執行了這一指令。
Echo是亞馬遜推出的智能音箱,搭載其語音助手Alexa。截至2018年年中,Echo在美累計出貨約3500萬台;根據CIRP預測,其市占率達到70%,遠超其它品牌。
頭部產品出事,消息迅速被廣泛傳播和發酵。不久之後,Echo的第二起“事故”又出現了。一位德國用戶向當地雜誌《c’t》爆料,當他讓亞馬遜發給自己個人活動的語音數據時,卻收到了一個可供下載的100MB壓縮文件,下載內容是一份解釋Alexa語音命令的PDF分類記錄,以及1700份陌生人對話錄音。
《c‘t》聽取了其中的部分錄音,發現根據對話內容,可以“拼湊”出的生活細節包括:在家和外出的時間,家裡其它品牌的智能設備,家中人員的性別,甚至包括用戶沐浴的聲音。
儘管亞馬遜對以上兩起事故均已致歉,卻未能掩蓋一個在輿論中逐漸成型的猜測:作為一款新興設備,智能音箱的“竊聽”或許不僅是隱患、而且真實存在。“它聽到喚醒詞就可以啟動工作,那是否意味著,智能音箱正在隨時隨地聽取我們的談話?”司蘭這樣懷疑。
最近數月中,智能設備相關的更多“竊聽”事故正在被曝出。今年7月,據國外媒體報道,蘋果的一名承包商稱,為了提升Siri的產品能力,蘋果會雇佣外部承包商審聽錄音,其中包括了Siri在意外被激活時收錄的私密對話,例如醫療信息、毒品交易和其它信息。
無獨有偶,同月,有消息傳出,谷歌智能助手會將錄下的聲音文件提供給公司員工,甚至世界各地的谷歌第三方承包商也能定期聽取這些談話內容。
對於智能音箱及內置於各設備中的語音助手的疑慮正在蔓延,不僅是“竊聽”,智能音箱偶爾出現的自啟動現象也刺激了一部分用戶。從去年起,先後有用戶表示,Echo在未被喚醒時,卻出現了“呵呵”的笑聲,令人毛骨悚然。
類似現象也出現在一些國內的智能音箱上。一位用戶透露說,家中擺放的智能音箱多次突然彙報“設備正在進行系統升級,已更新**個應用”,“雖說很正常的內容,但家裡沒其他人,音箱突然說話,每次都嚇我一跳。”甚至有一次,在她邀請朋友到家中做客,彼此相談甚歡時,智能音箱突然被喚醒了,並毫無預兆地為眾人播放了一首林俊傑的《殺手》。
“帶屏”音箱則帶來了影像方面的疑慮,隨著“竊聽事故”增多,有用戶懷疑稱,自家的帶屏音箱有“回家看看”的功能,既然可以遠程直播家裡正在進行的情景,是否也會同時將這些影像記錄下來,傳輸至其它地方?
人們對智能音箱這款新產品的疑惑越來越多。從“它在監聽我嗎”延伸至:它休眠時會收聲嗎?收聲之後,是否會存儲和傳輸這些對話?這些聲音真的會被人聽到嗎?以及,它會被黑客攻擊,變成一個“竊聽器”嗎?
謠傳與真相
“最近一年,身邊很多朋友買智能音箱前,都會來問我監聽問題”,張思成說。他先後在多家公司的智能音箱部門工作,被朋友們視為行業專家。“比較有趣的是,問完之後,幾乎每個人都還是買了音箱。”
據張思成及多位熟悉智能音箱的從業者介紹,智能音箱的識別工作分為“本地”和“雲端”兩種情況,在智能音箱處於未喚醒狀態時,為本地工作狀態,雖然會收錄外界聲音,但不會對這些聲音進行存儲與語義識別。“喚醒前相當於在做聲波識別的工作,”徐家明介紹說,“(智能音箱)將收錄的聲音與喚醒詞做對比,聲波相符時,才會自動打開。”徐家明是一位智能音箱產品經理。
張思成否認了“偷偷監聽”的傳言,據他瞭解,市場主流的多款國產智能音箱無一存在主觀故意監聽的情況。
“這是一件成本很高的事情”,張思成認為。他這樣算了一筆賬:假設一家企業累計售出100萬台音箱,有20萬日活,如果企業要啟動這些音箱做24小時監聽,就算每秒鐘產生100k數據,乘以20萬的話,累計起來傳輸帶寬、存儲和計算的花費相當驚人。
更關鍵的是,在當前的技術處理能力下,企業尚不能將這些龐大而又碎片化的錄音轉化為有商業價值的有效信息。在張思成看來,就算不考慮道德層面,只看商業利益,企業也沒有動機去做主觀的信息收集。
據張思成回憶,在去年的一項由國家工信部主導的智能音箱檢測工作中,在未喚醒狀態下,各家智能音箱傳輸的數據量均僅為KB級別,對於語音資料而言,這一數據量幾乎可以忽略不計。
與“竊聽”傳言較為相符的內容是“喚醒詞”之後的智能音箱工作模式。
張思成和徐家明均承認,音箱被喚醒後,將進入雲端工作狀態,將收取的聲音傳輸至雲端伺服器,完成語音語義識別和反饋工作。“這是無法避免的,”張思成有些無奈,他提到,目前智能音箱內置的運算能力,無法支撐AI類的語音語義計算,更無法在本地實現識別能力的提升。
為了避免網路故障和隱私問題,在一些客戶定製的全屋智能中,張思成的公司曾提供過僅在本地運算的語音方案。不過,這將使功能性變得非常單一,僅支持固定命令,例如,主人回家後,可告訴語音助手“打開燈”,但若換成“打開這盞燈”,它便無法識別。
按照智能音箱的產品策略,當用戶結束命令,如數秒內無新聲音出現,機器則會恢復休眠狀態。“每家品牌設定不太一樣,有的是3秒內、有的是5秒內,”徐家明透露。然而,在實際工作中,由於智能音箱整體成熟度有限,“喚醒”和“休眠”均有可能出現誤差。“例如剛好有聲音和喚醒詞相似,或者命令結束後有其他聲響,使智能音箱以為需要繼續工作,它就會持續收音,而用戶對此是不知道的。”據他推測,包括司蘭在內,眾多用戶遭遇的所謂“竊聽事件”,均源於這類原因。
據多位從業者介紹,目前智能音箱行業內較理想的“誤喚醒率”約為每48小時2次,更糟糕的情況則達到每24小時2-3次,這無疑意味著誤操作下較高的所謂“竊聽”頻率。“對於各家品牌來說,當下最關鍵的都是提高AI能力,減少誤操作,收集來的語料是最好的訓練素材。”徐家明提到。
今年4月,彭博社的調查報道顯示,亞馬遜在全球有數千名工作人員負責人工聽取和檢查用戶與Alexa的對話,並對這些錄音進行標註、檢查、反饋,以降低誤操作,幫助Alexa更好地響應指令。位於羅馬利亞的兩名亞馬遜員工提到,他們一天需要工作9小時,解析音頻多達1000條。
“這在行業中其實不是秘密,”張思成認為,不僅是國外品牌,在國內幾家主流智能音箱品牌中,均有“人工審聽”環節。為儘量保護用戶隱私,錄音在被人工聽取前會進行數據脫敏、打散,儘管員工會聽到錄音對話,甚至涉及私密事務,但並不能識別用戶的具體身份。“在雲端過程中,音頻文件本身不會跟用戶賬號信息、設備信息相對應,主要是為了優化指令。”國內一家主流智能音箱廠商回應表示。
“被人工審聽的語料不足總量的1%,主要集中在識別困難的內容上,比如,當音箱回答‘我不懂你在說什麼’,這句之前的內容,會優先選擇為人工審聽,”張思成解釋說。在他此前任職的公司中,當某些新功能上線時,為提高其準確率,某些特定語料的審聽比例會提升至10%左右;不過,這類工作的持續時間很短,往往“用幾天時間攻關後,就恢復正常比例了”。徐家明同樣認為,隨著AI模型識別能力的提高,企業採用人工審聽的比例或將會有所降低。
智能音箱所錄取的語料不會被永久存儲,前述音箱廠商稱,在完成識別後,音頻文件會被刪除。“每一家保留文件的時間不等,我們這邊大概是幾個月。”徐家明補充說。
無所遁形
無疑,智能音箱和其它語音助手類產品,尚且不是一個成熟品類。
這使此類產品存在諸多漏洞,例如誤喚醒,再例如“黑客攻擊”。去年8月,在美國拉斯維加斯舉行的全球黑客大會Defcon大會上,騰訊安全團隊僅用26秒便成功破解了亞馬遜的Echo,遠程式控制制指定設備,使該設備在未喚醒、不提示的靜默狀態下自動錄音,並將錄音文件通過網路發送給遠程伺服器。
“當2300台音箱中,有1台智能音箱被物理攻擊,其他的智能音箱都可以通過區域網內的非接觸式攻擊被黑客置入後門,成為黑客的遠程竊聽器。”在破解時間後不久,騰訊安全專家伍惠宇在一場演講中表示。當然,在騰訊將這些漏洞提交後,亞馬遜已經完成了這部分的修複和更新。
在另一層面上,正是興起時間短、成熟度低,迄今為止,智能音箱尚未形成任何黑灰產業鏈。錄音語料在企業被賦予相當嚴格的保密級別,張思成透露說,在他所任職的公司,涉及錄音的工作均會在公司內完成,雖因人員有限,將部分保密級別較低的識別工作外包,也會要求外包人員來到公司完成識別工作。
“在國內市場上,還沒有聽說任何一家企業將語料轉賣的情況,沒有聽到過成功竊聽的案例,同樣,據我所知,智能音箱還不會利用收聽到的語料,為每一位用戶形成全景畫像。”張思成肯定地說,“說到底,現在智能音箱還笨得要死,提取有效信息成本太高,我個人覺得,在未來3到5年內,都不用擔心音箱帶來的隱私問題。”
但他也和其他從業者一樣,並不否認以上種種“尚未發生”的情況,會在技術更為成熟的未來均有“發生”的可能。
作為這個新興行業的從業者,張思成已經可以坦然接受技術與隱私難以平衡的問題,“在物聯網、AI時代,我們是沒有隱私、無所遁形的”,即便沒有智能音箱,通過手機和電腦,每個人的信息、喜好、習慣等種種信息,早已被各家公司所掌握,本質上,這並無不同。
除非在計算能力更為強大的未來,全部智能產品均在本地運算,全部斷網,只有偶爾更新系統時聯網。張思成認為,這但對普通人而言,這種高技術難度、低商業價值的設想過於遙遠,也過於不切實際。
面對這些焦慮,一些人選擇了遠離智能音箱。一位技術人員稱,其已經將家中智能音箱徹底斷電,亦不再有購買其它智能家居的計劃;而張思成已經默默接受,他購買了三、四台智能音箱放置於家中,本來是用於工作測試,後來也就習慣了它們的存在。
在技術探測隱私的邊緣,張思成的底線是“不形成危害”。他將智能音箱置於客廳和門廳,這樣,即使一些語音資料被泄露,也不會對他與家人形成實質危害,“智能音箱的收聲範圍大約是3到5米,很難隔牆收集,卧室基本聽不到,實在有私密話題的時候,也可以拔掉電源再講”。
他不能接受的是影像泄露,“我絕不會買一臺帶攝像頭的音箱、或者其它帶攝像頭的產品放置在卧室”,他很清晰地認識到,一旦泄露影像,將是難以輓回的重大危害:不止一位從業者透露,聯網的攝像頭設備,的確會將影像回傳至伺服器,這些資料會被嚴格保密,但仍存在理論上的外泄風險。
你無法隱藏自己,所以,只能採用最基本的方法來保護自己——這是張思成的理論。
不過,有些人也抱有更樂觀的態度,“智能音箱正處於野蠻生長的初級階段,擴展到整個智能家居,都會經歷這些初級階段,這時的隱私保護,只能依賴於廠家自律,”徐家明堅信,“當這些產品徹底普及之後,一定會有更高級別的隱私規範出現,統一行業、限制許可權,並作為強制標準來執行。”