我們通常會把監(jiān)控攝像頭想作是電子眼。對此,不同的人看法也大相徑庭,有人認為電子眼是在監(jiān)控我們,有人認為它在幫助我們密切注意環(huán)境。但實際上,它們更像是舷窗:當有人通過舷窗看時,它們才有用武之地。有時候這意味著人們會從磁盤錄像中查看現(xiàn)場畫面。但是大多數(shù)監(jiān)控攝像頭都是被動觀察者。它們只是用作震懾,或是在出現(xiàn)問題時提供線索。你的汽車被偷了?那就去查看閉路電視監(jiān)控吧。
不過這一情況正在發(fā)生改變——且以一種很快的速度。人工智能為監(jiān)控攝像頭配備了數(shù)字大腦來匹配“眼鏡”,并讓其無需人力參與就可自行分析現(xiàn)場視頻。這對公共安全來說也許是好消息,它可以幫助警察以及第一目擊者更容易得發(fā)現(xiàn)犯罪或事故。此外,它還可以廣泛應用于科學和工業(yè)。但是這卻會嚴重侵犯未來的隱私并對社會公平帶來新的風險。
如果政府通過閉路電視能夠追蹤到大量人群,那會發(fā)生什么情況呢?如果警察在數(shù)據庫中僅僅通過上傳側面照片,就能以這種“電子”方式在城市里跟蹤你呢?如果在當?shù)刭徫镏行?,攝像頭運行的是一個具有偏見的算法,它會因為不喜歡某一類型的年輕人就去通知警察嗎?
這些情況也許距離我們還很遙遠,但當下我們已經發(fā)現(xiàn)人工智能結合監(jiān)控會帶來什么樣的后果了。ICRealtime就是一個例子。去年十二月發(fā)布的旗艦產品被稱作是閉路電視界的Google。有一個叫做Ella的應用及網頁平臺就是利用人工智能分析視頻中發(fā)生的事情并且使其提供及時搜索。Ella可以識別成千上萬種自然語言查詢,用戶可以搜索鏡頭從而找到呈現(xiàn)特定動物、穿著某種顏色衣物或是單個車型的片段。
在網頁演示中,ICRealtime的首席執(zhí)行官MattSailor向我們展現(xiàn)了Ella與大約40個攝像頭連接起來對一個公園實施監(jiān)控。他輸入了各式各樣的搜索內容——“紅衣服的男士”、“UPS火車”、“警車”——幾秒鐘時間內,所有關鍵詞都得到了相關的影像片段。之后,通過限定時間和地理位置,他將搜索結果的范圍縮小了并展示了用戶可以如何表達贊成或是反對從而優(yōu)化結果——就像Netflix一樣。
“舉個例子,某地發(fā)生了一起搶劫,但你不知道實際情況到底如何。”Sailor說道,“但搶劫發(fā)生之后,有一輛Jeep牧馬人向東加速駛去。所以我們就輸入‘Jeep牧馬人’,然后我們就可以獲得影像片段了?!逼聊簧祥_始出現(xiàn)片段,顯示出鏡頭前滑過的多輛Jeep牧馬人。Sailor表示這是人工智能和閉路電視結合的第一大優(yōu)勢:更容易去找到你要尋找的內容?!皼]有這項技術,除了攝像頭,你什么都不知道。你需要連續(xù)數(shù)小時觀看影像從而進行篩選。”他解釋道。
Ella在GoogleCloud上運行,它可以從幾乎任何一個閉路電視視頻系統(tǒng)中搜索鏡頭。Sailor表示:“從單攝像頭系統(tǒng)——例如保姆攝像頭或寵物攝像頭——到擁有成千上萬攝像頭的企業(yè)系統(tǒng),Ella都能適用。”用戶每月支付費用,起價為大約7美元,總價會根據攝像頭數(shù)量的增加而增長。
ICRealtime的目標受眾是各種規(guī)模的企業(yè),但它也認為這一技術能夠吸引個人消費者。新興市場上,亞馬遜、Logitech、Netgear以及谷歌旗下的Nest智能家居已經讓這些顧客開始廣泛使用安防攝像頭。但是Sailor表示這一技術要比ICRealtime簡陋得多。這些攝像頭連接到家庭WiFi上,通過應用程序提供實時視頻流。當它們發(fā)現(xiàn)有東西在移動的時候,它們就會自動記錄影像。但是Sailor表示它們無法區(qū)分闖入者和鳥類的區(qū)別,這就會導致很多誤報。“這是非?;A的技術,已經存在很多年時間了?!彼f道,“這不含人工智能,也不包括深度學習?!?/p>
這種情況不會持續(xù)太長時間了。雖然ICRealtime提供的云分析工具可以升級現(xiàn)有傻瓜式的攝像頭,其他公司則是直接將人工智能嵌入在硬件里。BoulderAI就是這樣一家初創(chuàng)企業(yè),公司利用自己獨立的人工智能攝像頭推出“視覺即服務”。在設備中結合人工智能帶來的優(yōu)勢在于,它們無需互聯(lián)網連接就能工作。BoulderAI向各行各業(yè)出售產品,為每位客戶量身定制機器視覺系統(tǒng)。
“這些應用已經遍布各行各業(yè)了?!眲?chuàng)始人DarrenOdom在采訪中這樣說道,“我們的平臺出售給了銀行業(yè)、能源業(yè)的公司。我們甚至有一個應用是去觀察披薩,決定它們的形狀和大小是否合適?!?/p>
Odom還舉了一個在愛達荷州建造水壩的客戶例子。為了符合環(huán)保規(guī)定,他們正在監(jiān)控設施頂部的魚類數(shù)量。Odom表示:“他們過去是安排了一個人坐在窗口看著魚梯,數(shù)有多少條鮭魚游過。(顧名思義,魚梯就是一條階梯式的航道,魚類可以借此向上游。)之后,他們轉而使用視頻技術,有人(遠程)進行監(jiān)控?!弊罱K,他們聯(lián)系到了Boulder公司,后者為其打造了一個定制化的人工智能閉路電視系統(tǒng),從而識別通過魚梯向上游的魚的種類?!拔覀冋娴目梢酝ㄟ^計算機視覺來識別魚的種類。我們現(xiàn)在能夠100%的識別愛達荷州的鮭魚?!眔dom驕傲地說道。
如果ICRealtime代表的是市場的通用端,那么Boulder則呈現(xiàn)了精品承包商可以在這個市場上做些什么。這兩種情況下,這些公司現(xiàn)在提供的服務不過也只是冰山一角。就像機器學習在識別物體能力方面取得迅速進步一樣,它分析場景、活動和動作的能力也有望快速提升。一切準備工作都已經完成,包括基礎研究、計算能力和訓練數(shù)據集——這是創(chuàng)建出色人工智能的關鍵要素。視頻分析的兩個最大數(shù)據集來自YouTube和Facebook,兩家公司都希望人工智能幫助它們控制平臺上的內容(不過兩家公司也都承認現(xiàn)在還沒有做好準備)。例如說,YouTube的數(shù)據集包含超過45萬小時帶標簽的視頻,公司希望這能夠激發(fā)“視頻理解的創(chuàng)新和進步”。參與構建此類數(shù)據集的機構有很多,這也讓我們對該領域的重要性有了一些了解。谷歌、麻省理工學院(MIT)、IBM和DeepMind都參與進來并創(chuàng)建了類似的項目。
ICRealtime已經在致力于開發(fā)面部識別等高級工具了。之后,它想要分析屏幕上發(fā)生的情況。Sailor表示他已經和教育行業(yè)的未來顧客進行過交談,對方希望當學生在學校遇到麻煩的時候,監(jiān)控能夠識別出來。“比如說,他們對于發(fā)生打架的預先通知這一功能很感興趣?!彼f道。所有的系統(tǒng)都需要注意聚集在一起的學生,之后提醒某個人,他就可以查看視頻內容來看看發(fā)生了什么或是親自去調查。
Boulder也在探索這類高級分析。公司正在開發(fā)的一個原型系統(tǒng)就是分析銀行內人們的行為。“我們專門尋找壞人,并且區(qū)分正常人的行為和越界者行為之間的區(qū)別?!監(jiān)dom說道。為了做到這一點,他們使用舊的安全攝像頭拍攝的影像來訓練系統(tǒng)來發(fā)現(xiàn)異常行為。但是這種視頻大多低質,因此他們也會找一些演員來拍攝訓練視頻片段。Odom沒有講述具體細節(jié),但表示這個系統(tǒng)會尋找特定的面部表情和行為。“我們的演員會做一些類似蹲伏、推擠以及回頭撇的動作?!彼f道。
對于監(jiān)控和人工智能的專家來說,這些功能的引入也面臨潛在的困難(技術層面和道德層面都有)。和人工智能通常遇到的問題一樣,這兩個類別的問題也是緊密相連。這是一個技術難題,畢竟機器始終無法像人類一樣理解這個世界。但如果我們假設它們能夠做到這一點并讓它們?yōu)槲覀冏鰶Q定時,這又成為了一個道德難題。
卡內基。梅隆大學的教授AlexHauptmann專門從事這類計算機分析。他表示盡管人工智能在近些年推動了這一領域的快速發(fā)展,但讓計算機理解視頻,這依然存在根本性的難題。其中最大的一個問題就是我們通常不會考慮到的:攝像頭的分辨率。
舉個例子,一個神經網絡經過訓練可以分析視頻內人們的行為。這是通過細分人類身體——胳膊、腿、肩膀、頭部等,之后觀察這些畫中小人在視頻中從一幀到另一幀的變化。據此,人工智能可以告知你是否有人在跑步或是梳頭發(fā)?!暗沁@取決于你的視頻分辨率。”Hauptmann在采訪中說道,“假設我看的是停車場盡頭的攝像頭,如果我能分辨出有人是否打開車門,那真是萬幸了。如果你就站在攝像頭前面彈吉他,那它可以追蹤你的每一根手指。”
對閉路電視監(jiān)控來說,這也是一個大問題。攝像頭往往會有顆粒感,角度通常也非常奇怪。Hauptmann舉了一個便利店內要對準收銀臺的攝像頭為例,它也可以俯瞰到面向街道的窗戶。如果外面發(fā)生了搶劫,那么攝像鏡頭就會被部分擋住,之后人工智能就會卡住。“但是我們作為人類,可以想象到正在發(fā)生的情況并將信息拼湊在一起。計算機就做不到這一點。”他說道。
與之類似,盡管人工智能能夠出色識別視頻中發(fā)生的事情(比如說有人在刷牙、看手機或是踢足球),但它尚不能提取重要背景。拿可以分析人類動作的神經網絡為例。它也許能夠在看到鏡頭時表示出“這個人在跑步”,但它不能識別這個人是否是因為快要趕不上汽車或是偷了別人手機才要跑步。
這些準確率問題讓我們需要認真考量一下人工智能初創(chuàng)企業(yè)的聲明。我們還遠遠達不到一種情況——即電腦能夠在看視頻時獲得和人類一樣的見解。(研究人員會告訴你這非常困難,相當于是“解決”智能難題。)但事情的發(fā)展速度非常快。
Hauptmann表示車牌跟蹤功能已經被采用,而受控設置下的面部識別也同樣如此。(使用低質閉路電視影像進行面部識別是另一碼事。)識別像汽車、衣物這類的東西非常靠譜,系統(tǒng)也能自動追蹤多個攝像頭內的同一個人,但這也要取決于實際情況?!霸谝粋€不擁擠的環(huán)境中追蹤一個人還是非??孔V的,但在擁擠的環(huán)境中就別想了。”Hauptmann說道。他表示如果一個人穿的是不太顯眼的衣服,那么追蹤起來也非常困難。
但是,即便是這些非?;A的工具也會帶來很大的影響。中國就發(fā)生了這樣一個情況。在新疆,傳統(tǒng)的監(jiān)控和民事控制會結合面部識別、車牌掃描儀、虹膜掃描儀以及普遍的閉路電視監(jiān)控來創(chuàng)造出一個“全面監(jiān)控的狀態(tài)”。在莫斯科,類似的基礎設施也正在組建,面部識別軟件會被嵌入在一個集成式系統(tǒng)中,該系統(tǒng)配備了超過10萬臺高分辨率的攝像頭,覆蓋了整個城市90%以上的公寓入口。
在這些情況下,可能會出現(xiàn)一個良性循環(huán)。隨著軟件變得愈加完善,系統(tǒng)就可以收集到更多的數(shù)據,相應地這也會幫助軟件變得更加出色?!拔蚁脒@一切都會進步。這一情況也正在發(fā)生?!盚auptmann說道。
如果這些系統(tǒng)已經在工作了,那么我們就會碰到類似算法偏見的問題。這并不是一個假設性的挑戰(zhàn)。研究表明機器學習系統(tǒng)吸收了為其編寫程序的社會中存在的種族和性別偏見——從總是將女性放置在廚房里的圖像識別軟件到總是宣傳黑人更可能再次犯罪的司法系統(tǒng)。如果我們使用舊的影像片段去訓練人工智能監(jiān)控系統(tǒng),比如說閉路電視或是警察佩戴的攝像頭,那么這些存在于社會之中的偏見就很有可能會滲透進算法內。
紐約大學專攻道德“AINow”研究所的聯(lián)席主任MeredithWhittaker表示執(zhí)法過程中已經出現(xiàn)這一情況了,這也將延伸至私有行業(yè)。Whittaker拿Axon(之前被稱為Taser)為例。該公司收購了幾家人工智能企業(yè)來將視頻分析嵌入到其產品中?!八麄兊玫降臄?shù)據來源于警察佩戴的攝像頭,這些數(shù)據闡明了單個警察會關注哪些人的情況,但它并沒有告訴我們全部的情況。”Whittaker說道,“這就會帶來真正的危險,我們正在普及帶有偏見的罪犯圖片。”
ACLU高級政策分析師JayStanley表示即便我們可以解決自動系統(tǒng)中存在的偏見問題,這也不能使得它們就變成良性的。他表示將閉路電視監(jiān)控從消極的觀察者轉變?yōu)橹鲃佑^察者,這給公民社會會帶來巨大的負面影響。
“我們希望人們不僅僅是獲得自由,還能感受到自由。這意味著它們不需要擔心一個未知、看不見的觀眾會如何解釋或曲解他們的每一個動作和話語?!盨tanley說道,“要擔心的問題是,人們會開始不斷自我監(jiān)控,擔心自己做的所有事情都會被曲解,從而給他們的生活帶來負面影響?!?/p>
Stanley也表示不準確的人工智能監(jiān)控引發(fā)的誤報會導致執(zhí)法部門以及公眾之間發(fā)生更危險的對抗。想想DanielShaver的槍擊事件吧。Shaver被人看見拿著槍之后,有人打電話報警,警察來到旅店。當Shaver按照要求趴在地面上時,警長CharlesLangley槍殺了他。而Shaver被發(fā)現(xiàn)持有的槍其實是他除蟲工作所需要的粒丸槍。
如果人類都可以犯下這樣的錯誤,那么計算機呢?如果監(jiān)控系統(tǒng)變成了半自動化的,那么這樣的錯誤是會更頻繁還是更少見呢?“如果技術被采用了,那么一定會有一些警察被迫需要照看這些情況。”Stanley說道。
Whittaker表示我們在這個領域看到的情況只是人工智能大趨勢的一部分。我們使用這些相對粗糙的工具,試圖基于圖像來對人們進行分類。她提到了去年發(fā)表的一項具有爭議的研究,該研究聲稱可以通過面部識別來確定性別。人工智能結果的準確性值得質疑,但是評論家也指出它是否可行并不重要,重要的是人們是否相信它有用以及是否會用此數(shù)據進行判斷。
“有一點很困擾我,沒有任何民主程序讓我們質疑它的有效性或是通知大家將會部署系統(tǒng),許多系統(tǒng)就已經被安裝在我們的核心基礎設施里?!盬hittaker說道,“這不過是算法系統(tǒng)的又一個例子——算法系統(tǒng)是基于內在文化和歷史偏見的數(shù)據來識別特征,據以分類并確定個體類型?!?/p>
當我們向ICRealtime詢問關于人工智能監(jiān)控可能會如何被濫用的問題時,他們給出了一個在科技行業(yè)常見的回答:這些技術是價值中立的,它們被誰如何使用決定了技術的好壞?!叭魏涡录夹g落入不法分子之手都有可能帶來危險?!盨ailor說道,“任何技術都是如此…我認為在這個問題上,利遠大于弊?!?/p>