本文全文編譯自Backchannel編輯StevenLevy的相關(guān)文章《TheiBrainisHere:andit’salreadyinsideyourphone》,在最大程度保留文章原貌的基礎(chǔ)上進(jìn)行了極少數(shù)刪減。本文也是蘋(píng)果科技“軟實(shí)力”的一次大匯總,非常有閱讀的價(jià)值。
獨(dú)家內(nèi)部視角看人工智能和機(jī)器學(xué)習(xí)如何改變蘋(píng)果
2014年7月30日,Siri做了一次“腦部移植手術(shù)”。
三年前的那個(gè)日子,蘋(píng)果成為第一家將智能助手移植到自己系統(tǒng)的主流科技企業(yè)。在更早的日子里,Siri這款在2010年通過(guò)收購(gòu)納入囊中的產(chǎn)品一直以獨(dú)立應(yīng)用程序的形式存在。
剛推出之時(shí),大家對(duì)Siri都欣喜若狂,但隨著時(shí)間流逝,用戶(hù)卻愈發(fā)對(duì)其缺點(diǎn)變得不耐煩,因?yàn)樗?jīng)常性地誤解命令,產(chǎn)品微調(diào)之后也不見(jiàn)提升。
于是,蘋(píng)果在那個(gè)7月30日做了一個(gè)重要決定:把美國(guó)用戶(hù)的Siri語(yǔ)音識(shí)別遷移到以“神經(jīng)網(wǎng)絡(luò)”為基礎(chǔ)的新系統(tǒng)中,隨后在8月15日推廣到全世界用戶(hù)。
在新系統(tǒng)中,“隱性馬爾可夫模型”等一系列“老”技術(shù)仍在使用,但是更重要的是引入機(jī)器學(xué)習(xí)技術(shù),包括“深度神經(jīng)網(wǎng)絡(luò)(DNN)”、“卷積神經(jīng)網(wǎng)絡(luò)”、“長(zhǎng)短期記憶單元”、“門(mén)控性電源(gatedrecurrentunits)”、以及“n-grams”。
經(jīng)過(guò)這次升級(jí),Siri雖然看起來(lái)仍然一樣,但是卻得到了深度學(xué)習(xí)的強(qiáng)力buff。
為了不讓自己的競(jìng)爭(zhēng)對(duì)手從Siri上獲得啟發(fā),蘋(píng)果再次采取了高度保密的策略。而用戶(hù)最多也只能體會(huì)到Siri犯的錯(cuò)越來(lái)越少了。直到最近的揭秘,蘋(píng)果才公開(kāi)談?wù)撈甬?dāng)時(shí)的效果——準(zhǔn)確率的提升幅度是驚人的。
蘋(píng)果高級(jí)互聯(lián)網(wǎng)軟件及服務(wù)副總裁EddyCue
EddyCue表示:“這次提升非常明顯,以至于有人專(zhuān)門(mén)核對(duì)了一次準(zhǔn)確率的數(shù)字,以免不小心漏掉了小數(shù)點(diǎn)。(提升了至少一位數(shù))”
Siri這次的“華麗變身”,也讓人工智能業(yè)界“驚訝”,但不是因?yàn)樗麄兊某煽?jī),更多的是因?yàn)樘O(píng)果如此低調(diào),但又能如此出色的完成這個(gè)任務(wù)。
即便蘋(píng)果最近在人工智能領(lǐng)域加大了人才的招聘力度,也做了一些高調(diào)的創(chuàng)業(yè)公司收購(gòu),大多數(shù)人還是將蘋(píng)果視為這個(gè)火熱領(lǐng)域的落后者。同時(shí)又因?yàn)樘O(píng)果的高度保密,讓人工智能相應(yīng)的專(zhuān)家也不清楚他們?cè)跈C(jī)器學(xué)習(xí)相關(guān)進(jìn)展。正如斯坦福人工智能歷史課程講師JerryKaplan所說(shuō):
蘋(píng)果并沒(méi)有在人工智能社區(qū)中出現(xiàn),有點(diǎn)像人工智能領(lǐng)域的NSA(美國(guó)國(guó)家安全局)。
相比之下,其他硅谷獨(dú)角獸Google和Facebook在人工智能領(lǐng)域的努力,則更容易為外界所捕獲,并且傳播開(kāi)來(lái)。
當(dāng)然也有人會(huì)持有反對(duì)意見(jiàn),來(lái)自AllenAI研究所的OrenEtzioni算一個(gè):
Google、Facebook、微軟里都有頂尖的機(jī)器學(xué)習(xí)人才。而蘋(píng)果的確也聘用了一些人工智能方面的人才,但是公認(rèn)的機(jī)器學(xué)習(xí)5位領(lǐng)袖都不在內(nèi)。
而且即便蘋(píng)果已經(jīng)用人工智能實(shí)現(xiàn)了語(yǔ)音的識(shí)別能力,但是接下來(lái)蘋(píng)果會(huì)將機(jī)器學(xué)習(xí)加入到什么功能之中?這仍然是個(gè)謎。
不過(guò)這個(gè)也不怪OrenEtzioni,這個(gè)月早些時(shí)候,蘋(píng)果秘密地展示了他們產(chǎn)品應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的進(jìn)展,可惜對(duì)象不是他,而是我。
在好幾位蘋(píng)果高管(包括上文提到的EddyCue、高級(jí)全球市場(chǎng)副總裁PhilSchiller、高級(jí)軟件工程副總裁CraigFederighi,后兩者一直也被視為蘋(píng)果人工智能方面的關(guān)鍵性科學(xué)家)的陪同下,我在蘋(píng)果庫(kù)比提諾的飛船總部里面花了幾乎一整天,完整地了解機(jī)器學(xué)習(xí)在蘋(píng)果應(yīng)用中目前以及未來(lái)的應(yīng)用情況。
當(dāng)我們坐下之后,他們就遞給我了一份兩頁(yè)而且“滿(mǎn)滿(mǎn)當(dāng)當(dāng)”的日程列表,上面全是機(jī)器學(xué)習(xí)在蘋(píng)果產(chǎn)品和服務(wù)中的應(yīng)用,除了已經(jīng)實(shí)現(xiàn)、甚至還包括了他們即將討論的項(xiàng)目。
從這份列表中,你還能比較容易地提取出一個(gè)核心信息:
蘋(píng)果已經(jīng)進(jìn)入了人工智能領(lǐng)域,而且絕不甘心成為“第二”這樣的角色,還將會(huì)采用一條不同于別人的路徑。
擁有iPhone的人看起來(lái)都是蘋(píng)果人工智能技術(shù)的直接受益者,但實(shí)際上不僅僅是因?yàn)镾iri能夠很準(zhǔn)確的理解你在問(wèn)它什么。哪怕有人最近只是郵件了你,他都會(huì)出現(xiàn)在“最近聯(lián)系人”之列;側(cè)滑之后出現(xiàn)的“你接下來(lái)最可能打開(kāi)的應(yīng)用”列表;提醒你在“提醒事項(xiàng)”中標(biāo)記了、但又沒(méi)有放進(jìn)日程表的約會(huì);在你輸入全名之前將你已經(jīng)預(yù)定了的酒店地點(diǎn)推送出來(lái);甚至是在你沒(méi)有詢(xún)問(wèn)的情況下直接把停車(chē)地點(diǎn)指示給你。
以上這些例子都跟深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)有關(guān)系,有些是因此變得可能,其他至少也得到了大幅度的增強(qiáng)。
沒(méi)錯(cuò),一顆真正的“蘋(píng)果大腦”——就藏在你的手機(jī)里。
臉部識(shí)別?蘋(píng)果借助其神經(jīng)網(wǎng)絡(luò)技術(shù),加入了混戰(zhàn)
根據(jù)我拿到的簡(jiǎn)介來(lái)看,機(jī)器學(xué)習(xí)已經(jīng)滲透到蘋(píng)果產(chǎn)品和服務(wù)的每個(gè)角落。比如蘋(píng)果使用深度學(xué)習(xí)來(lái)檢測(cè)AppStore騙保行為,延長(zhǎng)所有設(shè)備的電池壽命,從成千上萬(wàn)份beta版報(bào)告中發(fā)現(xiàn)最有價(jià)值的用戶(hù)反饋。
而機(jī)器學(xué)習(xí)則讓蘋(píng)果能夠選擇適合你的新聞;也能讓AppleWatch分辨出你究竟是在鍛煉還是在閑逛;它能變成出你圖片中的面孔和地點(diǎn);在Wi-Fi信號(hào)比較弱的情況下是否要轉(zhuǎn)換到移動(dòng)網(wǎng)絡(luò);它甚至能化身為一名優(yōu)秀“電影制作人”,輕輕點(diǎn)擊一下就能快速地把你的照片還有影像片段拼合到一起。
蘋(píng)果的競(jìng)爭(zhēng)者也在做著類(lèi)似的東西,但是可以確定的是,在保護(hù)隱私這件事蘋(píng)果絕對(duì)是把人工智能技術(shù)用到了“極致”(這里指的是差分隱私技術(shù),點(diǎn)擊查看愛(ài)范兒相關(guān)報(bào)道)。當(dāng)然,他們也并沒(méi)有打造出像蘋(píng)果的產(chǎn)品。
而且人工智能對(duì)于蘋(píng)果來(lái)說(shuō)不算“新東西”,早在1990年代,蘋(píng)果已經(jīng)開(kāi)始使用機(jī)器學(xué)習(xí)技術(shù)開(kāi)發(fā)筆記識(shí)別程序(Newton平板)。這個(gè)研究成果在目前的蘋(píng)果產(chǎn)品上依舊有用,這也是為什么蘋(píng)果能很好地識(shí)別你的“狂草”。這跟蘋(píng)果一直都設(shè)有專(zhuān)門(mén)的機(jī)器學(xué)習(xí)團(tuán)隊(duì)也有關(guān)系。
早期的機(jī)器學(xué)習(xí)非常原始,深度學(xué)習(xí)更一直被視為一個(gè)夢(mèng)想,與現(xiàn)在成為“潮流”的情況相差甚遠(yuǎn)。但是蘋(píng)果被套上了“落后者”形象這件事直接導(dǎo)致了TimCook最近專(zhuān)門(mén)站出來(lái)發(fā)話(huà),表示蘋(píng)果其實(shí)一直都在人工智能領(lǐng)域,只不過(guò)沒(méi)有專(zhuān)門(mén)去宣傳而已。連帶著讓一大批蘋(píng)果高層最近也開(kāi)展了宣傳攻勢(shì)。
AppleWatch上面的減肥應(yīng)用,也有機(jī)器學(xué)習(xí)技術(shù)的加成
在蘋(píng)果高級(jí)全球市場(chǎng)副總裁PhilSchiller看來(lái):
人工智能最近5年為蘋(píng)果帶來(lái)的增長(zhǎng)大家有目共睹,我們?cè)O(shè)備智能化的速度變得更快,特別是在蘋(píng)果自己設(shè)計(jì)的一系列芯片幫助下。我們的設(shè)備變得更智能、更快,而我們所做的每一件事情,實(shí)際上都是為了讓事物能夠更好的鏈接到一起。
而更強(qiáng)大的硬件也讓我們能夠運(yùn)用越來(lái)越多的機(jī)器學(xué)習(xí)技巧,因?yàn)樗麄兲峁┝朔浅6嗟臇|西給我們進(jìn)行學(xué)習(xí)。
雖然蘋(píng)果已經(jīng)選擇了“擁抱”機(jī)器學(xué)習(xí),但是他們并沒(méi)有放棄基礎(chǔ)原則。在這群庫(kù)比提諾的先鋒者們眼里,深度學(xué)習(xí)和機(jī)器學(xué)習(xí)只是不斷出現(xiàn)的新技術(shù)之流中最新的那幾個(gè)。
它們擁有改變事物的能力,但并不一定超過(guò)一些其他技術(shù)優(yōu)勢(shì),比如觸屏、平板電腦、面向?qū)ο蟮木幊碳夹g(shù)等。在蘋(píng)果眼里,機(jī)器并非其他公司口中的“人機(jī)交互終極目標(biāo)”。EddyCue對(duì)此就曾表示:
這并不會(huì)摧毀這么多年以來(lái)建立的人機(jī)交互方式。
除此之外,我們還談?wù)摰搅艘恍┐蠹曳浅jP(guān)心的話(huà)題:蘋(píng)果對(duì)于機(jī)器是否將取代人類(lèi)沒(méi)有興趣;不確認(rèn)蘋(píng)果是否會(huì)制造無(wú)人駕駛汽車(chē);甚至是打造蘋(píng)果自己版本的Netflix;承諾蘋(píng)果不會(huì)打造終結(jié)人類(lèi)的“天網(wǎng)”等等。
PhilSchiller還單獨(dú)做了一個(gè)小總結(jié):
我們將利用這些技術(shù),從而比之前更好地做我們想要做的東西,或者完成一些我們之前無(wú)法做到的事。最終以非常蘋(píng)果的方式打造我們的產(chǎn)品。
他們隨后還拓展解釋了一下上述觀(guān)點(diǎn),內(nèi)容主要集中在兩個(gè)方面,一個(gè)是人工智能究竟從何種程度改變了蘋(píng)果目前的生態(tài)系統(tǒng)。
第二個(gè)是蘋(píng)果為什么出于用戶(hù)隱私保護(hù)的目的,干掉普通的信息收集引擎(要知道,大量的數(shù)據(jù)可以會(huì)極大的改善神經(jīng)網(wǎng)絡(luò)的能力),從而確保用戶(hù)的數(shù)據(jù)不會(huì)被其他人濫用。很明顯,蘋(píng)果已經(jīng)有了跨越這兩個(gè)“障礙”的方法。
那么這個(gè)“蘋(píng)果大腦”究竟有多大呢?怎樣才能驅(qū)動(dòng)iPhone之上的機(jī)器學(xué)習(xí)能力呢?而蘋(píng)果官方透露出來(lái)的大小是200MB左右,這個(gè)大小會(huì)隨著用戶(hù)保存的個(gè)人信息的多少而改變。這其中包括了應(yīng)用使用頻率、跟別人的交互、神經(jīng)網(wǎng)絡(luò)處理、語(yǔ)音識(shí)別模型、以及“自然語(yǔ)言模型”。
當(dāng)然,它還包括了用神經(jīng)網(wǎng)絡(luò)加成的對(duì)象識(shí)別,臉部識(shí)別以及場(chǎng)景分辨。
因?yàn)樗行聭?yīng)用的大前提,都是用戶(hù)的偏好以及經(jīng)歷等隱私不被公開(kāi)。
盡管蘋(píng)果沒(méi)有把他們?cè)贏I方面的努力攤開(kāi)來(lái)講,但我設(shè)法弄明白了他們?cè)趺丛诮M織里分配機(jī)器學(xué)習(xí)的專(zhuān)業(yè)知識(shí)。公司可以共享這些機(jī)器學(xué)習(xí)方面的人才,提供給那些用機(jī)器學(xué)習(xí)來(lái)解決問(wèn)題并且開(kāi)發(fā)個(gè)人方面產(chǎn)品的產(chǎn)品團(tuán)隊(duì)。CraigFederighi對(duì)此解釋到:
機(jī)器學(xué)習(xí)的最高境界就是不要有一個(gè)集中的組織。我們?cè)囍阉托枰脕?lái)交付正確用戶(hù)體驗(yàn)的團(tuán)隊(duì)拉近距離。
那么蘋(píng)果有多少人在做機(jī)器學(xué)習(xí)方面工作?Federighi在再三催促下給出的答案只是兩個(gè)字“很多”。(如果你以為他可能會(huì)給我那個(gè)數(shù)字,那就是你不了解蘋(píng)果了。)有意思的是,蘋(píng)果很多從事機(jī)器學(xué)習(xí)的員工在加入之前都沒(méi)有受過(guò)人工智能的教學(xué)。“我們雇傭的這些人在數(shù)學(xué)、統(tǒng)計(jì)數(shù)據(jù)、編程語(yǔ)言、密碼學(xué)這些基礎(chǔ)領(lǐng)域有特長(zhǎng)?!盕ederighi接下來(lái)也解釋了這種現(xiàn)象的原因:這些其他方向的核心天才可以完美的轉(zhuǎn)換到機(jī)器學(xué)習(xí)領(lǐng)域,雖然我們當(dāng)下還在繼續(xù)招聘機(jī)器學(xué)習(xí)的專(zhuān)業(yè)人才,但是我們一直在繼續(xù)尋找有核心能力和天賦的人。
我們并沒(méi)有設(shè)立一個(gè)單獨(dú)、中心化的組織,來(lái)充當(dāng)蘋(píng)果機(jī)器學(xué)習(xí)“殿堂”。
左前方的蘋(píng)果高級(jí)軟件工程副總裁CraigFederighi正在聽(tīng)Siri項(xiàng)目資深指導(dǎo)AlexAcero在蘋(píng)果總部談?wù)撜Z(yǔ)音識(shí)別軟件。盡管Federighi沒(méi)有說(shuō),但是我覺(jué)得這種說(shuō)法的確存在:蘋(píng)果一直強(qiáng)調(diào)保密,而行業(yè)內(nèi)的其他公司卻鼓勵(lì)自己的工程師向外界分享研究成果,這種模式不利于蘋(píng)果保持競(jìng)爭(zhēng)優(yōu)勢(shì)。Federighi對(duì)于蘋(píng)果和別的公司的做法還做了一個(gè)“分類(lèi)”:
我們的做法也讓程序員間的自然選擇被強(qiáng)化——一種喜歡通過(guò)團(tuán)隊(duì)合作,從而打造出一個(gè)偉大的產(chǎn)品;另外一種只是打算將自己的技術(shù)展示出來(lái)。
如果科學(xué)家在提升蘋(píng)果產(chǎn)品的過(guò)程中能夠發(fā)現(xiàn)突破,這自然很好?!暗覀儗?shí)際上是抱著對(duì)最終目標(biāo)的幻想在前行”Cue補(bǔ)充了一句。
蘋(píng)果人工智能領(lǐng)域里的人才很多都是通過(guò)收購(gòu)的方式進(jìn)來(lái)的。Cue給出了一個(gè)比較“夸張”的數(shù)據(jù):
我們最近收購(gòu)了二三十家相對(duì)較小的公司,同時(shí)雇傭了這些員工。
Federighi還補(bǔ)充了一個(gè)非常重要的“收購(gòu)思路”:當(dāng)蘋(píng)果收購(gòu)AI公司的時(shí)候,并不是說(shuō)“嘿,這兒有很多機(jī)器學(xué)習(xí)的研究人員,我們來(lái)設(shè)立一個(gè)部門(mén)吧!我們要的是那些有天賦并且真正專(zhuān)注于提供卓越經(jīng)驗(yàn)的人。
蘋(píng)果最近以2億美元的報(bào)價(jià)收購(gòu)了西雅圖的Turi公司。這家公司開(kāi)發(fā)了一個(gè)可以和GoogleTensorFlow一較高下的工具包,這次收購(gòu)引發(fā)業(yè)界猜測(cè)——蘋(píng)果有可能會(huì)在系統(tǒng)內(nèi)部和開(kāi)發(fā)者方面提供與Google相似的目的,在場(chǎng)的幾位高管均對(duì)這件事不予置評(píng)。Cue則表示:
無(wú)論從科技的視角還是個(gè)人觀(guān)點(diǎn)來(lái)看,Turi都有很多和蘋(píng)果相符的地方。也許一兩年后,我們就可以弄清楚到底發(fā)生了什么,就像當(dāng)初Cue(蘋(píng)果在2013年收購(gòu)的小型初創(chuàng)公司,非上文提到的EddyCue)在Siri上展示的預(yù)測(cè)能力。
無(wú)論人才從哪兒來(lái)的,蘋(píng)果的人工智能基礎(chǔ)已經(jīng)能夠讓之前那些產(chǎn)品和技術(shù)上的不可能,重新變?yōu)榭赡?。進(jìn)而改變了公司的發(fā)展藍(lán)圖。Schiller的話(huà)就算一個(gè)小小的透露:
在蘋(píng)果,每天都有很酷的點(diǎn)子。機(jī)器學(xué)習(xí)讓我們能夠解決之前“不可能”的問(wèn)題,并且已經(jīng)規(guī)劃進(jìn)了我們接下來(lái)打算做的事情當(dāng)中。
其中一個(gè)例子就是在iPadPro上使用的蘋(píng)果觸控筆。為了讓蘋(píng)果把高科技觸控筆列入產(chǎn)品中,不得不解決掉人們?cè)陔娮釉O(shè)備上寫(xiě)字,手會(huì)不小心觸碰到屏幕,從而導(dǎo)致各種字符混亂的問(wèn)題。
使用機(jī)器學(xué)習(xí)模型“手掌誤觸”,可以有效的提高屏幕傳感器區(qū)別擦碰、觸摸和筆尖的精確度。
“如果它不能穩(wěn)定的運(yùn)行,那這就不是一張可供書(shū)寫(xiě)的紙,觸控筆也沒(méi)啥用?!盕ederighi說(shuō)道。
如果你喜歡蘋(píng)果觸控筆,那就感謝機(jī)器學(xué)習(xí)吧。
也許蘋(píng)果到現(xiàn)在為止,機(jī)器學(xué)習(xí)方面最好的進(jìn)步方法,就是從它最重要的人工智能產(chǎn)品——Siri那里獲得的。
Siri起源于一個(gè)雄心勃勃的項(xiàng)目DARPA的智能助手,不久后,就有幾個(gè)科學(xué)家組建了一個(gè)公司,打算用這種技術(shù)來(lái)打造一個(gè)app。
在2010年SteveJobs親自說(shuō)服了創(chuàng)始人把它賣(mài)給了蘋(píng)果。Siri直接被構(gòu)建進(jìn)了操作系統(tǒng)中,并成為了2011年10月iPhone4S發(fā)布會(huì)的重頭戲。而現(xiàn)在,它完完全全可以應(yīng)用在實(shí)際中。當(dāng)用戶(hù)長(zhǎng)按Home鍵或是簡(jiǎn)單的說(shuō)一句“Hey,Siri?!本涂梢允褂茫╥Phone有個(gè)特性,能讓其中一個(gè)收音器始終打開(kāi)又不會(huì)費(fèi)電)。Siri無(wú)論在它工作時(shí)還是沉默時(shí)都和AppleBrain是一個(gè)整體。就核心產(chǎn)品而言,Cue用了產(chǎn)品的四個(gè)組件來(lái)說(shuō)明:語(yǔ)音識(shí)別(理解你在和它說(shuō)話(huà)),自然語(yǔ)言理解能力(掌握并理解你所說(shuō)的話(huà)),執(zhí)行(實(shí)現(xiàn)你的詢(xún)問(wèn)和要求),回答(回應(yīng)你)?!皺C(jī)器學(xué)習(xí)影響了這些極其重要的方面”。Cue說(shuō)道。
Siri高級(jí)研發(fā)負(fù)責(zé)人TomGruber(上)、以及Siri語(yǔ)音大師AlexAcero(下)TomGruber在2011年其中一個(gè)創(chuàng)始人離開(kāi)后加入了蘋(píng)果,提到在蘋(píng)果給Siri使用應(yīng)用神經(jīng)網(wǎng)絡(luò)之前,其用戶(hù)群就提供了大量數(shù)據(jù),這對(duì)于鍛煉這個(gè)神經(jīng)網(wǎng)絡(luò)很重要。
Steve曾說(shuō)過(guò),你會(huì)一夜之間從一個(gè)不知名的app一躍擁有一億用戶(hù),并且無(wú)需公測(cè)。用戶(hù)會(huì)告訴你他們是怎么和你的app對(duì)話(huà),這就是第一次革命,接著,應(yīng)用神經(jīng)網(wǎng)絡(luò)就來(lái)了。Siri從最初的應(yīng)用神經(jīng)網(wǎng)絡(luò)到現(xiàn)在能夠應(yīng)對(duì)用戶(hù)的各種要求,全靠語(yǔ)音識(shí)別團(tuán)隊(duì)的高管AlexAcero等幾位AI專(zhuān)家。90年代早期,Acero就開(kāi)始了在蘋(píng)果語(yǔ)音識(shí)別團(tuán)隊(duì)的生涯,然后又去了微軟研究院。
“我喜歡那里的日子,我還發(fā)表了很多論文,”他說(shuō)道“但是當(dāng)Siri面世的時(shí)候,我覺(jué)得這就是一個(gè)把應(yīng)用神經(jīng)網(wǎng)絡(luò)得以實(shí)現(xiàn)的好機(jī)會(huì)啊!不是僅僅讓一百個(gè)人知道,而是要讓一百萬(wàn)個(gè)人用到?!睋Q句話(huà)來(lái)說(shuō),這就是蘋(píng)果一直需要的科學(xué)家,熱衷于研發(fā)產(chǎn)品而不是發(fā)表論文。
機(jī)器學(xué)習(xí)非常顯著的、從多個(gè)方面對(duì)Siri造成了沖擊
在Acero三年前加入蘋(píng)果那時(shí),Siri的語(yǔ)音技術(shù)實(shí)際上還主要是來(lái)自第三方的協(xié)議授權(quán),這注定要做出改變。Federighi還注意到這實(shí)際上是蘋(píng)果不斷重復(fù)的模式:
當(dāng)這個(gè)技術(shù)成為決定我們能否做出好產(chǎn)品的關(guān)鍵技術(shù),我們就會(huì)建立自己的內(nèi)嵌功能然后實(shí)現(xiàn)我們想要的效果。但如果想要讓它變得完美,我們必須自己擁有技術(shù)并且不斷創(chuàng)新,語(yǔ)音技術(shù)就是我們采納一個(gè)東西,并且最終實(shí)現(xiàn)落地的最好例子。
蘋(píng)果團(tuán)隊(duì)第一步選擇了用神經(jīng)網(wǎng)絡(luò)代替Siri原有的底層,“我們有一個(gè)不停運(yùn)轉(zhuǎn)的大型GPU集群,最終我們得到了大量的數(shù)據(jù)”Acero透露到。2014年7月的發(fā)布證明這些循環(huán)性學(xué)習(xí)并沒(méi)有白費(fèi)。
“在絕大多數(shù)語(yǔ)言中,錯(cuò)誤率都實(shí)現(xiàn)了減半,有些情況下效果還會(huì)更好。這主要是因?yàn)樯疃葘W(xué)習(xí)技術(shù)以及我們的優(yōu)化方式——不僅僅是算法本身,最重要是整個(gè)系統(tǒng)中內(nèi)容的傳遞?!?/p>
這種內(nèi)容的上傳通常意味著泄密。蘋(píng)果也不是第一家將DNN技術(shù)使用在語(yǔ)音識(shí)別上的公司,但是蘋(píng)果證明了它在控制整個(gè)傳輸系統(tǒng)這件事上,有著先天的優(yōu)勢(shì)。
這首先就是因?yàn)樘O(píng)果一直自己生產(chǎn)自己的硬件芯片,Acero甚至表示這讓他能夠直接和芯片設(shè)計(jì)團(tuán)隊(duì)以及芯片固件工程師進(jìn)行編程,讓神經(jīng)網(wǎng)絡(luò)的效能最大化。Siri團(tuán)隊(duì)的需求甚至還影響了iPhone設(shè)計(jì)中的其他很多方面。
“當(dāng)然,這不僅僅是芯片。設(shè)備上設(shè)置多少個(gè)麥克風(fēng)、麥克風(fēng)應(yīng)該如何放置、如何調(diào)整硬件、處理音頻的底層軟件,這些組件都需要進(jìn)行協(xié)調(diào)。對(duì)比一些只是開(kāi)發(fā)軟件的公司,這個(gè)優(yōu)勢(shì)實(shí)在領(lǐng)先太多。”
另外一方面:當(dāng)蘋(píng)果的神經(jīng)網(wǎng)絡(luò)能夠在一款產(chǎn)品中運(yùn)行起來(lái),它還能夠作為其他用途中的核心技術(shù)。最終結(jié)果是,機(jī)器學(xué)習(xí)讓Siri理解你,并且將輸入方式從鍵入變成了聽(tīng)寫(xiě)。
比如在你寫(xiě)信息和郵件的時(shí)候,點(diǎn)擊麥克風(fēng)按鈕、然后直接說(shuō),的確比跟軟鍵盤(pán)較勁容易得多。
另外一個(gè)Cue提到的SIri組成是自然語(yǔ)言理解。2014年11月起,Siri開(kāi)始使用機(jī)器學(xué)習(xí)來(lái)理解用戶(hù)輸入的內(nèi)容,而更進(jìn)一步基于深度學(xué)習(xí)的版本也在一年之后推出。
就像之前在語(yǔ)音識(shí)別上做的那樣,機(jī)器學(xué)習(xí)也提升了用戶(hù)的體驗(yàn),尤其是在更靈活地理解用戶(hù)命令。
Cue為此專(zhuān)門(mén)拿出了自己的iPhone現(xiàn)場(chǎng)演示了一個(gè)例子,在調(diào)用Siri之后,他分別發(fā)出了“用Square現(xiàn)金給Jane發(fā)20美元(SendJanetwentydollarswithSquareCash)”、“直接給我妻子發(fā)20美元(Shoottwentybuckstomywife)”,最終的得到的結(jié)果完全一樣。
蘋(píng)果最近還表示,如果沒(méi)有Siri帶來(lái)的這些而便利,它們不太可能迭代出現(xiàn)有這個(gè)在語(yǔ)音控制方面如此復(fù)雜的AppleTV。
盡管早期的Siri強(qiáng)迫你使用一個(gè)相對(duì)固定的方式說(shuō)話(huà),但是被深度學(xué)習(xí)加成之后的超級(jí)版本不僅能夠區(qū)分一堆電影和音樂(lè)中的特殊選項(xiàng)。甚至還能處理一些模糊的概念:“我想看TomHanks主演的驚悚片(如果Siri足夠聰明,它最終推薦的應(yīng)該是《達(dá)芬奇密碼》)”,在深度學(xué)習(xí)技術(shù)誕生之前,想要實(shí)現(xiàn)這樣的效果就是做白日夢(mèng)。
借助今年秋天即將發(fā)布的iOS10系統(tǒng),Siri的聲音成為了機(jī)器學(xué)習(xí)改良的最后一個(gè)部分。同樣的,這個(gè)改變也是用神經(jīng)網(wǎng)絡(luò)直接代替了之前的第三方授權(quán)技術(shù)。
本質(zhì)上來(lái)說(shuō),Siri的發(fā)聲還是依靠一個(gè)采集了很多聲音的大數(shù)據(jù)庫(kù),通過(guò)把句子打散成詞匯,再將詞匯的語(yǔ)音像堆積木一樣拼在一起。而機(jī)器學(xué)習(xí)所扮演的角色,則是讓單詞之間更加流暢,從而讓Siri的聲音更加像真人。
Acero同樣也做了一個(gè)演示——分別讓Siri閱讀兩段一致的內(nèi)容,第一個(gè)有著我們非常熟悉的“機(jī)器感”,而另外一個(gè)則非常流暢。而他所說(shuō)的原因也非常簡(jiǎn)單:“深度學(xué)習(xí)”。
雖然看起來(lái)這是一個(gè)很小的不起眼的細(xì)節(jié),但Siri有一副更加自然的嗓音實(shí)際上能夠催生出大變化。Gruber說(shuō)了下其中的差別:
音頻只要更加高質(zhì)量一點(diǎn),用戶(hù)們就會(huì)更加信任它。同時(shí)更好的語(yǔ)音也會(huì)引入用戶(hù),并且讓用戶(hù)對(duì)Siri的使用率更高。
當(dāng)蘋(píng)果最終將Siri對(duì)開(kāi)發(fā)者開(kāi)放,人們使用Siri的意愿,以及機(jī)器學(xué)習(xí)所帶來(lái)的提升就變得更加重要了。對(duì)蘋(píng)果批評(píng)者的意見(jiàn)進(jìn)行處理是一個(gè)非常長(zhǎng)期的過(guò)程。
也有很多人指出,蘋(píng)果的第三方伙伴數(shù)量停留在了兩位數(shù),與亞馬遜類(lèi)似的Alexa擁有的、由外部開(kāi)發(fā)者提供的超過(guò)1000種“技巧”相比,數(shù)量相差甚遠(yuǎn)。
蘋(píng)果的回復(fù)則指出這樣的對(duì)比并沒(méi)有意義,因?yàn)樵趤嗰R遜產(chǎn)品上用戶(hù)必須使用特定的語(yǔ)言去使用功能。而諸如SquareCash、Uber這樣應(yīng)用通過(guò)Siri來(lái)使用也更加自然。
與此同時(shí),Siri的改變也給蘋(píng)果產(chǎn)品以及用戶(hù)帶來(lái)了一些改變:用戶(hù)得到的是新功能以及完成相同任務(wù)的更多方式;而Siri服務(wù)的請(qǐng)求次數(shù)也在不斷上漲。
對(duì)于不斷拓展機(jī)器學(xué)習(xí)的蘋(píng)果來(lái)說(shuō),最大的問(wèn)題在于如何在成功的同時(shí)堅(jiān)持其原有的隱私證詞。蘋(píng)果加密了用戶(hù)的信息,這樣沒(méi)有任何人、哪怕是蘋(píng)果自己的律師也不能查看用戶(hù)數(shù)據(jù)(記得之前吃癟的FBI嘛?)蘋(píng)果還專(zhuān)門(mén)表示:不會(huì)將收集的用戶(hù)數(shù)據(jù)用于廣告目的。
在用戶(hù)的角度這也許是值得尊敬的,但這對(duì)于吸引頂尖的人工智能人才沒(méi)有幫助。
所有機(jī)器學(xué)習(xí)的專(zhuān)家,都希望能夠擁有一大堆數(shù)據(jù)。但是因?yàn)殡[私政策,蘋(píng)果一直不愿使用這些數(shù)據(jù)。這種做法是否合理仍需進(jìn)一步討論,但這確實(shí)讓蘋(píng)果一直被人看做人工智能世界中的局外人。
這種有普遍代表性的觀(guān)點(diǎn),換回來(lái)的卻是蘋(píng)果高層的激烈抗議。他們認(rèn)為在不保存用戶(hù)存檔的前提下,為機(jī)器學(xué)習(xí)提供所有所需文件,甚至將用戶(hù)行為的實(shí)例保存下來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)都是可能的。Federighi補(bǔ)充到:
這一塊一直存在錯(cuò)誤的敘述和權(quán)衡,大家認(rèn)為我們是保護(hù)用戶(hù)隱私的異類(lèi)其實(shí)是一件好事,但是為了讓絕大多數(shù)用戶(hù)的利益,我們?cè)敢饨o行業(yè)中的其他人指出一條發(fā)展之路。
我們已經(jīng)找到了獲取我們需要的數(shù)據(jù),同時(shí)又能保護(hù)用戶(hù)隱私的方法。
這里有兩個(gè)關(guān)鍵問(wèn)題,第一個(gè)涉及個(gè)人信息在機(jī)器學(xué)習(xí)基礎(chǔ)系統(tǒng)中的處理,當(dāng)用戶(hù)的詳細(xì)信息被神經(jīng)網(wǎng)絡(luò)所收集,那么最終我們能得到什么資料呢?
第二個(gè)問(wèn)題涉及到為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)和識(shí)別規(guī)律之時(shí)的信息聚集分類(lèi),你怎樣在保證群體數(shù)據(jù)的同時(shí)剔除個(gè)人信息?蘋(píng)果其實(shí)有同時(shí)解決兩者的方法,Cue表示:
有的人認(rèn)為我們不能用人工智能來(lái)做這些數(shù)據(jù)分析,因?yàn)槲覀儾⒉粨碛羞@些數(shù)據(jù),但是我們已經(jīng)找到了方法,在獲取信息的同時(shí)保持隱私屬性。這也是我們的底線(xiàn)。
首先是第一個(gè)問(wèn)題——保護(hù)被神經(jīng)網(wǎng)絡(luò)識(shí)別的個(gè)人喜好和信息,解決方法在于用更加獨(dú)特的方法來(lái)控制軟硬件。簡(jiǎn)單一點(diǎn)的解釋就是,最為私人的東西會(huì)停留在蘋(píng)果大腦之內(nèi),“我們將最敏感的信息保存在能夠執(zhí)行ML的本地”。
舉個(gè)例子來(lái)說(shuō),右滑之后出現(xiàn)的應(yīng)用列表。在設(shè)計(jì)中,這個(gè)位置需要顯示你接下來(lái)最可能打開(kāi)的幾個(gè)應(yīng)用。這些預(yù)測(cè)基于一系列因素,很多都涉及到用戶(hù)行為本身,這對(duì)于其他用戶(hù)來(lái)說(shuō)并沒(méi)有意義,蘋(píng)果的處理方法就是直接在手機(jī)本地處理需求。
最終功能的效果也非常明顯,預(yù)測(cè)用戶(hù)接下來(lái)用什么應(yīng)用基本能夠達(dá)到90%的準(zhǔn)確率。
蘋(píng)果在設(shè)備上保存的其他個(gè)人信息主要是——用戶(hù)使用iPhone輸入法鍵入的內(nèi)容。通過(guò)利用神經(jīng)網(wǎng)絡(luò)系統(tǒng)分析你的輸入,蘋(píng)果可以能夠發(fā)現(xiàn)關(guān)鍵性的時(shí)間和物品,比如航班信息,聯(lián)系方式,甚至是約會(huì)——但是信息本身只會(huì)停留在你自己的手機(jī)當(dāng)中。
即便部分信息會(huì)存儲(chǔ)在蘋(píng)果的云中,也會(huì)通過(guò)特定處理,讓這些存儲(chǔ)的信息無(wú)法反向還原“蘋(píng)果公司不需要知道你的愛(ài)好,或者你什么時(shí)候打算去哪里玩”。
蘋(píng)果也在盡量減少保存的信息量,對(duì)此Federighi也提到了一個(gè)例子:如果你的一段對(duì)話(huà)中有一部分需要進(jìn)行搜索,其他公司必須將整段對(duì)話(huà)上傳到云端進(jìn)行分析,而蘋(píng)果設(shè)備能夠在數(shù)據(jù)不離開(kāi)設(shè)備的條件下檢測(cè)出關(guān)鍵信息——這是因?yàn)槭謾C(jī)會(huì)將這些信息與手機(jī)內(nèi)的“知識(shí)庫(kù)”進(jìn)行匹配。
它很精簡(jiǎn),但是是一個(gè)綜合性知識(shí)庫(kù),包括了成千上萬(wàn)的定位和對(duì)象。我們之所以采用本地化的策略,是因?yàn)槲覀冎滥阍谀睦铩?/p>
Federighi還透露,這個(gè)知識(shí)庫(kù)其實(shí)與所有的蘋(píng)果應(yīng)用都有相連,包括我們用的搜索欄、地圖、甚至是瀏覽器,可以幫助用戶(hù)實(shí)現(xiàn)自動(dòng)糾錯(cuò)。
它其實(shí)一直在iPhone后臺(tái),保持著工作狀態(tài)。
接下來(lái)的問(wèn)題就是機(jī)器學(xué)習(xí)的循環(huán)問(wèn)題:究竟蘋(píng)果的隱私政策是否真的影響到了它的神經(jīng)網(wǎng)絡(luò)算法?因?yàn)橥ǔ?lái)說(shuō),神經(jīng)網(wǎng)絡(luò)都需要大量的數(shù)據(jù)來(lái)高效訓(xùn)練網(wǎng)絡(luò)的準(zhǔn)確度,但是蘋(píng)果并沒(méi)有放開(kāi)使用所有用戶(hù)的行為,那他們又怎么能夠了解用戶(hù)呢?
就像很多其他公司一樣,蘋(píng)果也是有利用一些公開(kāi)的信息庫(kù)來(lái)訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò),但是有些時(shí)候的確需要更加及時(shí)、更加特定的信息,這些智能從用戶(hù)的數(shù)據(jù)中來(lái)。
而蘋(píng)果的做法是——從用戶(hù)那里拿數(shù)據(jù),但是又確保自己不知道這些數(shù)據(jù)對(duì)應(yīng)的用戶(hù)是誰(shuí)。之前的做法是,完全讓數(shù)據(jù)匿名,然后以完全獨(dú)立于AppleID的另外一套系統(tǒng)來(lái)標(biāo)識(shí)他們。(另外一套系統(tǒng)和AppleID之間的關(guān)系只有蘋(píng)果知道)
進(jìn)入iOS10時(shí)代之后,蘋(píng)果更采用了一種全新的技術(shù):差分隱私。能夠在向大眾收集數(shù)據(jù)的同時(shí)完全不去辨識(shí)區(qū)分個(gè)體。
這方面的應(yīng)用例子就好像蘋(píng)果向你展示最近的時(shí)髦詞匯,但是他們并不在之前所提到的知識(shí)庫(kù)甚至是輸入法的詞典當(dāng)中;還有突然因?yàn)樵絹?lái)越多詢(xún)問(wèn)而“浮出表面”的鏈接;或者單個(gè)emoji表情的使用頻率增加。
完成這些事的傳統(tǒng)方式是把所有信息,比如你輸入的所有字詞,上傳到服務(wù)器短,然后由他們來(lái)發(fā)現(xiàn)其中有意思的東西。我們也有做端到端的加密,所以我們選擇不這樣做。
雖然差分隱私現(xiàn)在聽(tīng)起來(lái)更像一個(gè)學(xué)術(shù)詞匯,但是蘋(píng)果正在嘗試將這項(xiàng)技術(shù)普及出去。我們正在將它從研究所內(nèi)轉(zhuǎn)移到數(shù)以十億記的用戶(hù)面前。
Federighi緊接著又補(bǔ)充了一些相關(guān)的細(xì)節(jié):
我們?cè)诤芏嗄昵熬烷_(kāi)始做這件事,并且已經(jīng)在大規(guī)模應(yīng)用中獲得了有趣的成果。而且,你會(huì)為它的隱私程度感到意外。
他緊接著描述了一個(gè)系統(tǒng)其中包括了虛擬的隨機(jī)和加密機(jī)制,即便我專(zhuān)門(mén)寫(xiě)過(guò)一本關(guān)于加密的書(shū),也很難跟隨他的思維。但是總結(jié)一點(diǎn)來(lái)說(shuō),它實(shí)際上是把數(shù)學(xué)噪聲加到蘋(píng)果收集的用戶(hù)信息碎片當(dāng)中去。
在他看來(lái)蘋(píng)果的貢獻(xiàn)也是非常顯著的,同時(shí)也非常罕見(jiàn)的成為了蘋(píng)果對(duì)外公開(kāi)的技術(shù),因?yàn)樘O(píng)果授權(quán)相應(yīng)的科學(xué)家將工作細(xì)節(jié)和研究成果公制于眾。
對(duì)于機(jī)器學(xué)習(xí)如何改變蘋(píng)果的產(chǎn)品,這一點(diǎn)我們是可以肯定的。但是機(jī)器學(xué)習(xí)將如何改變蘋(píng)果自身這并不明確。按照其中一種思維來(lái)說(shuō),機(jī)器學(xué)習(xí)似乎與蘋(píng)果本身的氣質(zhì)不符。蘋(píng)果一直都是一家能夠全方位控制用戶(hù)體驗(yàn)的公司。所有東西都被預(yù)先設(shè)計(jì)好,并且以最謹(jǐn)慎的方式寫(xiě)好代碼。
但是當(dāng)工程師開(kāi)始應(yīng)用及其學(xué)習(xí),他們實(shí)際上是在讓軟件自身不斷去發(fā)現(xiàn)解決方案。蘋(píng)果是否能夠適應(yīng)當(dāng)下的機(jī)器學(xué)習(xí)系統(tǒng)?機(jī)器學(xué)習(xí)的結(jié)果是否最終會(huì)影響實(shí)際產(chǎn)品的設(shè)計(jì)?這都還是變數(shù)。Federighi對(duì)此表示:
這件事在內(nèi)部其實(shí)也引起了很多爭(zhēng)議,我們之前其實(shí)進(jìn)行過(guò)非常長(zhǎng)遠(yuǎn)的思考。之前我們都是根據(jù)自己的經(jīng)驗(yàn),從多個(gè)維度去控制人機(jī)交互的細(xì)節(jié),最終達(dá)到最佳的用戶(hù)體驗(yàn)。
但如果你嘗試通過(guò)大量數(shù)據(jù)訓(xùn)練機(jī)器,從而模擬出用戶(hù)的行為,結(jié)果蘋(píng)果設(shè)計(jì)師的經(jīng)驗(yàn)就不再占據(jù)領(lǐng)導(dǎo)地位,一切都是數(shù)據(jù)說(shuō)了算。
蘋(píng)果的典型用戶(hù)將在自己的日常使用中體會(huì)到深度學(xué)習(xí)帶來(lái)的改變
但是蘋(píng)果沒(méi)有因此而退縮,Schiller表示:
這些新技術(shù)的確在影響著我們?cè)O(shè)計(jì)產(chǎn)品的思路,最終有一天我們也會(huì)因?yàn)樗麄兡軌蜃屛覀兇蛟斐龈玫漠a(chǎn)品而是用他們。
這也許就是蘋(píng)果最終的解決方案:蘋(píng)果接下來(lái)依舊不會(huì)對(duì)采用的人工智能技術(shù)過(guò)多標(biāo)榜,而是一如既往的利用它們來(lái)提升產(chǎn)品質(zhì)量,你iPhone里面的那個(gè)“大腦”就是最好的例子。
典型的蘋(píng)果用戶(hù),將在體驗(yàn)深度學(xué)習(xí)過(guò)程中愈發(fā)熱愛(ài)蘋(píng)果產(chǎn)品。而最令人激動(dòng)的是這一切是那么難以察覺(jué),以至于當(dāng)你回過(guò)頭看差別的時(shí)候不僅發(fā)出感嘆:“這一切是怎么發(fā)生的?”
至于天網(wǎng)嘛,也許還要等等。
更多資訊請(qǐng)關(guān)注3C制造頻道。