機器人從車間走上工作崗位,已經(jīng)不是沒有不可能的的事情。在智能化不斷發(fā)展的今天,機器人“大腦”正逐漸豐富。機器人記者并不是首次提到,在之前就已經(jīng)出現(xiàn)了機器人記者。將機器人運用到寫作、編輯等領域,這將是未來的趨勢之一。
機器人記者來了優(yōu)勢不輸給記者
從最初替代勞動密集型的工程,到會說話的Siri和自動駕駛汽車,計算機正在變得越來越智能。如今,居然連寫作都學會了,記者們大規(guī)模失業(yè)的那一天會很遠嗎?
在前一階段熱映的電影《超能陸戰(zhàn)隊》中,私人健康助理大白(Baymax)虜獲了大批粉絲。除了討人喜歡的呆萌外表,大白的技能也毫不遜色于藍色的哆啦A夢—根據(jù)預先編制的程序,大白能對人體的健康狀況做出精準的判斷并給予及時的治療。
現(xiàn)實生活中,大白的設定機器人健康助理是2014年美國最熱門的創(chuàng)業(yè)方向:機器人和醫(yī)療健康領域。作為弱人工智能代表的大白,似乎離我們的日常生活并不太遙遠。畢竟,工業(yè)革命之后的200多年時光中,機器已經(jīng)取代人類完成了諸多工作,從最初簡單地把人類從重復單調的勞動中解放出來,到利用大數(shù)據(jù)解決人類各種問題的人工智能。雖然就目前的技術水平而言,不少事情還是人類更加擅長,但并不妨礙機器人學習越來越多的新技能,并開始從事越來越多的新工種,譬如,聽起來似乎不太可能由計算機來完成的:寫作。
機器人碼字知多少?
2015年1月的最后一天,在蘋果公司發(fā)布創(chuàng)紀錄的一季度財報數(shù)分鐘之后,美聯(lián)社即發(fā)表了題為《蘋果打破華爾街一季度預期》的新聞報道。如果不仔細閱讀文章下方的說明,讀者很難意識到這篇沒有署名的文章事實上是出自機器人記者之手。
這些機器人記者是美聯(lián)社與致力于自動化寫作的公司AutomatedInsights(以下簡稱“AI”)牽手合作的產(chǎn)物。自2014年年中開始,美聯(lián)社使用AI公司的Wordsmith平臺撰寫財報快訊。最開始,每篇由計算機生成的文章都會經(jīng)由人工編輯,糾正錯誤,同時這些錯誤也會被反饋至AI以便進行后續(xù)改進。10月起,完全沒有人為干預的自動化寫作程序正式啟動,機器人記者正式上崗負責撰寫業(yè)績短評和快訊。
事實上,第一條完全由計算機程序生產(chǎn)的新聞報道產(chǎn)生于2014年3月美國加州4.7級地震時。作為首家“聘用”機器人記者的主流媒體,《洛杉磯時報(LATimes)》在地震發(fā)生后3分鐘就發(fā)布了首條相關新聞。當時《洛杉磯時報》使用了一款名為Quakebot的軟件程序,基于美國地質調查局(USGeologicalSurvey)的數(shù)據(jù),當該局發(fā)出級別在一定程度之上的預警后,此程序即自動提取數(shù)據(jù),然后生成報道。報道完成后進入其內容管理系統(tǒng),等候編輯的審閱和發(fā)布。
機器人的“寫作”技能還不止于此,它們不僅可以充分滿足媒體傳播真實、及時的基本需求,而且還十分多產(chǎn)—對于以“碼字”為生的記者和作家而言,誰都知道這一條有多可貴。
歐洲工商管理商學院(INSEAD)的管理學教授帕克(PhilipM.Parker)所編寫的一套算法系統(tǒng)已經(jīng)成功寫出了超過20萬本書,其中不少都在亞馬遜有售。而瑞典一名教師發(fā)明的計算機程序Lsjbot已經(jīng)撰寫了約270萬條維基百科詞條,占到了維基百科總量的8.5%。并不為人所熟知的是,早在2001年維基百科上線之時,就已經(jīng)有了機器人的身影,且年產(chǎn)量在3萬篇左右。當然,當時的機器人“寫作”遠未實現(xiàn)自動化。以介紹美國各小鎮(zhèn)的短文為例,機器人直接從美國統(tǒng)計局抓取現(xiàn)成的數(shù)據(jù),然后將之變成短小、固定的短語,隨后由編輯接手,用歷史介紹和旅游景點等各種內容串起這些短語,從而生成最后的詞條。
“賦予數(shù)據(jù)生命”
與過去計算機“寫作”停留在利用龐大文本庫所進行的簡單拼湊相比,如今的機器人記者顯然已經(jīng)智能了許多,支撐它們的是一套嚴謹?shù)淖匀徽Z言生成系統(tǒng)。除了與美聯(lián)社合作的AI,另一家成立于2010年的公司NarrativeScience(以下簡稱“NS”)同樣致力于此領域。
如果說以Siri的語音識別技術是在信息輸入上的一種突破,那么,AI和NS想要做的就是更加擬人化的“輸出”,以文字的形式。AI表示自己公司的專長就是寫作,“正如某人在自己的特長一欄里寫上‘寫作’一樣”,NS則聲稱其計算機程序所撰寫的文章無論敘述還是表達都與人類的作品難以區(qū)別。
不僅奮斗目標一致,兩家公司最初的“實驗田”均是體育報道。這些機器人記者不僅能基于比賽結果等信息第一時間撰寫賽事快訊,還會對核心球員和精彩瞬間進行重點描述,而NS的程序設定還會自動生成標題并從圖片庫上挑選相應的球員照片作為配圖??梢哉f,目前的技術水平已基本上實現(xiàn)了賽事報道的一鍵生成。
當然,不同的媒體有不同的行文套路和風格。因此,機器人記者的第一步就是大量“閱讀”學習各家的不同風格,從而生成相應的模板,這個過程有點類似于《超能陸戰(zhàn)隊》中的大白在看到主人公因失去哥哥而意志消沉后,從電腦里下載了所有相關治療程序。
在模板生成之后,自動化寫作的第一步即是數(shù)據(jù)抓取。因此,在美聯(lián)社與AI的合作中,還有專門負責處理數(shù)據(jù)的Zacks參與。接下來,AI依據(jù)一定的算法從中挑選有用的數(shù)據(jù),并進行分析,找出其中的邏輯關系與趨勢,并把它們納入到更大的行業(yè)或社會、國家的背景中來解讀其意義。隨后就該輪到模板登場了,算法會按照重要性對各種可能的角度進行排序,并由此提煉觀點,選擇故事的“角度”,并形成文章的整體結構。剩下的工作就是生成文字,系統(tǒng)會用其自然語言生成功能對此前的分析和提煉得到的觀點進行故事化敘述,并按照需要生成各種形式的文本。根據(jù)各家的需要,系統(tǒng)還會通過多種方式,將內容實時發(fā)布到指定的平臺上。
從體育到財經(jīng),不難發(fā)現(xiàn),二者的共通之處就在于都是需要大量數(shù)據(jù)支持的新聞報道,而這正是目前自動化寫作應用最為廣泛的領域。除了美聯(lián)社和《洛杉磯時報》,福布斯、雅虎以及美式橄欖球聯(lián)賽(NFL)等機構都已經(jīng)開始“聘用”機器人撰寫一些基于數(shù)據(jù)的簡單報道。此外,還有一大批網(wǎng)絡媒體享受著機器人記者高效便捷的服務,但卻羞于對外發(fā)布自己的名字。
媒體并非機器人記者的唯一服務對象,始終圍繞著數(shù)字運轉的金融業(yè)是其另一大客戶。NS的客戶中就包括了萬事達、德勤、瑞士信貸、美國投資公司普信集團(T.RowePrice)以及金融集團USAA。這些機構都需要定期向投資人以及管理機構發(fā)送業(yè)績報告,過去這樣的報告通常需要一個專門的團隊花費數(shù)十小時完成,而啟用了自動化寫作的服務之后,抓取數(shù)據(jù)、生成報告不過是幾秒鐘的事情。
此外,企業(yè)盈利分析報告、市場調研報告、銷售趨勢報告等固定模式的文本,機器人記者如今都可以輕松應對,而且其技能還逐漸向制造、零售、醫(yī)療和健康等存在大量數(shù)據(jù)分析的行業(yè)滲透。就連美國中央情報局下屬分管投資的分支機構In-Q-Tel也使用了NS的服務—早在2013年4月,In-Q-Tel就已經(jīng)投資了NS。在2014年12月收獲了新一輪1000萬美元的融資之后,NS自創(chuàng)立以來的融資總額達到了3200萬美元。而AI在籌集了上千萬美元的資金后于2015年2月被管理資金規(guī)模達140億美元的私募股權投資公司VistaEquityPartners收購,并將整合AI與其早已全資擁有的數(shù)據(jù)內容生產(chǎn)商STATS的業(yè)務,充分挖掘大數(shù)據(jù)的價值,正如NS上的那句宣傳口號,“賦予數(shù)據(jù)生命”。
搶記者飯碗?
直到被收購前,AI的員工也不到40人。但僅在2013年,其自動化寫作系統(tǒng)就生產(chǎn)了3億個故事,2014年這個數(shù)字超過了10億,顯然它們已經(jīng)是全球最大的內容生產(chǎn)商。而美聯(lián)社過去每個季度約發(fā)表300篇企業(yè)業(yè)績快報,在與AI合作后則增加到了逾3000篇。不僅是產(chǎn)能大幅提升,計算機還能在短時間內處理大量數(shù)據(jù),通常在上市公司業(yè)績發(fā)布的數(shù)分鐘內即可推出相關報道,比起人類的碼字速度,優(yōu)勢十分突出。
NS合伙創(chuàng)立人、首席技術官漢默德(KristianHammond)早在兩年前接受媒體采訪時就曾表示,“機器人記者將于2017年拿下普利策新聞獎,到了2025年,由計算機生產(chǎn)的新聞報道比例將會高達九成。”當時,外界評論NS機器人記者的寫作水平大約相當于一個美國八年級學生的。兩年的習得,計算機的寫作水平自然也是精進不少。
那么,問題來了,記者會因此而失業(yè)嗎?
從美聯(lián)社和《洛杉磯時報》的情況來看,沒有人因為機器人記者的出現(xiàn)而被裁員。相反,由于計算機把記者從繁重的數(shù)據(jù)跟蹤和計算中解脫了出來,并在第一時間提供有價值的新聞線索,記者可以把更多的時間用來進行深度報道,創(chuàng)作更多高質量的、有觀點的干貨。在美聯(lián)社如今每季度發(fā)布的逾3000篇財務快訊中,約120篇會被加工成相對深度的報道。
畢竟,計算機既不會個性化的表達,也不會煉字鍛句,既不能采訪相關專家,更不能比較和判斷話題的價值,它們所能做的只是憑借自身超強的記憶能力以及對數(shù)據(jù)的抓取和分析能力,發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián),用專業(yè)、易懂的語句將它們簡單表述出來,僅此而已。正如同《超能陸戰(zhàn)隊》中的主人公打算替兄報仇時,需要重新給大白安裝一個攻擊性而非治療性的程序。在弱人工智能模式下,設定者依然是人,計算機并不具備獨立自主的思維,只能是模仿和學習。
但是,未來呢?在一個越來越由人工智能所定義的世界里,新聞的自動選編和精準推送都已經(jīng)實現(xiàn)了,是否會有一個真正能自主推理和解決問題的強人工智能計算機出現(xiàn),通過“計算機科學之父”和“人工智能之父”阿蘭·圖靈(AlanMathisonTuring)所設計的圖靈測試?“一個會寫作的機器人”甚至“一個會思考的機器人”,到底離我們還有多遠呢?
更多資訊請關注工業(yè)機器人頻道