2015年9月10日,一條標題為《8月CPI漲2%創(chuàng)12個月新高》的新聞在騰訊財經(jīng)上發(fā)布??瓷先ィ@條新聞的內(nèi)容和媒體記者日常的消息稿無異,引用了統(tǒng)計局的數(shù)據(jù),還加入了國家統(tǒng)計局城市司高級統(tǒng)計師余秋梅以及銀河證券等分析師對數(shù)據(jù)的分析和預測。但它背后的作者,其實是騰訊財經(jīng)開發(fā)的寫稿機器人DreamWriter。
“機器人來搶記者飯碗了!”“記者們已哭暈”……寫稿機器人一時間引發(fā)業(yè)內(nèi)熱議。
距離寫稿機器人DreamWriter發(fā)出的第一篇新聞已有一年半的時間,媒體中陸續(xù)已有如第一財經(jīng)“DT稿王”、新華社“快筆小新”等機器人開始參與寫稿工作。
DreamWriter項目副總監(jiān)劉康對包括第一財經(jīng)在內(nèi)的媒體透露,目前財經(jīng)+科技應用的發(fā)稿量超過2000篇/天,體育稿量500篇/天,包括每天行情報盤、上市公司公告精要報道,以及體育賽事每輪每場的消息。
不僅如此,據(jù)第一財經(jīng)記者了解,基于寫稿機器人,騰訊內(nèi)部一款集合了新聞資訊類AI和超級資訊服務秘書類的應用正在研發(fā)當中。
機器人這樣“寫稿”
之所以開發(fā)一款寫稿機器人,源自騰訊自己的“痛點”。
劉康對第一財經(jīng)記者回憶,當時他所在的騰訊財經(jīng)頻道招了一批新人和實習生,大量的基礎工作、快速的稿件、財報、宏觀數(shù)據(jù)變動、板塊變動都需要快稿,這對新人來說既枯燥也辛苦?!八源蠹叶荚趩柲懿荒茏寵C器來做,這樣的話,我們富有創(chuàng)造力的新人可以把自己的精力留下來,做更有創(chuàng)造力的事情,這是我們做這件事情的起點?!?/p>
于是,從2014年12月開始籌劃并建立數(shù)據(jù)庫,到2015年3月正式啟動機器人寫作項目,經(jīng)過開發(fā)和測試約半年后,騰訊寫稿機器人DreamWriter于2015年9月正式上線。
劉康告訴第一財經(jīng)記者,事實上DreamWriter的團隊僅有五個人,不過多個騰訊部門均被卷入DreamWriter工作中,參與搭建和底層支持。
在過去一年半的時間里,這支團隊一直在低調(diào)運作。劉康告訴記者,DreamWriter一直在持續(xù)工作,尤其在奧運會期間,DreamWriter產(chǎn)出內(nèi)容達3600余篇,其中第一塊金牌的新聞就是機器人寫的。
寫稿機器人DreamWriter,究竟是如何寫出一篇新聞稿件的?
劉康表示,從文本的角度,機器寫作實現(xiàn)從0到1,是相對簡單的,例如,用技術團隊簡單做一個財報系統(tǒng),或是給體育賽事做一個基本的描述這類模塊化的寫作,但是如何從1到3,讓機器人的稿子寫得有“人情味兒”、對細節(jié)描述更加到位和精彩,花費了相當多的精力。
以寫跳水新聞為例,這是一個評分制的比賽,評委對于走板、空中姿態(tài)、落水姿態(tài)、水花等每個動作的打分,都有翔實的數(shù)據(jù)被記錄在數(shù)據(jù)庫里。接下來,這些數(shù)據(jù)會被騰訊通過一定的算法和機器自己的識別——先讓機器跑幾十萬篇的數(shù)據(jù),跑一個規(guī)則出來,它會自己把這些數(shù)據(jù)重新還原。因為每一個分數(shù)都可以還原成一個動作,這樣通過一定的算法把它還原成原先的場面就變得可行。
劉康提到,其實競爭對手也有很聰明的寫稿機器人,不過對方的做法是抓直播間的描述,通過一定的算法和邏輯拼接成一篇文章,而騰訊寫稿機器人DreamWriter不一樣,是基于特別細顆?;臄?shù)據(jù)進行還原。
“今天數(shù)據(jù)量非常細,細到可以描述到每一個數(shù)據(jù)的顆粒還原。”劉康說,“比如足球的動作怎么記進數(shù)據(jù)庫里面,射門包括射偏、打中立柱、高出立柱……這些都可以用數(shù)據(jù)還原?!?/p>
而在寫稿機器人背后的核心技術,主要涉及的有包括智能撰文技術、內(nèi)容抽取技術、要聞萃取技術這三項。目前騰訊已經(jīng)獲得相關專利。
以內(nèi)容抽取的技術為例,DreamWriter可以把一篇千字文章概括為數(shù)百字,其中涉及到統(tǒng)計學、深度學習等技術。在財經(jīng)領域,寫稿機器人更依賴統(tǒng)計學,但在其他內(nèi)容領域,騰訊可能需要單獨研發(fā)一款算法產(chǎn)品模型。
此外,針對寫稿機器人所寫的稿件,騰訊成立了一個專門的安全管理平臺進行內(nèi)容風險管控:第一輪,機器寫作時會單獨做一個算法和規(guī)則判斷機器寫得有沒有問題;第二輪是經(jīng)過安全審核;第三輪才能正式推出來。這中間銜接時間越少,意味著出來的作品既準確又迅速。
做一款和頭條相反的產(chǎn)品
劉康對記者透露,目前DreamWriter在財經(jīng)、科技、體育等領域的常規(guī)撰文、批量撰文已經(jīng)開發(fā)完成,這款寫稿機器人未來一年甚至更長的時間的工作重點,主要在于持續(xù)進行優(yōu)化文本,并且將內(nèi)容生產(chǎn)領域從目前的科技、財經(jīng)和體育擴充到全品類。
例如,在財經(jīng)領域新聞的寫作上,目前寫稿機器人本身具備強算法規(guī)則和模型,但難度也不小,特別是對數(shù)據(jù)的解讀和認知,甚至將來的預測。劉康坦言,如果希望DreamWriter寫得更有深度,甚至將來要寫行業(yè)研報、寫一些垂直類深入的研究,目前仍需要再花時間深耕。
在劉康看來,寫稿機器人不會搶走記者的飯碗,而是希望DreamWriter能夠解放記者,讓記者從事更具挑戰(zhàn)和智慧的工作。“遠遠談不上取代(記者),我希望它始終是個助手,幫我整理資料,然后我來賦予它生命?!?/p>
接下來,DreamWriter團隊希望推出一款集合新聞資訊類AI和超級資訊服務秘書類的App。
從第一財經(jīng)記者的體驗來看,這款代號為“DreamRead”的App聽讀兼?zhèn)洌闪苏Z音交互和文字閱讀的功能,所有內(nèi)容來自DreamWriter撰寫實時要聞簡報和要聞精華。
和今日頭條、天天快報等正在“殺死”用戶越來越多時間的新聞類App不同,劉康稱希望給這款App“做減法”,充當“助手”的角色,給用戶提供重要且簡潔的新聞,讓用戶“用完即走”。
他提到一款關于實時快消息的國外App,“我?guī)缀鯖]有打開過它,只是它會推送到通知中心,我掃一眼就大概知道了,從DAU來講它沒有多少,因為我沒有打開過它,時長更沒有了,但是它對我是有用的,對我有幫助。我們也一樣,希望不用這些標準,只要它能幫助到你,我們認為它就是一個好產(chǎn)品。”
除了提供個性化的資訊,騰訊還希望DreamRead延伸成為一個集合了天氣、汽車、娛樂、科技、重大政策、資產(chǎn)管理等眾多場景在內(nèi)的服務平臺?!氨热缯f可以推送一下最近我買的股票怎么樣、投資基金虧了多少錢;再如最新的房地產(chǎn)政策,比如我買了一套學區(qū)房,它會提醒你,最近房地產(chǎn)政策頻出,你要關注一下你的資產(chǎn)安全?!?/p>
不過眼下,這款圍繞個性化資訊生產(chǎn)和服務的App還需時間打磨,劉康稱,目前還沒有確定上線時間表,也不排除會對產(chǎn)品架構(gòu)進行大幅修改。
更多資訊請關注機器視覺頻道