旗下微信矩阵:

《连线》杂志:未来15年90%新闻稿将由机器撰写

Data Explorers首席运营官乔纳森·莫里斯表示:“你可以获得任何内容,如文章读上去像是一位金融记者正股票交易所大声呼喊,或像一位理智的金融分析师正纵观整个金融市场。”
2012-05-04 13:31 · 投资界     
   
 

  Narrative公司与其创始人

  哈蒙德生于美国犹他州,其父为一名考古学家,并在当地一所州立大学任教。成年后,哈蒙德原本计划当一名律师。但在上个世纪1980年代后期,也就是哈蒙德在耶鲁大学上学期间,他深受知名人工智能专家、耶鲁大学计算机系主任罗杰·尚克(Roger Schank)的影响。在拿到计算机科学博士学位后,哈蒙德受聘于芝加哥大学,并担任该大学一家新型人工智能实验室负责人。在该实验室工作期间(1990年代中期),他开发了一套可追踪用户阅读、写作习惯并向用户推荐相关内容的系统。

  在该技术基础上,哈蒙德创建了一家小型科技公司,后来他将该公司出售。这段时间中,哈蒙德进入美国西北大学工作,并担任该大学情报信息实验室主任。2009年期间,哈蒙德和他的同事拉里·伯恩鲍姆(Larry Birnbaum)在梅迪尔新闻学院教授一项课程,该课程同时包括电脑编程和未来新闻学两项内容。他们两人鼓励学生创建出可将数据转移成新闻故事的系统。在该班学生中,有一位是《芝加哥论坛报》的特约记者,其报道范围为美国高中生体育赛事。这名学生、以及另外两位新闻系学生同一名计算机系学生被分成一组。该开发小组的原型软件“Stats Monkey”,能够搜集各大学、中学的体育赛事得分和相应数据。

  在那个学期结束时,这个班级参与了该校举办的产品演示会。出席该演示会的新闻业人员,包括来自ESPN体育电视台、Hearst报业集团以及《芝加哥论坛报》的高管。Stats Monkey软件给与会人员留下了深刻印象。梅迪尔新闻学院院长约翰·拉文(John Lavine)回忆道:“他们将体育赛事得分数据输入到该程序当中之后,大约12秒钟之后,该程序就写出了有关美国体育机构历史的文章,同时还配备了图片和图片文字说明。”

  美国网络广告公司DoubleClick(注:此前已被谷歌收购)前高管斯图亚特·弗兰克尔(Stuart Frankel)也是参与当天演示会的嘉宾之一。弗兰克尔说:“他们当时一演示这款软件后,房间里的氛围马上就变了。尽管如此,该产品也就仅仅是一款能够撰写有关棒球新闻报道的软件而已。”从DoubleClick离职后,弗兰克尔随即加盟哈蒙德和伯恩鲍姆两人的行列中。这种软件能否撰写任何新闻报道?能否使用任何数据?在得到肯定的回答后,弗兰克尔认定计算机写作产业有着巨大增长潜力。2010年期间,哈蒙德、伯恩鲍姆和弗兰克尔共同创建了Narrative公司,弗兰克尔出任该公司CEO。

  Narrative首名客户是一家报道美国大学篮球联赛Big Ten会议的电视网络。合同规定,Narrative算法将需要以相当于实时方式,而撰写出数千条有关Big Ten的体育新闻,同时每个季度对该赛事的数据和新闻进行更新。Narrative还负责为美国女子垒球赛事撰写文章,Narrative也因此变成为该赛事撰写文章最多的“记者”。

  在Narrative开始执行合同后不久,就出现了一些小问题:这些文章往往侧重报道比赛胜出方。如果Big Ten的某只球队被外围球队击败后,Narrative软件撰写的文章会让人感到很丢脸。Big Ten赛事举办者因此向Narrative提出新要求:即使Big Ten的球队输球,Narrative文章仍能加以表扬。在这种情况下,多数人认为应该引进人工记者加以干预,但Narrative技术开发人员却认为无此必要,而只需对软件代码进行相应修订。有过这次教训后,Narrative在负责为美国儿童棒球赛事进行撰文过程中,也对相应数据进行了调整处理。

  Narrative的新闻撰写引擎需要数个步骤:首先,该引擎需要收集大量高质量的数据。这也是金融业和体育产业能够成为Narrative服务对象的直接原因:这两个产业都涉及大量波动性很强的数据:每股收益、股价变化、垒球投手责任得分率(ERA)以及棒球打点(RBI)等。而新数据总是源源不断,因此Narrative总能根据新数据撰写出新文章或丰富旧内容。

  举例来说,棒球“粉丝”们已创建了在比赛进行过程中预测某个球队胜算把握的模式。在此过程中,如果某个得分改变了胜算把握的几率,比如由40%上升至60%,则Narrative算法就会将这个得分作为截止当前比赛进程中的亮点加以描述(比如Narrative必须知道击跑数量最多的球队将胜出)。因此Narrative技术工程师就为每种赛事或活动预先设定一些规则。那么该如何做才能将这些分析数据变成文章?该公司招聘了一个所谓“元作者”的团队,该团队由资深记者组成,以负责创建一系列报道题材的模板。该团队同Narrative技术工程师密切合作,使计算机能够从不同“角度”来识别相应数据。比赛结果是哪个球队胜出?是艰难胜出还是大败对方?比赛过程中是否有某位球员表现绝佳?该算法还根据比赛已知数据和其他数据库进行推测:是否某个关键一击起到了定胜负的作用?

  然后就是文章结构事宜。绝大部分新闻报道尤其是体育和金融题材,往往都会形成一个可预见的固定模式,因此创建相应文章模板,就成为相对比较简单的问题。该算法按照元作者提供的词汇来组成句子(就垒球而言,元作者似乎会在很大程度依赖20世纪早期知名体育评论家林·拉德纳(Ring Lardner)的写作用词习惯),该公司将这种完成后的产品称为“叙事作品”(narrative)。

  当然这种算法偶尔也会犯些小错误。比如说棒球比赛中的代打者(pinch hitter)每场比赛只能代打一次,但Narrative算法所撰写文章有时会将代打次数描述成2~6次。只是诸如此类的错误很少出现。哈蒙德表示,有时数据库也会提供错误信息,而Narrative算法已具有纠错功能。哈蒙德说:“如果某家公司的季度利润环比增长了600%,算法就会指出,很可能某个环节出现了错误。人们会问这样的问题:我们的算法是否出过令人难堪的大错误,我们的回答是从未有过。”

  《福布斯》媒体首席产品官刘易斯·德沃金(Lewis Dvorkin)表示,在对Narrative所报道的每一个赛事或其他活动进行了解后,他本人对此印象深刻但并不感到惊讶。尽管人工记者所撰写文章出现重大错误并不鲜见,但德沃金并没有听说过有关计算机自动新闻报道出错的任何投诉。德沃金说:“一次也没有。”

本文来源投资界,原文:https://news.pedaily.cn/201205/20120504325779.shtml

【本文为投资界原创,网页转载须在文首注明来源投资界(微信公众号ID:PEdaily2012)及作者名字。微信转载,须在微信原文评论区联系授权。违规转载必究责。】

本文涉及