Tekstum:图书网络口碑的晴雨表

来源 :出版参考 | 被引量 : 0次 | 上传用户:szw_jlcc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着在线评论文本的爆发式增长,出版商已经意识到了其背后蕴藏的巨大价值。西班牙创业公司泰克斯登抓住这个契机,通过对海量在线图书评论进行实时情感分析,力图提炼出更真实、更全面、更直观的读者反馈信息,以供相关机构参考,并辅助决策。
  热词:书评 在线图书评论 文本情感分析 Tekstum
  当我们在互联网上谈论读书时,我们在谈论什么?不论是称赞故事精巧,还是感叹装帧精美,抑或是埋怨文笔粗糙,毫无疑问,这一切都与读者个体的主观体验紧密相关。显然,读懂这些散布在个人博客、电商平台和社交网络上的图书口碑信息,有助于出版業更好地了解自己的消费者。西班牙创业公司泰克斯登(Tekstum,www.tekstum.nom)的使命即在于此:通过对海量在线图书评论进行实时情感分析,力图提炼出更真实、更全面、更直观的读者反馈信息,以供相关机构参考,并辅助决策。
  文本情感分析(Sentiment Analysis)也称意见挖掘,简言之,就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。以图书为例,通过分析在线书评的文本内容,可以发现读者对该书的褒贬态度与意见。在创始人马克·马丁内斯(Marc Martinez)看来,文学消费充斥着主观印象与情感体验,传统销售数字或许能反映出读者对一本书的预期,但并不能直接与读者阅读和购买的满意程度挂钩:“出版商还需要了解定性信息,那就是读者是否享受整个阅读过程,并挖掘出背后的原因。”
  Tekstum在加泰罗尼亚语(西班牙官方语言之一)中是“文本”的意思。该公司于2014年4月成立于西班牙巴塞罗那。两名创始人马丁内斯和桑当德鲁(Marc Santandreu)此前均拥有出版业从业经验。此外,其核心团队还包括1名数据科学家、1名语言学家和1名软件开发工程师。2016年2月,经过一年多的开发,Tekstum的在线图书评论情感分析系统正式投入使用,并入围2016年伦敦书展“量子出版创新奖(Quantum Publishing Innovation Award)”决赛名单。而Tekstum的目标就是立足自然语言处理技术,搭建“大数据、人工智能、文化”三位一体的数据分析平台。
  一、书评情感分析的实现过程
  Tekstum以单本图书为评价对象,通过捕捉在线评论的情感信息,获得对读者态度的有效洞察。其数据分析过程呈现出三大特点:一是内容覆盖面广,评论信息并非来自于单一平台或渠道,而是跨平台抓取;二是流程自动化,借助人工智能与大数据技术,实现了评论抓取、分析和结果呈现的自动化;三是实时性强,所有数据每周更新一次,还可以按照用户要求按日更新。书评情感分析的主要操作步骤见图2。
  首先是情感信息抽取,这是情感分析的基础工作。Web2.0时代,人人都可以通过互联网发表对图书、作者和出版品牌的评价与意见。这些评论主要集中于三种类型的网络空间:一是社交媒体(如Twitter、Facebook、个人博客);二是电子商务平台(如Amazon);三是读书网站(如Goodreads)。Tekstum通过对上述渠道的监测,将相关评论信息转化为结构化数据,以待进一步分析。来源平台的多样性使得Tekstum能够对图书的网络口碑进行较为全面、系统的反映。
  其次是情感信息分类,这是情感分析的主体工作。Tekstum将在线评论的情感倾向归为三类:褒(Positive)、贬(Negative)、中立(Neutral)。系统关键部分是一个包含2万多词汇的领域词典,它可以识别经常用来描述图书的词语。文本情感分析在其他行业同样存在,但描述一场电影、一家餐厅和一本图书所用到的形容词很可能完全不同。因此,针对出版业建立专门的情感词典至关重要。情感信息分类并非易事,过于含蓄、先抑后扬等表达方式都会给分类任务带来巨大挑战。唯一的解决办法是不断调试算法,在实践中出真知。截至2016年6月,Tekstum累计对7000多本西班牙语图书进行了在线评论的情感分析。
  最后是情感信息可视化,这是情感分析的收尾工作,同时也是与用户交互的接口。Tekstum的分析报告由人气指数、情感分析和文字云三部分组成。以科幻小说《火星救援》(The Mardan)为例(见图5,数据的采样日期截至2016年1月1日),该书于2011年由作者安迪·威尔(Andy Weir)自费发行电子书版本,并于2014年正式推出实体书。在人气指数方面,该小说当前人气较低,读者平均给分8.6分(满分10分),累计抓取到361篇相关评论。在情感分析方面,Tekstum以“绿色代表积极、橙色代表中立、红色代表消极”为原则进行可视化。在捕捉到的361篇评论、1460则推特(Twitter)消息中正面情绪和评价占到82%,表明该小说备受好评。其中,评论和推特数量都于2015年初达到峰值,显然是受到同名电影在全球热映的影响。在文字云方面,Tekstum将评论中的高频情感词汇予以突出显示。大部分读者都认为《火星救援》一书“引人入胜”“新鲜”“亲切”“可爱”,少数读者则表达了“无聊”“缓慢”“沉重”等负面阅读感受和情绪。
  二、书评情感分析的应用前景
  随着在线评论文本的爆发式增长,出版商已经意识到了其背后蕴藏的巨大价值。Tekstum通过收取年(月)订阅费用的形式向客户开放应用程序接口(Application Programming Interface,API),从而使自己的服务能直接被外部平台调用。目前,其用户包括出版公司、文学代理机构、图书馆、书店乃至普通消费者。整体而言,笔者认为基于书评的情感分析在出版业有三大应用方向。
  1.读者研究,服务于选题策划和图书销售
  图书评论是我们了解读者的一扇窗口。在传统售书模式下,出版商的重心主要放在吸引读者注意力上,如何卖出一本书才是最重要的,明显缺乏对后续阅读体验的关注。基于书评的情感分析则能直观反映出读者对产品的满意程度,为今后的图书策划和销售提供指导意见。通过与客观的销售数字相结合,还有助于发现在线评论情感倾向与读者购买行为之间的联系,从而加深对目标市场的理解。
  2.市场预测,提高决策与竞争能力
  利用大数据进行情感分析的好处在于,能够在长时间内监测图书口碑的动态变化。比起过去依靠编辑直觉进行市场决策,口碑信息的加入有助于提升决策的科学性。以图书再版为例,若图书出版多年后仍能在社文网络上拥有一定的话题度,显然增加了编辑继续推进图书再版、改版的信心。另一方面,通过与竞争对手的产品进行横向比较,也有助于发现市场的空白与新机遇。
  5.图书推荐,增强图书传播效果
  按照书评的情感色彩对图书进行标记,以实现更有人情味的图书推荐。传统的推荐算法只考虑用户的浏览或者购买行为,却忽视了读者的真实阅读体验。在情感信息的辅助下,图书推荐结果有可能变成“让人捧腹大笑的书”“让人心平气和的书”“让人激动不已的书”等强调主观感受的字眼。主题不同却具有相似情感体验的书籍也有可能联系到一起。
  据悉,Tekstum的下一个目标是推出英文图书的评论分析系统,后续开发计划还包括法语、德语版本。用新兴技术造福文化产业,是Tekstum引以为自豪的地方。就这点而言,出版业肩负着同样的使命。
其他文献
结合三钢棒材厂生产实际,通过在浊环水系统增加化学除油器工艺,并对其进行设计优化,使浊环水系统水质得以显著改善。
谭小麟是我国20世纪40年代艺术歌曲创作的重要代表人物之一,其作品风格清新典雅。写作手法精致洗练,鲜明的民族风格与考究的西洋作曲手法结合得异常完美,具有高度的思想性和艺术
期刊
通过对著名舞蹈编导周培武先生30年来创作的民族舞蹈作品的探讨、探索民族舞蹈创作发展的规律,那就是坚持深入生活,真正掌握各种舞蹈艺术知识,以崇高的人品和艺德去对待生活和事
内容资源数字化是出版业实现数字化转型升级过程中的基础性工作.笔者结合人民交通出版社(以下简称交通社)5年来内容资源数字化建设的具体实践,围绕“选择哪些资源数字化”“
期刊
摘要:对“三十而立”中的“而立”和“立”进行辨析,探索它們的可能演化过程,指明“立”和“而立”的使用范围。  关键词:论语 而立 立  前几日翻阅《论语·为政》,见到“子曰:吾十有五而志于学,三十而立,四十而不惑,五十而知天命,六十而耳顺,七十而从心所欲,不逾矩”一句,突然产生了一个疑问:“而立”能不能单独成一个词?常见的带“而立”的词语有“而立之年”“年届而立”“三十而立”,可为什么不说“而不惑
"互联网+"为各行各业带来了新的机遇和挑战,出版业进入了数字出版时代。随着高校教育信息化、智慧校园建设的大力推进,作为出版产业的重要组成部分,高等教育出版数字化转型工作
<正>《长江日报》报道:在近日举行的第三次文艺评论双月座谈会上,一则消息引发了与会的文学界人士的探讨:2014年年底,某出版社爆料,在与各家书店结单时,发现其出版的莫言多部
<正>IT技术和互联网技术的发展,改变了传统的传媒产业竞争格局和发展态势,使我国传媒产业中的类型小说、动漫、电影、电视剧等板块在近年里出现了井喷现象。由文学网站推出的
渠县汉阙呈现着巴蜀本土的艺术传统,是中国汉代“大一统”的审美文化思想与渠县“宕渠文明”的多样化的综合呈现。本文通过对“中国汉阙之乡”四川渠县汉阙建筑史意义和纹饰雕