论文部分内容阅读
随着科技的发展和生活水平的提高,越来越多的商品涌入我们的生活当中。汽车和电子产品等商品具有价格高、技术密集的特点。由于价格较高导致重复购置的机会成本较高,因此消费者在购买时会更加慎重的选择。但这些产品本身技术复杂,消费者很难靠自身的能力来判断孰优孰劣,因此相关领域专家的观点就成为了消费者获取有用信息的重要渠道。通过互联网任何人都可以迅速且廉价的获取大量文章,但是这些文章风格迥异,观点各不相同,有些观点甚至会受到利益等相关因素的左右。由于信息量的巨大,非专业人士很难通过阅读提取出对自己有用的信息。本研究以汽车测评文章为例,通过分析建立文章分类标准,进而提取各类文章特征,挖掘出隐藏在各类文章背后的观点,最后汇集各类观点得到客观、全面的结论,目的在于为消费者购买商品时提供可靠依据。在具体研究过程中,首先通过网络爬虫技术实现了数据的获取,其次根据LDA主题模型和词频统计分析法对汽车参数进行了选择,最终共选择发动机、配置、空间等六大方面作本文的主要研究变量。随后利用情感分析方法将文本数据量化,在量化过程中构建了适用于汽车领域的情感实体词表。在得到数值型数据后,通过对各种聚类方法结果的对比,最终确定采用k-means聚类法实现对文章的分类。最后提取并汇集各类文章特点,确定得分计算公式得到汽车最终各项得分。本研究的意义在于以汽车测评文章为例,通过研究形成一套得分计算流程,帮助消费者简化在互联网上获取信息的过程,使消费者能够以较少的精力投入获得更准确、更有助于其做决策的有效结论,并最终将其推广到电子产品、股票等需要提取专家观点的所有领域。