职称论文发表 | 职称论文发表 专业提供:发表论文、论文发表、毕业论文、职称论... | |
住在汉口网 | 住在汉口网是一个专业提供汉口房产信息、车辆服务、生活服务、招... | |
职称论文网 | 职称论文网提供:发表论文、论文发表、毕业论文、职称论等服务。 | |
|
摘 要:网络舆情的研究对维护当前的社会稳定、保证经济正常发展有着重要的作用。由于网络舆情研究的文献众多,理清其脉络、了解研究的热点和重点是网络舆情研究的基础。对中国知网中核心期刊内与网络舆情相关的论文进行了统计及聚类分析,将网络舆情的研究方向大致分类,并总结出统计规律,为今后的研究提供指引。
关键词:网络舆情;文献聚类;k-means
随着互联网的快速发展,其作为网络舆情传播的渠道和反映民意的场所的功能也越来越引起多方的关注。网络舆情是指在一定时空内,围绕着某些公共事件,网民通过网络表达和传播的各种不同情绪、态度和意见交错的总和。由于网络舆情具有自由性、交互性、非理性和情绪化等特征,再加上当前社会处于转型期,社会矛盾较多,容易使得发生在小范围的某事件迅速升温,成为引起全民关注的大事件,甚至上升到需要政府部门出面平息的态势。因而,研究关于网络舆情的产生、传播、管理和预警等方面的原理和管理对策是具有重大意义的。通过对我国核心期刊搜集出来的文献进行聚类分析,从而了解当前我国网络舆情的研究现状及发现未来的研究趋势。
1 网络舆情文献来源分析
为了快速准确地把握我国网络舆情研究现状,而核心期刊的论文正代表了我国研究的较高水平,因此以网络舆情、互联网舆情为关键词从中国知网中的期刊全文数据库中提取了共183篇核心期刊论文或文献,提取文献的发表时间截止2011年12月。经过筛除类似一稿多发、会议通讯稿等相关文献,实际剩余173篇。
在这173篇文献中,所属期刊发表数量排名前三的分别是情报杂志(22篇),情报科学(7篇),情报理论与实践(6篇),说明情报学类期刊比较青睐网络舆情的相关研究,而发表量较少的为情报学报(1篇),小型微型计算机系统(1篇),多所国家重点高校学报等(1篇),表明在更高水平期刊上关于网络舆情的文献仍然较少,研究的深度和高度不够。
发表文献数量排名靠前的研究单位分别是华中科技大学公共管理学院(16篇),北京邮电大学(6篇),江西财经大学信息管理学院、中山大学咨询管理学院、中国人民大学、广州大学等(4篇),除此之外还有天津社会科学院舆情研究所、解放军信息工程大学、南京市委等研究单位也为网络舆情的研究做出了较大的贡献。而发表论文数较多的研究者(以第一作者计数)分别为华中科技大学公共管理学院的曾润喜(9篇),华东师范大学的许鑫(4篇),江西财经大学信息管理学院的丁菊玲(4篇),北京邮电大学的张一文(3篇),中国人民大学的喻国明(3篇),哈尔滨工程大学的史波(3篇),上海理工大学的宗利永(3篇)等。由此可见,网络舆情的研究逐步形成了以高校平台为依托,以关键学者为核心的团队化合作研究趋势。
在基金项目支持方面,共有81篇文献是在各级基金项目支持下完成的。其中国家自然科学基金项目15篇,国家社会科学基金项目26篇,973项目1篇,863项目1篇,教育部各级课题项目14篇,同时拥有两项课题项目以上的有18篇。从文献受支持的省部级以上项目批准时间来看,2006年批准3项,2007年6项,2008年18项,2009年32项,2010年23项,2011年2项(2011年的项目可能由于成果未来得及发表,因而项目数较少),说明当前我国的各级政府和相关部门对网络舆情的研究是大力支持的,也希望能够通过这些研究为维护国家的和平稳定做出贡献(见图1)。
从文献发表的时间来看,近3年发表的数量占据了绝大部分比例。分别是2009年18篇,2010年80篇,2011年有68篇,由此可以看出网络舆情自2009年以来已经渐渐成为了研究的热点,且论文发表数量也有逐步上升的趋势(见图2),也与项目批准立项时间推迟1~2年对应。
2 文献聚类方法概述
前述内容仅为对文献来源的粗略计量分析,并无法知道近年来网络舆情的实质性研究内容。为了掌握舆情研究的最新动态和发展趋势,则需要对文献的内容进行相关分析。主要采用数据挖掘中的聚类分析方法,将文献的内容按照其相似度进行聚类,对最终聚合产生的类进行分析和命名,以类名和该类所拥有的文献数量来大致确定当前网络舆情的研究主题和未来可能的发展方向。
传统使用的文献聚类技术主要分为两类:层次聚类和划分聚类。层次聚类的主要思想是将数据对象根据相似度按照某种规则聚集成为一棵聚类树,其代表性算法有根据聚类的方向从上之下的划分算法和从下至上的凝聚算法;划分聚类的主要思想是将数据对象根据相似度划分为多个簇,每个簇中的对象高度相似而簇间则高度不一致,其代表性算法有根据对象距离均值的K-means算法。随着人工智能与云计算的兴起,又产生了模糊聚类、人工神经网络聚类和演化式聚类法等其他聚类方法,其中人工神经网络中最具代表性的为自组织映射图网络,而演化式聚类法则为遗传算法。除上述所列之外算法,还包括以搜索法为基础的聚类算法,如模拟退火,比较直观的最邻近者聚类法,处理大型资料库的如CLARANS和BIRCH聚类法,以及为适应聚类使用者实际需求而加入局部限制条件的聚类算法。本文为了简化描述采用了传统的简单K-means算法。
K-means算法的基本思想是其每个类别均用该类中所有数据的平均值(或加权平均)来表示,这个平均值即被称作聚类中心。该方法虽然不能用于类别属性的数据,但对于数值属性的数据,它能很好地体现聚类在几何和统计学上的意义。虽然K-means算法比较简单,但它也存在着相应的缺陷,如:①聚类结果的好坏依赖于对初始聚类中心的选择;②多次迭代后容易陷入局部最优解;③对值的选择没有准则可依循;④对噪声数据较为敏感;⑤只能处理数值属性的数据,其他类型数据处理前必须转换为数值;⑥聚类结果可能不平衡,类的大小并不是平均的。
为了将文献数据转换为简单K-means算法可以直接处理的数值数据,必须对文献进行数据的预处理。主要实施步骤包括:选取表征符号、剔除冗余信息、去除常用词、建立表征矩阵。具体做法是:首先从这173篇文章中抽取出其关键词共得到275个关键词(先假定所有的关键词都是与网络舆情内容相关,在聚类的结果中再适量调整删除不相关的关键词),并将原为PDF或KDH等文献格式的内容转换为可以进行分词操作的TXT文本格式;接着使用武汉大学研发的ROST中文分词软件对TXT文本进行分词和统计词频处理,在处理前还必须使用其中的停用词去除功能消除不具备检索意义的停用词;经过处理后即可得到除去所有停用词后文本中剩余词的词频统计数据,再将该统计数据与前面的275个关键词联系起来,构建词的表征矩阵,从而将每一篇文献转换成为了表征矩阵中的相对应的一个向量,向量中的数据分别是某关键词在某篇文章中出现的频率。
建立好表征矩阵之后,为了让结果更符合聚类算法的要求,还要对其实现归一化。目前常用的归一化的方法是采用TF-IDF公式将已得到的词频转换为相对词频,并且还要考虑该关键词的权重以体现它对该关键词所属文献的重要性。用N表示文献总数,fij表示第i个关键词在第j篇文献中出现的次数,max{fij}表示第i个关键词在所有文献中出现的最大次数,而tfij体现了该单词对其文章的重要性归一化后的结果,用dfi表示为关键词i在多少篇文献中出现过,相应的TF-IDF权重计算方法则表示为二者之乘积,具体公式为:
tfij=■ (1)
idfi=log2(■) (2)
Tf-idf=tfij×idfi=tfadb×log2(■) (3)
经过预处理后的数据即可用于聚类分析。所使用的数据挖掘工具是weka3.7.0。Weka的全名是怀卡托智能分析环境,这是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件,其操作简单,安装方便,并且开放源码,还可以根据分析的要求进行编程修改。将预处理后的数据转换为Weka要求的csv格式导入Weka,选取其中的cluster功能,在使用算法中选择前面所介绍的Simple K-means,点击开始后很快就能得到聚类的结果。
3 文献聚类分析
聚类的结果主要可以从两个方面进行分析,一是从聚类的个数即最终类别的个数,二是每类所拥有的对象。类别个数即得到的主题的个数,而每类所拥有的对象则可以用于判断该类大致的主题。从聚类的效果看,为了让聚类后的结果显得较为平均,我们在类的个数上选择为8个,其结果(见图3)。
可见1类、4类和7类的所占的比例较大,分别为66篇(占38%)、22篇(占13%)和69篇(占40%)。这3类我们根据关键字和文献题目的特征将其命名为网络舆情规律和发现技术、网络舆情的政府应对处理、突发事件网络舆情,除此之外0类和6类也各有6篇文献,对其关键词和文献题目分析后将其命名为高校网络舆情和网络舆情预警技术和方法,最后剩下的3类由于所占比例较小,可直接从题名中取名,将其命名为网络舆情管理的作用研究、网络舆情信息传播管理和网络舆情消极思潮应对策略。
由聚类结果可知,当前研究的主要的方向是网络舆情规律及热点发现技术、突发事件网络舆情的应对和发现及管理、政府部门的网络舆情应对处理方式方法和管理手段研究等;而研究较少的即比较冷门方向为网络舆情信息传播管理和消极思潮应对等关于网络舆情产生前的积极防御和网络舆情产生后的积极的抚慰等管理研究,从而可知网络舆情今后在这两个方向还可以继续做些相关研究。此外,网络舆情预警技术的不成熟仍然给该领域留有较大的研究空间,在传播学领域和思政领域也可以继续对网络舆情在高校和网络社区间传播的特点和影响方式等进行相关研究。
…… 职称论文发表网http://www.issncn.com
职称论文发表网http://www.issncn.com
|