开发者社区 开发与运维 文章 正文

如何用VOSviewer分析CNKI关键词共现?

简介: 用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑。本文帮助你绕开这个坑,或是从坑里爬出来。

用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑。本文帮助你绕开这个坑,或是从坑里爬出来。

img_7b3c3bf0cf6e36599d361146ff02dbe4.png

疑惑

在《 如何用VOSviewer分析CNKI数据?》一文中,我们提到了如何用VOSviewer可视化分析CNKI文献。

依照文中的步骤,我们从CNKI下载并导出《图书情报知识》期刊2016年全年文献数据,通过Endnote作为中转,最终导出了VOSviewer可以读取的RIS文件。

我把这个几经辗转得来的RIS文件存放到了 这里,你可以直接下载使用。

利用 该数据文件,我们用VOSviewer分析合作者(Co-authorship),做出了这张图。

img_1a03d078375f12069576c4ded6460ce7.png

有的读者很兴奋,立即打算用同样的方法,做CNKI中文文献的关键词共现分析(keyword co-occurence)。

很快,他们就遇到了问题。因为用样例数据,虽然可以做出分析结果图,却是这个样子的:

img_ff15d1b12a653a811adfdd1d8444b995.png

图里面只有关键词,没有任何关键词之间的连接。这叫什么共现分析?!

有读者很沮丧地把这幅图发给了我。问我这是否意味着,VOSviewer不能胜任中文文献的关键词共现分析?

当然不是。

VOSviewer做的是统计和可视化。对于它来说,中文和英文关键词没有本质区别。只要来源数据处理得当,分析的结果都应该是正确的。

那么问题究竟出在哪里呢?

原因

我们用样例数据,重新走一遍流程。复现读者遇到的困境。

VOSviewer主界面里,我们选择File -> map -> create,新建一个分析图。

第一个对话框问我们映射方式。

img_3ce546a3a2eff8b104094a7217fcce3c.jpe

我们从中选择第二项。

然后新弹出的对话框会询问分析源文件的格式。

img_5202651444d1d769179fc5a3621a6215.jpe

我们选择RIS。

img_1826e6c0392f9215e95c405406e950ad.jpe

下面的对话框,询问分析类型。默认是合作者分析(Co-authorship)。

img_f6ada9624a8f903b6901c428994d14d4.jpe

我们选择关键词共现分析(Co-occurence)。

img_4de7fe290cb8113080031fa053531ea7.jpe

然后VOSviewer询问我们阈值的选择。

img_07bf284ffa45ceddb2dc4817d708a32e.jpe

注意默认的阈值为3,可是这样只有3个关键词满足阈值。最终的图上如果只有3个节点,就太稀疏了。于是我们降低阈值到1。

img_b8b64fcfc895cff3f78fea275049f413.jpe

VOSviewer提示我们,通过阈值过滤的关键词有83个。

img_0c7fbea8be3e9b9ba554528303d2c72f.jpe

我们选择下一步。这时可以看到全部关键词列表。

img_0925a226293147c17c3d9b833a388a58.jpe

我们可以从中选择或者反选关键词做分析。

但是此处别着急进行下一步。我们看到了非常奇异的现象。

注意图中列表的最后一列,是连接强度,也就是这一行的关键词与其他关键词共同出现的总次数。默认从大到小排列,可是所有的关键词共现次数居然都是0次

难怪我们点击下一步的时候,会出现关键词节点间,全无链接。

img_ff15d1b12a653a811adfdd1d8444b995.png

为什么关键词同时出现次数分析值都是0呢?难道每篇论文只有1个关键词?关键词之间从来没有同时出现过?

这不符合常识。

我们发表期刊论文或者写毕业论文时,一般情况关键词至少也要列出3个吧。

带着这样的疑惑,我们就要检查一下RIS源文件了。

img_f95789ac450104c0e43e214698308ddc.jpe

以其中的第一篇《信息素养的历史与实践之旅》为例,我们看到关键词一共有3个,分别为“信息素养”、“行动素养”和“行动素养联盟”。

如何识别它们是关键词呢?

因为前面有个KW -前缀作为标志。

然而问题来了,我们看到作者信息部分,每个作者名字前,都有AU -前缀。

AU - G.Zurkowski, Paul
AU - V.Kelly, Jeffrey
AU - 刘千卉
AU - 程璐

可是关键词这里,除了第一个有KW -前缀,其他都没有。

KW - 信息素养
行动素养
行动素养联盟

会不会是因为这个缘故,导致合作者分析链接正常,而关键词共现分析链接消失呢?

我们做个实验,验证一下咱们的猜测。

实验的方法很简单。我们把第一篇文献的另外两个关键词之前,都加上KW -前缀。其他文献的关键词不做任何处理。

修改后的RIS文件,就成了这样子:

img_15a6c6278c030a2f59d2843206d4111e.jpe

我们回到VOSviewer,重新分析。前面的步骤和上一节完全一致。直至最后一步。

img_78f5214214562c5a3a4395af4ba3d259.jpe

我们非常明显地对比出,关键词总链接强度(Total Link Strength)一项发生了变化,有几个关键词,不再是0了。

发生改变的这几个关键词,恰恰是刚才添加过前缀的那几个。

img_22d729da5465367a3edd31f999a21ea0.jpe

这个简单的实验,验证了我们的猜测。

并不是VOSviewr的处理能力有缺失,而是中文文献元数据,经由Endnote导出为RIS格式的时候有纰漏,导致多关键词的前缀没有全部正确添加。

效率

问题找到了。

下面我们该怎么办?

很简单,把所有关键词的前缀都添上就好了啊。

你可能立即觉得天旋地转。

把前缀都添上?说得轻巧!

样例数据里,文献有数十篇。一篇篇找关键词,添加前缀,虽然会做个头晕脑涨,但毕竟还有个盼头儿。

问题是,要分析的文献有好几千篇。都添完的时候,是不是下学期都该开学了?

也没那么夸张了。

想想愚公移山,精卫填海……先贤的精神力量还不够给你以感召吗?

img_9c1c8cce01ddea17f024c12d2fac88e2.png

精神固然要有,但效率也是要追求的。

我们当然不能一条条手动查找关键词并添加前缀,那样效率太低。我们要用工具来自动化解决这个问题。

好消息是,工具我已经帮你编写好了。

下面我详细告诉你,该怎么使用。

工具

我帮你编写的工具,是个Python脚本。

我们需要安装Python运行环境Anaconda,来使用这个脚本。

请到 这个网址 下载最新版的Anaconda。下拉页面,找到下载位置。根据你目前使用的系统,网站会自动推荐给你适合的版本下载。我使用的是macOS,下载文件格式为pkg。

img_c7d98363b30b934f433bd01ed877a66d.png

下载页面区左侧是Python 3.6版,右侧是2.7版。请选择2.7版本。

双击下载后的pkg文件,根据中文提示一步步安装即可。

img_c9551cc7450053e088b8faea3e1c30ed.jpe

安装好Anaconda后,我们来下载脚本。

我把脚本存储在了 Github项目里。请从 这个位置下载压缩包。

下载后解压到本地,这个目录就是咱们的演示目录。

img_7c17f77d29e417a4dd64109895564875.jpe

请进入终端(macOS或者Linux),用cd命令进入到这个目录。如果你用的是Windows,请运行Anaconda Prompt程序,并进入该目录。

img_96212fa91858d5a4eb3ef8485f7ecbeb.jpe

下面,请执行以下命令。

python ris-add-kw-prefix.py tsqbzs.ris

如果你要尝试处理自己的RIS文件,请把它拷贝到这个演示目录里面,然后把上面命令语句中最后部分(文件名)改成你自己的RIS文件。

执行后,你会发现目录下多了一个文件,叫做output.ris。

img_ac67e3a31abc1430b772a14fbcb83050.jpe

我们打开这个新生成的RIS文件。

img_cc94d7675c2e26b709354f4684204a9c.jpe

可以看到,所有的未加前缀的关键词,都已经自动添加了前缀。

我们尝试将这个output.ris输入到VOSviewer,这次的分析结果列表如下:

img_065a8a3c487b7c2d28860c8f36953b6c.jpe

这时候再看关键词链接数量,就合理多了。

利用这个分析结果来可视化,你会看到以下生成的图形:

img_ee8801e4e2bd11785aea309d086606f3.png

在这个样例中,我们只有几十篇文献。利用脚本处理前缀,显得有些大炮轰蚊子。

但如果你需要处理几千、几万篇文献的记录信息,用这个脚本也一样可以瞬间完成操作。效率的差别就体现得淋漓尽致了。

好了,到这里为止,你已经了解如何利用咱们编写的工具,对Endnote导出的中文文献做关键词处理,在VOSviewer中正确分析关键词共现了。

目标达成。

如果你对原理和技术细节不感兴趣,下面就可以跳到小结部分了。

如果你还没走,我来猜猜你在想什么。

这么高效的处理方法,是不是令你感觉不可思议?

老师你的工具至少有300行语句吧?

没有。

其实程序从头到尾,只有20多行。

img_350b18d7655cd585c65004ac6171bbfb.jpe

而其中的核心部分,只有3行。

老师动用了什么黑魔法?!

魔法

我当然不会魔法。

我们使用的,是计算机最简单的能力——根据指令,重复执行枯燥劳动。

从第一行开始,依次检查每一行的文字。如果该行不是空行,而且其中不包含前缀连接符号“-”,那么我们就将其当成未加前缀的关键词。

我们让计算机在这行文字的最前面,加上KW -前缀。

就是这么简单,一点也不炫酷。

但是计算机怎么理解“不是空行”、“不包含符号‘-’”呢?

请看我们Python文件中的核心函数代码。

def add_kw_prefix(data):
    regex = r"^([^\-\s]+?)\s+$"
    subst = "KW  - \\1"
    newdata = re.sub(regex, subst, data, 0, re.MULTILINE)
    return newdata

我们用到的工具,叫做正则表达式(regular expression),简称re。

img_6e2073e4fb5aebc8324f6e04e0e7204f.png

它是计算机处理文本模式的一种经典工具。

我们之前谈到机器学习的时候,曾经说过。机器学习模型,是人不知道怎么描述规则的时候,让计算机自己学。

而正则表达式,则恰恰相反,是人类可以很准确地描述规则时,为机器定义的模式。

正确定义模式后,计算机就会检查文本中是否包含这种模式,并且做出对应的处理。

正则表达式的功能非常强大,不过学起来需要花一番功夫。

如果你对正则表达式感兴趣,希望自己也能操纵计算机程序,对文本精确地做出模式识别与处理,可以参考DataCamp上的 这篇教程来学习。

img_f8d7e95e7d039699f4ddb54048f5bd96.jpe

小结

通过本文,希望你已经了解了以下内容:

  1. VOSviewer可以正确处理中文文献的关键词共现分析;
  2. CNKI文献元数据经由Endnote导出成RIS时,关键词处理有瑕疵,需要添加对应前缀;
  3. 你可以利用我提供的Python脚本,来快速完成前缀添加工作;
  4. 正则表达式的使用,可以有效提升大规模文本模式匹配与处理操作的效率。

讨论

用本文的方法,你做出了正确的CNKI文献关键词共现分析了吗?在此之前,你是如何处理关键词共现分析的?有没有什么更加简便高效的方法?欢迎留言,把你的经验和思考分享给大家,我们一起交流讨论。

如果你对我的文章感兴趣,欢迎点赞,并且关注我的专栏,以便收到后续作品更新通知。

如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。

延伸阅读

数据科学相关文章合集(玉树芝兰)

王树义
目录
相关文章
公开课小能手
|
搜索推荐 算法 知识图谱
搜索场景下的智能推荐演变之路
本文中,阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。
公开课小能手
2638 0
小白学大数据
|
6月前
|
数据采集 算法 数据挖掘
如何使用Python提取社交媒体数据中的关键词
如何使用Python提取社交媒体数据中的关键词
小白学大数据
101 1
Lotay_天天
|
7月前
|
XML JSON 缓存
Java实现根据关键词搜索抖音视频数据方法
Java实现根据关键词搜索抖音视频数据方法
Lotay_天天
351 1
光算科技
|
8月前
|
数据采集 监控 搜索推荐
谷歌关键词优化效果怎么做?
答案是:关键词优化效果取决于是否投入足够多的GPB外链资源和足够多的优质内容。 选择合适的关键词 研究关键词 通过使用关键词研究工具,如Google Keyword Planner,了解目标市场的搜索热度,找出相关性强、搜索量大的关键词。 长尾关键词的使用 对于新站点和小型网站,应考虑使用长尾关键词。 长尾关键词由三个或更多的词组成,虽然搜索量较小,但竞争较小,更容易在搜索结果中获得较高的排名。
光算科技
90 0
谷歌关键词优化效果怎么做?
小马也识途
|
搜索推荐 UED SEO
什么是关键词排名优化?怎么做短视频关键词排名优化?
什么是关键词排名优化?怎么做短视频关键词排名优化?
小马也识途
107 0
什么是关键词排名优化?怎么做短视频关键词排名优化?
幸运码发放
|
搜索推荐 SEO
关键词挖掘工具有哪些?
关键词研究工具有哪些? 如果您想进行高质量的关键词研究,您需要花费大量时间。关键词研究是一个需要您进入受众群体的过程。你想知道他们正在使用哪些词。之后,您需要先分析哪些关键词。更重要的是,你需要评估竞争:关注长尾关键词可能是一个很好的策略,特别是当你试图在竞争激烈的市场中排名时。
幸运码发放
2099 0
小峰seo博客
|
算法 UED SEO
多维度思考怎么做关键词排名
今天在这里和大家一起来说网站关键词排名如何提升问题,我这里想说的是“网站维度”也就是要几个方面,网站的关键词排名到首页是由于网站综合得分比较高,比如我们需要做“seo优化公司”这个关键词到首页
小峰seo博客
1258 0
蝙蝠侠it
网站优化注意事项,关键词分析很重要!
对于一个网站的运营,在建站之初,我们经常会制定关键词策略,如果在关键词选择的过程中,采用了错误的方法,那么势必导致网站,南辕北辙,适得其反。 因此,在做网站优化的时候,我们需要格外注意,具体我们可以参考如下内容: 一、品牌词非大众化 在做关键词优化的过程中,对于品牌词而言,如果你选择常用词,就很容易导致用户在搜索的时候,无法确切地找到公司的网站,并且这样的关键词竞争的力度也非常高,优化起来也会比较困难。
蝙蝠侠it
1245 0
优惠码领取
|
算法 搜索推荐 索引
SEO关键词优化:如何理解被百度快速索引?
SEO关键词优化:如何理解被百度快速索引? 经常会有SEO人员讨论,为什么我的SEO关键词总是不被快速索引,而实际上这里主要指的是,针对特定关键词的核心内容,那么,它主要涉及如下两个指标: ①索引 ②快速收录 这里值得说明的是:索引并不等于收录,索引只是被百度抓取后,进入百度的索引库中,它并不一定会在百度搜索结果中展现。
优惠码领取
1231 0
发迹网
网站优化基础教程:如何挖掘更多的长尾关键词?六种挖掘关键词的方法!
发迹网
1507 0

热门文章

最新文章

  • 1
    阿里云商标优选交易平台操作流程、手续费及常见问题解答
  • 2
    软路由openwrt中替换国内镜像源(以阿里云为例)
  • 3
    数据中台交付专家告诉你,数据架构的分层怎样更加合理?
  • 4
    DB 与 Elasticsearch 混合之应用系统场景分析探讨
  • 5
    The Windows services that are essential to Exchange Client Access servers are not running.
  • 6
    Table是怎样炼成的:Row、RowCollection
  • 7
    redhat 5 系列 diy mini linux 之二
  • 8
    android 无法安装ApiDemos
  • 9
    全世界的webrtc开发者开发者都在吐槽为什么谷歌不能给个小的代码或者包装好的库,而不是几十G的代码!
  • 10
    跟我学jquery(六)jquery中事件详解 .
  • 1
    10_nest.js 提供者
    15
  • 2
    09_Session案例
    14
  • 3
    08_nest.js控制器详解
    14
  • 4
    07_Restful风格接口设计
    14
  • 5
    Python操作MySQL(十一)
    15
  • 6
    Python类型注解(十)
    14
  • 7
    Python面向对象(九)
    13
  • 8
    Python模块与包(八)
    10
  • 9
    Python异常处理(七)
    10
  • 10
    Python文件操作(六)
    11
  • 相关产品

  • 云迁移中心
    文档详情 产品详情
  • 相关课程

    更多
  • 【医学搜索Query相关性判断】赛题及baseline解读
  • 相关电子书

    更多
  • O2O搜索优化实践之道
  • 当搜索遇见AI
  • 海量数据场景下的淘宝搜索智能—算法及实践
  • 相关实验场景

    更多
  • 在阿里云百炼大模型中快速创建企业知识应用
  • Lindorm AIGC:十分钟搞定智能问答 + 多模态检索
  • OpenSearch LLM智能问答版搭建对话式搜索服务
  • 基于Kibana Discover筛选数据,自由搜索航班信息
  • 简单用户画像分析
  • 下一篇
    阿里云学生服务器免费用半年_1个月加6个月_学生验证

    玻璃钢生产厂家锦州玻璃钢花池价格九江玻璃钢花坛多少钱东营不锈钢雕塑生产厂家汉中玻璃钢制品批发银川玻璃钢装饰造型厂家直销保定玻璃钢动物雕塑宜宾玻璃钢树池坐凳多少钱阳江玻璃钢浮雕制造阳江玻璃钢装饰工程哪家好盐城玻璃钢医疗外壳厂晋中玻璃钢浮雕多少钱营口玻璃钢餐桌椅多少钱鹤壁玻璃钢医疗外壳厂安阳玻璃钢餐桌椅制造宜昌玻璃钢花瓶加工焦作玻璃钢景观雕塑制作武汉玻璃钢花盆厂辽阳玻璃钢沙发制造成都不锈钢家具哪家好贵州不锈钢雕塑价格随州玻璃钢花槽定做玻璃钢制品厂家朔州玻璃钢人物雕塑厂家镇江玻璃钢沙发加工伊春玻璃钢人物雕塑厂通辽玻璃钢花池多少钱安阳玻璃钢雕塑制作汉中玻璃钢花盆厂家直销无锡玻璃钢制品制作晋中玻璃钢茶几哪家好香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

    玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化