我国食品安全与数据科学交叉研究的科学计量

食品安全关系人民群众身体健康和生命安全,关系中华民族未来。以食品安全突发事件为研究对象,深入开展演化机理、检测技术和预警方法等方面的研究,能够帮助政府及时采取有利的措施,预防食品安全问题的再次发生,已经得到党和国家的高度重视。数据科学是基于传统的数学、统计学的理论和方法,运用计算机技术进行大规模数据计算、分析和应用的一门学科。随着社会信息化程度的提升与信息储存方式的变革,食品生产与消费的各个环节已经积累了海量异构的食品安全历史数据,且仍在源源不断地产生着新的食品安全大数据。在大数据时代的背景下,大数据技术方法相比起传统的研究方法,在处理海量的食品安全数据时显得更加对口和有效。已发表的科技论文是经过同行评议,且其主题被认为是隶属于该领域的论文。因此,从已发表的学术论文中识别并探测某一特定研究主题是被实践证明的可靠方法。基于此种假设,武汉理工大学中国应急管理研究中心的邵航、宋英华*和李墨潇*等人选取中国知网(CNKI)数据库中食品安全研究与数据科学存在交集的科技文献作为我国食品安全与数据科学交叉研究的样本数据集,运用科学计量学理论,主要使用科技文本挖掘软件Citespace对文献数据进行深度挖掘。本文将从所收集的文献数据的特征出发,开展本交叉研究的研究主体分析与研究主题分析,以期从文献数据空间中发现本领域重要的研究机构、期刊和作者,并进一步地发现本领域当前的研究热点与未来的发展趋势。

1数据与方法

1.1数据采集与预处理

本文所收集的数据全部来源于CNKI。考虑到文献题录数据的更新会有迟滞,本研究以年5月20日0时为截止时间,以“主题=食品安全AND数据”为检索条件,收集了年1月至年5月跨度约23年的条文献数据,文献类型包括期刊论文、学位论文、会议论文和报纸图书等。文献数据以Refworks格式(包含文献类型、作者、作者单位、标题等主要科学计量字段)存储为UTF-8编码的.txt文件到本地路径备用。同时,使用Python爬取检索页面分年数据的完整信息,并写入Excel文件。

1.2科学计量学方法与科技文本挖掘软件

科学计量学是运用数学等定量方法对科学的整体及其各个方面进行定量化研究,以解释科学发展规律的一门新兴学科。传统的科学计量学研究方法主要有出版物统计、著者统计、引文分析、词频分析等。本研究使用的是Citespace软件的5.1.R8.SE.版本。

2结果与分析

2.1交叉研究的研究主体分析

文献年代分布

文献累计量的分年统计及回归预测见图1,期刊论文、学位论文累计数量预测曲线的R2均达到99%以上,证明回归模型的拟合优度很高。曲线数值的增长具备某种指数型趋势,而此处依据泰勒公式原理,以多项式函数来近似计算指数函数值,通过设置预测点,可以推测:本领域期刊论文总量有望在年达到篇左右,在年达到篇左右;本领域学位论文总量有望在年达到篇左右,在年达到篇左右。在年以前,期刊论文的累计量高于学位论文的累计量,这表明—年交叉研究还处于讨论与积累的萌芽阶段,尚未形成较完备的学科形态;—年学位论文的累计量高于期刊论文的累计量,这表明从事交叉研究的人越来越多,交叉研究的热度在不断提高,社会的重视程度也在不断提高;预计年会成为期刊论文数量第二次超过学位论文数量的转折点,这将标志着交叉研究会逐步形成新的学科增长点,推动新一阶段的交叉研究发展。

重要机构分布

使用CNKI数据库的“分组浏览-机构”功能,可以查询到当前学科领域中重要机构的信息(以发文量统计,列表机构最低发文量为14篇)。由表1可知,发表论文30篇及以上的机构有18家,所发表的论文占全部篇文献的26.93%,属于引领本领域研究的核心机构群体。在本领域发表论文的数量与该机构研究人员的数量、获得相关科研项目的数量密切相关。

重要期刊与学位授予单位分布

使用Excel软件的数据透视表功能,对所收集的条题录数据的“期刊名称”或“学位授予单位”字段进行数据透视,可以得到期刊论文文献的来源期刊或学位论文的学位授予单位的统计信息。共有篇与本主题相关的期刊论文被刊载在种学术期刊上,平均载文量为2.36篇/刊。由表2可知,集中刊载本领域论文10篇及以上的期刊有18种,载文数量达篇,占全部期刊论文的27.19%,在期刊分类上分属于4大类,其中“食品科学技术”和“农业综合”分类占大多数。

共有篇与本主题相关的学位论文来自个不同的学位授予单位,平均载文量为6.44篇/机构。由表3可知,学位论文数量在20篇及以上的机构有17家,论文数量达到篇,占本领域学位论文总量的40.68%。其中,农林类与综合类高校涉足食品安全与数据科学交叉研究领域的数量相较于其他类别更多。

使用OriginPro9.1软件对上述数据进行概率分布模型的拟合检验,得到图2。图2A、B分别表示本领域期刊论文载文数量和学位论文载文数量的概率分布拟合曲线,决定系数分别为0.、0.,具有很高的拟合优度。所以两种文献的载文数量的概率分布都服从异速生长指数(Allometric)分布。

这表明我国食品安全与数据科学交叉研究领域经过萌芽与积累,研究规模正在高速增长。根据异速生长尺度规律的特点,我国食品安全与数据科学交叉研究所形成的这个特定的食品安全子领域,可以看作是一种广义的生态系统,而本主题新科技论文的产生则是这个生态系统中最重要的信息流之一。自身的主题与偏好适合这个子领域的优质文献被刊载的期刊,或者重视这个新兴子领域发展的研究机构,会在这个新兴子领域里快速生长,显得愈发重要。

重要作者分布

关于论文合著情况,共有人次的作者参与撰写了这篇期刊论文,平均作者为2.24位/篇,即作者合作度为2.24。使用CNKI数据库的“分组浏览-作者”功能,可以查询到当前学科领域中高产作者的信息,本文将所述高产作者中发文数量大于5篇的作者信息进行整理。

同时,为了客观地评价各位高产作者在论文合著中对其论文的贡献度,本文引入了DuYongping等年提出的基于作者顺序的影响力计算方法,结果显示,这些高产作者中,平均pa前5名分别是:李太平、唐晓纯、李丽、鄂旭、肖革新,他们应该是本领域研究合作的优秀候选人。从累计pa来看,王竹天、王志刚也是本领域具备合作潜质的优秀候选人。

2.2交叉研究的研究主题分析

关键词共现分析

本文使用对数似然率(LLR)算法对关键词共现网络进行聚类分析,得到了具有11个主要聚类的关键词共现网络图谱(图3),这些聚类的轮廓值(Silhouette)均大于0.5,且部分大于0.7,说明这些聚类合理且令人信服。这11个聚类可以进一步归纳为3大类,即:食品安全领域的新型数据采集技术(类I)、食品安全领域的新型数据分析技术(类II)、食品安全领域的新型数据科学应用(类III)。

由图3可知,—年我国食品安全与数据科学交叉研究领域形成了内部边界聚合且外部边界分明的复杂关键词共现网络图谱。该图谱有个节点和条连线,是一个由大量高频关键词形成的广阔知识空间。以下将根据引文空间聚类成员的归属和食品安全意义上的类别界定,以大类(I、II、III)划分为展开顺序,对所得到的关键词共现网络图谱进行深入的分析。

1)食品安全领域的新型数据采集技术

在大数据时代的背景下,物联网、区块链和电子标签等技术成为了采集新型食品安全数据的重要支撑技术。将网络嵌入食品生产流通各环节的物理设备,有利于提升食品供应链的智能化,完善食品溯源体系。

2)食品安全领域的新型数据分析技术

数学模型方法结合新兴的人工智能技术应用于食品安全领域,提升了食品安全数据及其分析挖掘技术在食品安全治理中的功能与地位。质量控制图是一种简单、有效的统计技术。带有上中下控制界限的、以检测食品生产过程安全和判断食品质量稳定状态为目标的控制图,已经逐步演化和固定为食品质量安全过程控制的专门化数据分析方法。

3)食品安全领域的新型数据科学应用

以数据密集型科学发现的研究范式,研究前沿且恰当的食品安全问题,是数据科学应用在食品安全领域的一种使命。因为面向主体对象不同,故其应用场景和应用需求也不相同。所研究的对象是当前层出不穷的各类食品安全事件及危险源;所研究的内容是在宏观层面上食品安全水平提升所亟待解决的各种问题;交叉研究所受益的主体及研究方向包括:政府的智慧监管与风险预警、食品企业的生产控制与事后应对、消费者的食品安全风险认知与支付意愿等。

时间线聚类分析

使用Citespace软件进一步绘制关键词共现网络的时间线图谱,由图4可知,我国食品安全与数据科学交叉研究的各研究主题存续时间不同。图中的这些颜色与流向表征着我国食品安全与数据科学交叉研究的不同发展阶段。

—年为重视食品标准数据与传统数理统计方法的阶段。此阶段的科技文献主要侧重引进国外先进的食品安全标准并与我国的食品安全标准进行比较;在数据分析上多基于HACCP系、调查问卷方法和数理统计工具。

—年为新型食品安全数字技术和数学模型方法开始涌现的阶段。此阶段层次分析法、贝叶斯网络、关联规则、决策树、可拓决策等数学模型方法被广泛地应用于食品安全风险评估和风险预警等方面;RFID、QR



转载请注明地址:http://www.xinxingchanyea.com/xxcytd/35165.html
  • 上一篇文章:
  • 下一篇文章: