前沿主题表征着科技创新过程中最具新颖性、前瞻性和引领性的研究方向。有效识别科技前沿,可以对未来的研究趋势做出有效预判,有助于科技人员准确把握最新的研究进展,并为科研管理者和政策制定者将人力、物力和财力精准投入到最具战略价值的研究方向提供有力支撑。
本研究选取项目和SCI论文两种数据来源,构建目标领域数据集,采取主题提取模型进行文本语义识别提取研究主题;构建基于项目和论文的前沿主题识别指标体系;选取农业资源与环境领域开展实证研究以提出该领域的研究前沿。通过提取目标领域的前沿主题,以提高前沿主题识别的精准度和前沿探测的前瞻性价值,为特定领域知识服务和科技创新提供重要支撑。
1 研究方法
1.1 研究思路
项目数据来源于美国国家食品与农业研究所(National Institute of Food and Agriculture,NIFA),论文数据来源于Web of Science(WOS)核心合集数据库。由于NIFA项目数据的研究课题均在美国范围内,而WOS论文数据则覆盖全球。因此,项目数据和论文数据主题的对比主要从两个维度展开:NIFA项目数据和WOS全球论文数据对比;NIFA项目数据和WOS美国国内论文数据对比。
1.2 研究主题提取方法
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是一个无监督模型,能够自动提取出文本中的语义信息,挖掘背后的语义关联。该模型具有对海量异构文本数据建模的优势,在科技文献知识挖掘、科学研究热点发现与主题演化分析、新兴前沿主题探测等研究方向得到了广泛的应用。
本研究采用LDA主题分析工具对上述数据集进行研究主题的聚类和分析。结合困惑度和一致性参数确定研究主题数量。
1.3 前沿主题类别的判定方法
采用LDA主题聚类模型分别识别出项目和论文数据的研究主题之后,结合领域专家智慧,判断是否为共同研究前沿。主要结合主题新兴度和主题关注度等外部指标结果,加之创新性和交叉度指标,对识别出的前沿主题进行多维度分析,本研究将研究前沿主题划分为热点研究前沿主题、新兴研究前沿主题、消亡研究前沿主题、潜在研究前沿主题4种类型。
新兴度是指研究主题时间的新颖性。从时间维度上看越是新出现的主题越容易包含最新的研究内容,也更有可能成为研究前沿。
创新性是指内容上的创新性,突出强调研究主题内容上的突破性与引领性。采用Kleinberg突发词检测进行计算。
关注度是指研究内容在时间跨度内受关注水平。项目的关注度从项目获得的资助时间长短、获得的资金数额高低、项目数量和经费的每年变化幅度以及主题中项目数量的占比来反映。论文从平均被引次数、每年论文数量的变化幅度以及主题内论文数量的占比来表征。
交叉性代表了学科交叉的广度。多学科的交叉促使科学研究成果跨领域应用的机会增加,出现创新性影响的概率加大。
由于项目是科研管理机构对科学研究的前瞻布局,而论文是科学研究阶段性成果的体现,所以项目比论文更具有前瞻性。结合已有学者的研究思路,在本研究中,“共同存在主题”的新兴度以项目数据为计算依据,“非共同存在主题”的新兴度分别计算。“共同存在主题”的关注度为项目和论文的关注度之和,“非共同存在主题”的关注度、创新性和交叉度分别进行计算。各个指标的高低和强弱以总体的平均值为参考,大于平均值的判断为高或强,小于平均值的判断为低或弱。具体判别方法流程如图1所示。

图1 基于项目和论文的研究前沿判别方法
2 前沿主题类型的识别与实证研究
2.1 单一数据源主题提取结果
使用LDA主题分析工具对2016-2021年农业资源与环境领域的NIFA项目数据和SCI 论文数据进行聚类,分别获得5个研究主题。然后,结合新兴度、创新性、关注度和交叉性进行评分,并根据等权重对指标进行归一化,最终得出每个主题的综合得分。得分超过0.50的主题被认为在各种指标方面表现良好,并被确定为研究前沿主题。因此,2016-2021年农业资源与环境领域的项目数据和SCI论文数据的研究前沿如表1和表2所示。经领域专家解读,提出基于项目数据的研究主要布局在废水处理技术与水资源的高效利用、农业废弃物增值利用与可持续发展、植物-根际-微生物互作与多样化农田管理、农牧生态系统管理与污染控制等4个方向。基于论文数据的研究主要布局在农艺管理措施下土壤生态响应机制研究、植物-根际-微生物互作机制研究、土壤滑坡、侵蚀退化机理研究与预测评估等3个方向。
表1 2016-2021年NIFA农业资源与环境项目各聚类主题词
聚类主题 |
主题词 |
主题1 废水处理技术与水资源的高效利用 |
treatment;surface;interaction;nitrate;urban;grower;assessment;experiment;network;alfalfa;mechanism;diversity;greenhouse;developed;reuse;component;river;collaboration;livestock |
主题2 农业废弃物增值利用与农业可持续发展 |
grain;biomass;sensor;groundwater;plastic;regional;resilience;emission;adaptation;wheat;business;policy;resistance;network;fiber;scholar;urban;developed;renewable;variety |
主题3 植物-根际-微生物互作与多样化农田管理 |
vegetable;plain;efficiency;soybean;business;cotton;bioenergy;grower;measurement;canola;marketing;stress;quantify;transfer;ecological;microbiome;navajo;assessment;wheat |
主题4 农牧生态系统管理与污染控制 |
livestock;watershed;antibiotic;biochar;temperature;microbiome;efficiency;biomass;conservation;stress;microbe;sense;diversity;dairy;forage;weather;building;policy;habitat;developed |
表2 2016-2021年全球农业资源与环境SCI论文各聚类主题词
主题序号 |
主题词 |
主题1 农艺管理措施下土壤生态响应机制研究 |
manure,diversity,straw,residue,fertilization,stock,phosphorus,enzyme,respiration,amendment,grassland,rotation,sequestration,compost,mineralization,stability,mulch,fertility,availability,labile |
主题2 植物-根际-微生物多样性互作机制 |
rhizosphere,decomposition,bacteria,fungi,diversity,fungal,grazing,mycorrhizal,nitrification,grassland,interaction,nematode,inoculation,trait,denitrification,microorganism,functional,availability,strain,arbuscular |
主题3 土壤滑坡、侵蚀退化机理研究与预测评估 |
slope,estimate,rainfall,runoff,prediction,river,parameter,index,predict,density,moisture,characteristic,variation,profile,physical,variability,measurement,variable,environmental,landscape |
2.2 不同前沿主题类型的研判
本研究将基于LDA模型获取到的项目前沿主题与SCI论文的前沿主题进行人工专业判读,最后将“植物-根际-微生物多样性互作机制”确定为项目和论文共同存在的研究前沿;将“废水处理技术与水资源的高效利用”、“农业废弃物增值利用与可持续发展”、“农牧生态系统管理与污染控制”、“农艺管理措施下土壤生态响应机制”以及“土壤滑坡、侵蚀退化机理研究与预测评估”确定为非共同存在的研究前沿主题。各个前沿主题的新兴度、关注度等指标如表3所示。
通过对各指标均值进行计算,得出新兴度均值为2018.50;创新性均值为0.20;基金关注度均值为0.946;论文关注度均值为9.778;基金/论文关注度累计均值为10.724;项目交叉度均值为6.479;论文交叉度为1.974。
通过将上述共同存在的主题、非共同存在的主题各指标与均值进行对比,其中共同存在的主题“植物-根际-微生物互作机制”主题的新兴度、关注度、创新性和交叉度均较高,表征着该主题是近几年的热点研究前沿;美国项目布局的“废水处理技术与水资源的高效利用”、“农业废弃物增值利用与可持续发展”的主题,以及来自论文数据提取的“农艺管理措施下土壤生态响应机制”、“土壤滑坡、侵蚀退化机理研究与预测评估”的主题,其新兴度、创新性和关注度均高于均值,表征这类研究主题布局的年份较新,基金项目的布局体现了其战略意义和研究价值,但在科学研究中尚未有高产出的阶段性成果,或者是部分主题在基金项目中尚未布局,但有研究者前瞻性的开展相关研究并取得阶段性成果,这类主题将有较大可能性得到良好发展,因此,将上述4个主题判定为潜在研究前沿主题。
美国项目管理部门布局的“农牧生态系统管理与污染控制”主题,具有最高的新兴度,但是其关注度略低于均值,表征着美国项目管理部门虽对该研究主题的布局年度较新,由于时间较短,还未引起高度的关注,认定为新兴研究前沿主题。未来随着该项目的持续布局和相关的成果产出,会引起高度的关注,有机会成为潜在的研究前沿或热点研究前沿。
表3 美国项目数据与全球论文数据主题对比分析
主题名称 |
新兴度 |
创新性 |
关注度 |
交叉度 |
综合得分 |
前沿类型 |
|
共同存在的主题 |
植物-根际-微生物互作机制 |
2018.64 |
0.287 |
11.098 |
6.518 |
0.971 |
热点前沿 |
非共同存在的主题 |
废水处理技术与水资源的高效利用-美国项目 |
2018.68 |
0.311 |
0.95 |
6.389 |
0.863 |
潜在前沿 |
农业废弃物增值利用与可持续发展-美国项目 |
2018.74 |
0.251 |
0.95 |
7.090 |
0.930 |
潜在前沿 |
|
农牧生态系统管理与污染控制-美国项目 |
2018.74 |
0.189 |
0.94 |
6.401 |
0.672 |
新兴前沿 |
|
农艺管理措施下土壤生态响应机制-论文 |
2018.73 |
0.196 |
12.362 |
1.65 |
0.980 |
潜在前沿 |
|
土壤滑坡、侵蚀退化机理研究与预测评估-论文 |
2018.67 |
0.254 |
10.423 |
1.92 |
0.855 |
潜在前沿 |
2.3 前沿主题识别方法的验证
将获得的研究前沿与中国农业科学院农业信息研究所发布的《2022全球农业研究热点前沿分析解读》进行对比,以验证本研究基于LDA主题模型及前沿指标体系判别研究前沿的科学性。中国农业科学院的2022全球农业研究热点前沿是以SCI论文和CSCD论文数据(2017-2021年)为基础,从Essential Science Indicators(ESI)数据库提取高共被引论文(即在同学科同年度被引频次排在前1%的论文),将高共被引论文和施引论文共同组成的核心论文主题簇作为研究热点前沿,通过论文分类映射,结合共被引理论、语义聚类方法、指标筛选、专家访谈以及定性定量分析,从初始形成的989个农业主题数据中,遴选获得2022农业9大学科71个农业研究热点。其中,提到的农业资源与环境领域的热点前沿主要集中在根际生态环境、土壤固碳固氮机理、肥料研发利用、植物有益菌抗性和土壤-作物管理等方向。具体如表4所示。
表4 中国农业科学院提出的农业资源与环境学科领域研究热点及前沿
序号 |
类别 |
研究热点或前沿名称 |
1 |
热点 |
土壤-作物管理对温室气体排放的影响及调控 |
2 |
热点 |
土壤和根际微生物对土地利用方式的响应及机理 |
3 |
热点 |
新型肥料研发与高效利用 |
4 |
热点 |
植物固氮机理与调控 |
5 |
热点 |
植物有益菌的促生抗逆效应与机理 |
6 |
热点 |
根系微生物组的组装规律和控制机理 |
7 |
重点热点 |
土壤固碳潜力及其调控机理 |
8 |
前沿 |
土壤氮转化的微生物机理及其农学环境效应 |
经对比,本研究所提出的热点前沿“植物-根际-微生物多样性互作机制”,覆盖了上述的“土壤和根际微生物对土地利用方式的响应及机理”、“植物有益菌的促生抗逆效应与机理”、“根系微生物组的组装规律和控制机理”以及“土壤氮转化的微生物机理及其农学环境效应”等多项研究热点,与中国农业科学院基于ESI高共被引论文数据得出的研究热点内容相近。本研究所提出的新兴研究前沿“农牧生态系统管理与污染控制”包含了上述的热点前沿“土壤-作物管理对温室气体排放的影响及调控”内容;本研究所提出的潜在研究前沿“农艺管理措施下土壤生态响应机制”也覆盖了上述的热点前沿“植物固氮机理与调控”、“土壤固碳潜力及其调控机理”内容。本研究所提出的“农业废弃物增值利用与可持续发展”也涉及上述“新型肥料研发与高效利用”的部分内容。因此,从整体来看,可以推断本研究基于LDA主题模型,从SCI论文和项目融合的视角进行研究前沿主题挖掘的方法,以及建立的前沿主题识别系统具有一定的可行性。另外,本研究还结合具体的判别指标,对获得的研究前沿进行了多维度分析,将研究前沿主题进一步划分为热点研究前沿主题、新兴研究前沿主题、消亡研究前沿主题、潜在研究前沿主题4种类型。
3 结论
本研究基于项目和论文数据集,研究了LDA模型进行主题抽取的方法,结合领域专家智慧判断两种数据源的主题异同性,综合运用主题新兴度、主题关注度、创新性和交叉度等指标,对识别出的项目和论文数据的前沿主题进行多维度研判,研究了热点研究前沿主题、新兴研究前沿主题、消亡研究前沿主题、潜在研究前沿主题的识别和判定方法,并提出了农业资源与环境领域的研究前沿。研究证实了对项目和论文数据进行主题提取后,结合专家智慧和前沿指标进行主题判别的方法是一种可供选择的前沿主题识别方法。
本研究是对基于项目数据和论文数据在研究前沿主题提取和识别方法的一种探索,充分借鉴了前人的研究经验。在今后的研究中,仍需融合规划文本、政策文本以及代表技术研发的专利等多个数据来源,进行深入分析;进一步优化主题提取模型和各个维度的指标筛选,结合数据源的特征、贡献完善指标的权重。通过增加多维数据来源、优化主题提取模型、完善研判指标,全方位为科学研究和管理布局决策提供支撑。