安装

安装

有人知道如何对 Bibtex 数据库进行数据挖掘吗?例如,每个期刊、作者或年份的论文数量统计信息;诸如此类。有可用的工具或网站吗?

答案1

我不知道这样的工具,但应该可以在统计软件(例如 R)甚至 Excel 中处理 BibTeX 数据。

比博特CRAN 上的包可以解析 BibTeX 文件。应该可以逐个属性地转换为数据框。然后你可以分析任何你想要的。另请参阅这个相关问题

> rref <- read.bib()
> rref
R Development Core Team (2009). _R: A Language and Environment for
Statistical Computing_. R Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-900051-07-0, <URL: http://www.R-project.org>.
> str(rref)
List of 1
 $ :Class 'bibentry'  hidden list of 1
  ..$ :List of 7
  .. ..$ title       : chr "R: A Language and Environment for Statistical Computing"
  .. ..$ author      :Class 'person'  hidden list of 1
  .. .. ..$ :List of 5
  .. .. .. ..$ given  : chr "R Development Core Team"
  .. .. .. ..$ family : NULL
  .. .. .. ..$ role   : NULL
  .. .. .. ..$ email  : NULL
  .. .. .. ..$ comment: NULL
  .. ..$ organization: chr "R Foundation for Statistical Computing"
  .. ..$ address     : chr "Vienna, Austria"
  .. ..$ year        : chr "2009"
  .. ..$ note        : chr "{ISBN} 3-900051-07-0"
  .. ..$ url         : chr "http://www.R-project.org"
  .. ..- attr(*, "bibtype")= chr "Manual"
  .. ..- attr(*, "key")= chr "R"
 - attr(*, "class")= chr "bibentry"
 - attr(*, "strings")= Named chr(0) 
  ..- attr(*, "names")= chr(0) 
> rref$url
[1] "http://www.R-project.org"

如果你更喜欢 Excel,你可能想要将您的 bib 文件转换为 XML首先。不过我还没试过。

答案2

这个问题是关于文献计量学

文献计量学是一个 R 包,它结合了多种方法进行此类分析。从他们的介绍小插图

文献计量学该包提供了一套用于文献计量学和科学计量学定量研究的工具。

文献计量学将科学的主要工具——定量分析——用于自身。从本质上讲,文献计量学是将定量分析和统计应用于期刊文章等出版物及其引用计数。现在,几乎所有科学领域都使用出版物和引用数据的定量评估来评估科学界的发展、成熟度、主要作者、概念和知识图谱以及趋势。

文献计量学也用于研究绩效评估,尤其是在大学和政府实验室,也被政策制定者、研究主管和管理人员、信息专家和图书管理员以及学者本身使用。

文献计量学支持学者进行三个关键的分析阶段:

  • 数据导入并转换为 R 格式;

  • 出版物数据集的文献计量分析;

  • 为同引、耦合、协作和共词分析构建矩阵。矩阵是执行网络分析、多重对应分析和任何其他数据缩减技术的输入数据。

安装

install.packages(“bibliometrix”, dependencies=TRUE)

例子

摘自插图:

file <- "https://www.bibliometrix.org/datasets/savedrecs.bib"

M <- convert2df(file = file, dbsource = "isi", format = "bibtex")

results <- biblioAnalysis(M, sep = ";")

S <- summary(object = results, k = 10, pause = FALSE)

这给出了 OP 所询问的信息以及更多信息:

例如,关于每本期刊论文数量的一些统计数据,

## Most Relevant Sources
## 
##                                                            Sources        Articles
## 1  SCIENTOMETRICS                                                               49
## 2  JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY       14
## 3  JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE                       8
## 4  JOURNAL OF DOCUMENTATION                                                      6
## 5  JOURNAL OF INFORMATION SCIENCE                                                6
## 6  JOURNAL OF INFORMETRICS                                                       6
## 7  BRITISH JOURNAL OF ANAESTHESIA                                                5
## 8  LIBRI                                                                         5
## 9  SOCIAL WORK IN HEALTH CARE                                                    5
## 10 TECHNOLOGICAL FORECASTING AND SOCIAL CHANGE                                   5

请注意,这仅显示前 10 种期刊,如k调用中的参数所定义summary()。同样,下面只列出了前 10 名作者。

作者

## Most Productive Authors
## 
##    Authors        Articles Authors        Articles Fractionalized
## 1     BORNMANN L         8     BORNMANN L                    4.67
## 2     KOSTOFF RN         8     WHITE HD                      3.50
## 3     MARX W             6     MARX W                        3.17
## 4     HUMENIK JA         5     ATKINSON R                    3.00
## 5     ABRAMO G           4     BROADUS RN                    3.00
## 6     D'ANGELO CA        4     CRONIN B                      3.00
## 7     GARG KC            4     BORGMAN CL                    2.50
## 8     GLANZEL W          4     MCCAIN KW                     2.50
## 9     WHITE HD           4     PERITZ BC                     2.50
## 10    ATKINSON R         3     KOSTOFF RN                    2.10

或年份

## Annual Scientific Production
## 
##  Year    Articles
##     1985        4
##     1986        3
##     1987        6
##     1988        7
##     1989        8
##     1990        6
##     1991        7
##     1992        6
##     1993        5
##     1994        7
##     1995        1
##     1996        8
##     1997        4
##     1998        5
##     1999        2
##     2000        7
##     2001        8
##     2002        5
##     2003        1
##     2004        3
##     2005       12
##     2006        5
##     2007        5
##     2008        8
##     2009       14
##     2010       17
##     2011       20
##     2012       25
##     2013       21
##     2014       29
##     2015       32
## 
## Annual Percentage Growth Rate 7.177346 

警告

此包假定.bib文件(或其他格式)来自指定来源:dbsource调用中的参数convert2df()。如果您已经从其他地方获得了现有的 bib 文件,则某些分析可能无法正常工作。从他们的常问问题

Q5 - 我想加载由参考管理软件创建的 bibtex 文件,但是当我运行函数 convert2df 时它返回一个错误:

Error in seq.default(iStart, iStop) : 'from' must be a finite number

问题在于数据格式。

不幸的是,bibtex 不是一种适当的标准化格式,因此从不同来源创建时它可能会发生改变。

Bibliometrix/biblioshiny 需要一个格式与 WoS 或 Scopus 导出的格式完全相同的 bibtex 文件,并包含完整的必需元数据(作者姓名、所属机构、参考文献等)。否则,它将无法工作。

我用门德利生成我的 bib 文件。我使用几个不同的 bib 文件尝试了上述示例,它能够生成类似的输出,尽管它会引发警告:

> bib <- '/path/to/my/bibfile.bib'
> bibdf <- convert2df(file = bib, dbsource = 'isi', format = 'bibtex')

Converting your isi collection into a bibliographic dataframe


Warning:
In your file, some mandatory metadata are missing. Bibliometrix functions may not work properly!

Please, take a look at the vignettes:
- 'Data Importing and Converting' (https://cran.r-project.org/web/packages/bibliometrix/vignettes/Data-Importing-and-Converting.html)
- 'A brief introduction to bibliometrix' (https://cran.r-project.org/web/packages/bibliometrix/vignettes/bibliometrix-vignette.html)


Missing fields:  ID C1 CRDone!

我还建议通过数据导入与转换警告信息中的插图。

相关内容