data-mining

blogspot 上的“PS 我们正在运行一个小型 javascript 挖掘器....”是什么意思
data-mining

blogspot 上的“PS 我们正在运行一个小型 javascript 挖掘器....”是什么意思

我创建了一个博客,与朋友们分享一些重要的问题和答案。但是当我在 Edge 浏览器上打开 blogspot 链接时,它显示一些异常行为,例如计算机变得非常慢。 来自 Edge 浏览器的屏幕截图 我不知道这是什么意思。图像中的哈希值和线程在波动,总数在不断增加,但速度仍保持 100%。我担心勒索软件或任何类型的黑客攻击。 它可以与所有其他浏览器完美兼容。 提前谢谢,抱歉我的英语不好(我正在努力:)) ...

Admin

页面错误、奇怪的内存行为和页面文件 - 特别是但不是专门在 R 中
data-mining

页面错误、奇怪的内存行为和页面文件 - 特别是但不是专门在 R 中

我应该从一开始就说,我意识到我可能需要更多的 RAM,因为我目前在安装了 4GB RAM 的 Windows 10 上运行 RStudio。这篇文章不一定只与 R 有关,而是与内存处理有关。重新启动计算机和 RStudio 后,根据任务管理器,我通常有 2 到 2.5GB 的“可用”RAM。 我的一些代码运行完美(特别是当我使用 data.table 时),即使它需要进行大量计算;生成组合和排列,以及相对复杂的连接。其他工作有 5 次中有 4 次会失败,错误有些模糊,乍一看似乎是随机的;例如 SET_STRING_ELT() 的值必须是“CHARSXP”。...

Admin

Excel 数据提取从单元格中删除单词并替换到另一个单元格中
data-mining

Excel 数据提取从单元格中删除单词并替换到另一个单元格中

我在一个名为“公司”的列中有数据,其中列出了 3000 家公司以及公司类型 - 无论是 LLC、LP、Corp 等。格式如下:Microsoft_LLC_LLC。我想删除 LLC 部分并将其放在另一个名为公司类型的列中。有什么想法吗?非常感谢。已发布数据集示例图像。 ...

Admin

从 MS Word 文档中提取特定字体的所有文本?
data-mining

从 MS Word 文档中提取特定字体的所有文本?

我将 PDF 文档转换为 Word 格式。PDF 是一期杂志。我需要所有特定字体的文本,字体大小为 9.5 或 10 点。这些是文章的内容,我想对其进行文本挖掘(仅限词频)。如果用其他方式删除大量其他内容,将非常繁琐。 右键单击文本区域并选择“选择具有类似格式的文本”不起作用。(这是我计划做的)。它只选择当前段落。我尝试“全选”,然后将所有段落格式设置为相同,但这没有效果。 ...

Admin

有没有办法将公共数据库(ASP.NET)的值下载到硬盘?
data-mining

有没有办法将公共数据库(ASP.NET)的值下载到硬盘?

我是一名社会科学研究员,我正在处理来自非政府组织、政府等各种公共数据库的数据。假设我没有机会向管理员索要整个数据库。但是,如果我有足够的耐心,我可以逐个下载所有数据。但数据库的大小使得用蛮力解决问题几乎是不可能的。 那么,有没有办法下载包含其所有组件的公共数据库? 以下是一个例子:http://www.trademap.org/tradestat/Country_SelProductCountry_TS.aspx 您可以按进口国查看日本活体动物进口量(美元)。除了逐个点击之外,有没有更快的方法可以下载每个国家和产品的所有数据? 先感谢您。 ...

Admin

提取 html 文本文件到文本文件
data-mining

提取 html 文本文件到文本文件

我有一个包含许多 html 文件的文件夹,我只想提取包含在 html 正文中的文本到 txt 文件中,我该怎么做? ...

Admin

JDBC 驱动程序(逗号分隔列表)
data-mining

JDBC 驱动程序(逗号分隔列表)

我需要从我的 WEKA 工具连接 mysql 服务器来分析一些数据。如何在 Linux 平台上建立此连接。 我决定使用 jdbc 驱动程序,但设置环境对我来说并不容易!我该怎么做? ...

Admin

我如何才能从网站上抓取单词数据?
data-mining

我如何才能从网站上抓取单词数据?

我想从特定网站下载所有单词内容。将结果保存在 MS Word、Excel 或记事本中,并检查哪些单词重复次数最多以及重复次数是多少。 ...

Admin

让 CPU 保持在 %100 是否危险?
data-mining

让 CPU 保持在 %100 是否危险?

我是一名比特币矿工,不幸的是我的电脑不支持 GPU 挖矿(导致我的驱动程序不断崩溃),所以我使用 CPU 挖矿。但是,将 CPU 保持在 100% 是否危险?我有一台配备 i5-4210U 的戴尔 Inspiron 3542。(1.7 至 2.7 ghz) ...

Admin

数据透视表中的分层数据结构-空白行
data-mining

数据透视表中的分层数据结构-空白行

我有一个数据集,其结构如下: Fruit Type Organic Sales Banana 15 Apple Green Apple Organic 20 Apple Red Apple Non-Organic 25 Apple Red Apple Organic 17 Orange California 8 Orange Spain ...

Admin

如何从网站抓取特定数据
data-mining

如何从网站抓取特定数据

我正在尝试从网站上抓取数据以供研究。 这些 URL 以 example.com/x 格式整齐地组织起来,其中 x 为升序数字,所有页面的结构都相同。我只需要抓取某些标题和一些始终位于相同位置的数字。然后我需要将这些数据转换为结构化形式,以便在 Excel 中进行分析。 我以前曾使用 wget 来下载页面,但我不知道如何抓取特定的文本行。 Excel 有一个从网络抓取数据的功能(数据->来自网络),但据我所知,它只允许我下载表格。不幸的是,我需要的数据不在表格中。 ...

Admin

用于挖掘非结构化文本的 API /工具?
data-mining

用于挖掘非结构化文本的 API /工具?

我希望从非结构化文本创建概念图。例如 Desired input: find "/" -name "*.txt" Desired output: concepts-graph.dot 换句话说,我想挖掘我的文本文件并创建某种结构化的关键词/概念表示。大致就是一个穷人版的 Google 文本分析器。 是否有一个开源工具/API 可以查找纯文本文件中术语之间的关系? ...

Admin

如何搜索并复制某个特定网站(1000 页)上以(“http://www. )开头的所有字符串?
data-mining

如何搜索并复制某个特定网站(1000 页)上以(“http://www. )开头的所有字符串?

我正在寻找某个网站上招聘信息中写的链接(不是页面的 URL)。我想扫描该网站并复制所有页面(约 1000 个)上以 http 或 www 开头的所有字符串 我在 Windows 7 上。我不知道如何运行脚本。有人能建议一种有效的方法吗? 我是否必须先下载所有 html 页面?如果是这样,那么我应该使用什么软件来下载、扫描和复制字符串? ...

Admin