我负责小型网络(通常有 5 到 30 台 PC,并设有现场服务器)的系统管理。
我遇到一个客户问题,是某个软件包反复出现的问题。现场有 30 台 PC 运行此软件。
我们需要一个工具来告诉我们情况有多糟糕,当我们做出改变时,情况是否有所改善(这是一个有点复杂的软件,因此也是一个复杂的问题)。我们试图看看环境的变化是否会导致崩溃更频繁地发生或更少地发生。
目前,我们正在使用便签。这种方法效果很差——没有人愿意花时间记下程序崩溃、冻结等时发生的事情。此外,生成一堆便签后,您会如何处理它们?它无法有效回答“今天的情况是否比昨天好?”这个问题。
我想软件工具会让这一切变得更容易。只需告诉人们“如果应用程序 X 出现任何问题,只需按++ CTRL,它就会自动记录下来”。然后,我们可以非常轻松地分析出我们最大的问题用户是谁、情况是否比平时更糟或只是一般水平等等。此外,我们还会得到一个精确的时间戳,如果我们愿意的话,甚至可能得到一个屏幕截图,我们可以将其与服务器上的错误日志进行比较。ALTF12
我曾涉足软件开发,所以我知道如何相当简单地编写这样的工具。但我突然想到可能有人已经编写了这样的工具!有人知道现有的工具可以解决此类问题吗?
需要澄清的是,我并不是在寻找故障单解决方案。填写完整故障单所需的时间才是问题所在。我只是希望报告错误频率,然后将其汇总到中央数据库(甚至是 CSV 文件)中,这样我们就可以在那里获得有关我们遇到问题频率的有用信息。一个非常简单的 MySQL / PHP 项目,带有一个小应用程序
基本上,我想为所有最终用户提供一个“愤怒按钮”,并看看他们按下了多少次。
有什么想法吗?有没有可以做到这一点的工具?
答案1
您可以考虑的候选人:
Loggly 是一个基于云的日志平台。Loggly 收集并集中您的所有日志,并通过简单的用户界面进行搜索。我们让查看日志变得快速、有趣且简单
Splunk 收集、索引和利用由您的应用程序、服务器和设备(物理、虚拟和云)生成的所有快速移动机器数据。在几分钟内(而不是几小时或几天)排除应用程序问题并调查安全事件,避免服务降级或中断,以较低的成本实现合规性并获得新的业务洞察。
Papertrail 使用日志消息帮助检测、解决和避免基础设施问题。Papertrail 的实用性源自我们作为系统管理员、开发人员和企业家的运营经验
有了这些,我想你可能需要做一些工作来连接你的愤怒按钮,但至少他们似乎做了存储日志信息和提供分析工具的艰苦工作。
(如果你最终不得不写一些东西来处理击键,我建议你看一下自动热键)