有人问我是否可以使用 Azure OpenAI 从数千个文档中创建数据库。
我最初的想法是这不可能,但后来我开始思考,如果我们仅使用在数千份文档中找到的数据来训练模型,这也许是可能的。
该模型可以被认为是一个伪数据库,用户可以通过向模型询问有关其训练数据的问题来“查询”数据库。
- 即“12 月份北美排名前 10 的销售代理商是哪些?”
- 例如,“请列出所有提到咖啡冷的对话。”
我最大的担心是这个过程可能会产生幻影数据或错误地返回数据。
问题。
由于我从未使用过 Azure OpenAI,所以我不确定是否有可以调整的参数来缓解这种情况(幻影数据或不准确的数据聚合),或者 Azure Open AI 是否有更适合这种情况的其他解决方案?
笔记:所有文档的结构都类似,其中顶部包括一个表格,其中每行都有一个键值配对,后面是抄本。
答案1
你所描述的听起来像是在创建一个自定义 GPT它将根据您自己添加的数据回答问题。
是的,您可以以这种方式使用 Azure OpenAI,如上面的链接所示。
目前还不清楚你是否应该按照这个方法使用。Zapier 的文章构建自定义 GPT 表明,即使上传外部数据,聊天机器人也可能不准确。
值得一提的是,我的聊天机器人并没有始终如一地参考我上传的指南来教它如何编写替代文本。
目前,还没有任何参数可以调整来缓解这种情况(幻影数据或不准确的数据聚合),并且 Azure OpenAI 没有更适合这种情况的其他解决方案。
您不能排除 chatgpt 使用的所有其他数据,因为它用于帮助 chatgpt 理解输入和写出答案(chatgpt 的工作原理)。
如果您有兴趣以这种方式尝试 OpenAI,上述 Zapier 的文章详细介绍了如何操作的步骤。总而言之,您将:
- 使用 ChatGPT 付费版本中的“创建 GPT”选项。
- 指示它您正在根据公司文件创建公司参考 GPT。
- 使用自定义GPT配置页面中的上传知识功能上传文档。
希望这可以帮助!