Google 的 DataGemma AI 是一个统计向导

28 0 0

今天，该公司推出了 DataGemma，这是一对开源的、经过指令调整的模型，在围绕统计数据的查询中，它朝着缓解幻觉（大型语言模型（LLM）提供不准确答案的趋势）的挑战迈出了一步。

这两个新模型都可以在 Hugging Face 上用于学术和研究用途，它们都建立在现有的 Gemma 系列开放模型之上，并使用来自 Google 创建的 Data Commons 平台的大量真实数据来为他们的答案奠定基础。该公共平台提供了一个开放的知识图谱，其中包含超过 2400 亿个数据点，这些数据点来自经济、科学、卫生和其他领域的可信组织。

这些模型使用两种不同的方法来提高它们在回答用户问题时的事实准确性。事实证明，这两种方法在涵盖各种查询集的测试中都相当有效。

事实幻觉的答案

LLM 一直是我们都需要的技术突破。尽管这些模型只有几年的历史，但它们已经为从代码生成到客户支持的一系列应用程序提供支持，并为企业节省了宝贵的时间/资源。然而，即使在所有进步之后，模型在处理有关数字和统计数据或其他及时事实的问题时产生幻觉的趋势仍然是一个问题。

“研究人员已经确定了这些现象的几个原因，包括 LLM 世代的基本概率性质以及训练数据中缺乏足够的事实覆盖率，”谷歌研究人员在今天发表的一篇论文中写道。

即使是传统的接地方法对于统计查询也不是很有效，因为它们涵盖了一系列逻辑、算术或比较运算。公共统计数据以各种架构和格式分发。它需要相当多的背景上下文才能正确解释。

为了解决这些差距，Google 研究人员利用了 Data Commons，这是最大的标准化公共统计数据的统一存储库之一，并使用了两种不同的方法将其与 Gemma 系列语言模型连接起来——基本上是将它们微调到新的 DataGemma 模型中。

第一种方法称为检索交错生成（RIG），通过将模型的原始生成与 Data Commons 中存储的相关统计数据进行比较来提高事实准确性。为此，微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后，多模型后处理管道会将其转换为结构化数据查询，并运行它以从 Data Commons 中检索相关的统计答案，并返回或更正 LLM 生成，并带有相关引文。

虽然 RIG 建立在已知的 Toolformer 技术之上，但另一种方法 RAG 是许多公司已经使用的相同的检索增强一代，以帮助模型在其训练数据之外整合相关信息。

在这种情况下，微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后，对数据库运行查询以获取相关的统计信息/表。提取值后，它们与原始用户查询一起用于提示长上下文 LLM（在本例中为 Gemini 1.5 Pro）以高准确度生成最终答案。