Google 的 DataGemma AI 是一个统计向导

未分类2个月前发布 Iamzzz
28 0

今天,该公司推出了 DataGemma,这是一对开源的、经过指令调整的模型,在围绕统计数据的查询中,它朝着缓解幻觉(大型语言模型 (LLM) 提供不准确答案的趋势)的挑战迈出了一步。

这两个新模型都可以在 Hugging Face 上用于学术和研究用途,它们都建立在现有的 Gemma 系列开放模型之上,并使用来自 Google 创建的 Data Commons 平台的大量真实数据来为他们的答案奠定基础。该公共平台提供了一个开放的知识图谱,其中包含超过 2400 亿个数据点,这些数据点来自经济、科学、卫生和其他领域的可信组织。

这些模型使用两种不同的方法来提高它们在回答用户问题时的事实准确性。事实证明,这两种方法在涵盖各种查询集的测试中都相当有效。

事实幻觉的答案

LLM 一直是我们都需要的技术突破。尽管这些模型只有几年的历史,但它们已经为从代码生成到客户支持的一系列应用程序提供支持,并为企业节省了宝贵的时间/资源。然而,即使在所有进步之后,模型在处理有关数字和统计数据或其他及时事实的问题时产生幻觉的趋势仍然是一个问题。

“研究人员已经确定了这些现象的几个原因,包括 LLM 世代的基本概率性质以及训练数据中缺乏足够的事实覆盖率,”谷歌研究人员在今天发表的一篇论文中写道。

即使是传统的接地方法对于统计查询也不是很有效,因为它们涵盖了一系列逻辑、算术或比较运算。公共统计数据以各种架构和格式分发。它需要相当多的背景上下文才能正确解释。

为了解决这些差距,Google 研究人员利用了 Data Commons,这是最大的标准化公共统计数据的统一存储库之一,并使用了两种不同的方法将其与 Gemma 系列语言模型连接起来——基本上是将它们微调到新的 DataGemma 模型中。

第一种方法称为检索交错生成 (RIG),通过将模型的原始生成与 Data Commons 中存储的相关统计数据进行比较来提高事实准确性。为此,微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后,多模型后处理管道会将其转换为结构化数据查询,并运行它以从 Data Commons 中检索相关的统计答案,并返回或更正 LLM 生成,并带有相关引文。

虽然 RIG 建立在已知的 Toolformer 技术之上,但另一种方法 RAG 是许多公司已经使用的相同的检索增强一代,以帮助模型在其训练数据之外整合相关信息。

在这种情况下,微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后,对数据库运行查询以获取相关的统计信息/表。提取值后,它们与原始用户查询一起用于提示长上下文 LLM(在本例中为 Gemini 1.5 Pro)以高准确度生成最终答案。

早期测试的显著改进

当对一组手工制作的 101 个查询进行测试时,使用 RIG 微调的 DataGemma 变体能够将基线模型的 5-17% 事实率提高到约 58%。

使用 RAG 后,结果不那么令人印象深刻,但仍优于基线模型。

DataGemma 模型能够使用来自 Data Commons 的统计响应来回答 24-29% 的查询。对于大多数这些回答,LLM 的数字通常是准确的 (99%)。然而,它很难从 6% 到 20% 的时间里从这些数字中得出正确的推论。

也就是说,很明显,RIG 和 RAG 都可以证明可以有效地提高处理统计查询的模型的准确性,尤其是那些与研究和决策相关的模型。它们都有不同的优点和缺点,RIG 更快但不太详细(因为它检索单个统计数据并对其进行验证),而 RAG 提供更全面的数据,但受到数据可用性和大型上下文处理能力需求的限制。

Google 希望 DataGemma with RIG 和 RAG 的公开发布将推动对这两种方法的进一步研究,并开辟一条构建更强大、更扎实的模型的方法。

该公司在今天的一篇博文中表示:“我们的研究正在进行中,我们致力于进一步完善这些方法,因为我们正在扩大这项工作,对其进行严格的测试,并最终将这种增强功能集成到 Gemma 和 Gemini 模型中,最初是通过分阶段、有限访问的方法。

© 版权声明

相关文章

暂无评论

暂无评论...