检索增强生成(RAG)是一种人工智能框架,通过从外部知识源检索数据来提高响应质量。这种自然语言处理(NLP)技术通常用于使大型语言模型(LLMs)更加准确和及时。
LLMs是驱动聊天机器人的人工智能模型,例如OpenAI的ChatGPT和Google Gemini。LLMs可以理解、总结、生成和预测新的内容。然而,它们仍然可能不一致,并在一些知识密集型任务中失败——尤其是那些超出其初始训练数据的任务,或者那些需要最新信息和透明度的任务。当这种情况发生时,LLM可能会返回错误信息,也称为人工智能幻觉。
当LLM的训练数据不足时,可以通过从外部源检索信息来提高其响应质量。例如,从在线源检索信息,使LLM能够访问其初始训练时未包含的最新信息。这个过程对于基础AI模型、聊天机器人和问答系统变得非常重要,因为它们需要用具体、及时和准确的信息来回应用户查询。
RAG做什么,为什么重要?
LLMs是现代AI系统的关键组成部分,因为它们帮助AI理解和生成自然语言。然而,LLMs存在若干限制和知识空白。它们通常在离线环境中训练,因此模型对训练后创建的数据并不知情。RAG从LLM外部检索数据,然后通过将相关检索数据添加到生成响应中来增强LLM的响应。
本文是
什么是生成AI?生成性AI解释
- 还包括:
- 2024年8大生成AI工具类别
- 人工智能会取代工作吗?17种可能受到影响的职业类型
- 2024年19个最佳大型语言模型
这个过程有助于减少明显的知识空白和人工智能幻觉。在需要尽可能多的最新和准确的信息的领域,这一点尤为重要,例如医疗保健和客户支持。
如何将RAG与LLMs结合使用
RAG将文本生成模型与信息检索组件结合在一起。这个检索组件搜索外部知识,即从LLM原始训练数据之外收集的数据。信息可以从多个地方检索,例如在线源、应用程序编程接口、数据库和文档库。
以聊天机器人为例,一旦用户输入提示,RAG就会使用向量嵌入(通常在向量数据库中管理)、关键字或语义数据来总结该提示。转换后的数据被发送到搜索平台以检索请求的数据,然后根据相关性进行排序。
LLM随后将检索到的数据与增强的提示和其内部训练数据合成,以生成可以传递给聊天机器人的响应。根据聊天机器人的不同,也可以向用户提供来源链接。
使用RAG的LLM可以同时利用内部和外部数据来返回用户的响应,确保提供相关信息。
RAG的好处是什么?
RAG提供以下好处:
- 提供最新信息。RAG从相关、可靠和最新的来源提取信息。
- 增加用户信任。根据AI的实现,用户可以访问模型的来源,这促进了内容的透明度和信任,并让用户验证其准确性。
- 减少人工智能幻觉。由于LLM与外部数据相结合,模型产生或返回错误信息的机会较小。
- 降低计算和财务成本。组织不必花费时间和资源不断训练模型以适应新数据。
- 合成信息。RAG通过结合检索和生成模型中的相关信息来合成数据,以产生响应。
- 更易于训练。由于RAG使用检索的知识源,因此减少了对LLM进行大量数据训练的需求。
- 可用于多种任务。除了聊天机器人,RAG还可以针对各种特定用例进行微调,例如文本摘要和对话系统。
RAG的局限性是什么?
尽管RAG有许多好处,但它也面临一些挑战和局限性,包括:
- 准确性和数据质量。由于RAG从外部来源提取数据,其响应的准确性仅与其提取的数据质量相关。RAG本身无法判断其收集数据的准确性。这意味着检索数据的准确性取决于其数据源的质量和可靠性。
- 计算成本。RAG需要一个模型和检索组件,能够高效集成检索的数据,这是一项资源密集型的过程。
- 可解释性。一些系统可能没有设计让用户知道数据的来源,这可能影响用户的信任。
- 延迟。向LLM添加检索步骤可能会增加其延迟。如果检索机制必须在更大的知识库中搜索,这种情况尤其明显。
检索增强生成与语义搜索
语义搜索是一种数据搜索技术,侧重于理解搜索查询背后的意图和上下文含义。它通过应用NLP和机器学习算法来考虑多种因素,例如查询中使用的术语、先前的搜索和地理位置。这是一种比基于关键字的搜索更有效的方法,后者试图匹配查询中的确切单词或短语。语义搜索广泛应用于网络搜索引擎、内容管理系统、聊天机器人和电子商务平台。
虽然RAG试图通过使用外部数据来提高LLM的响应质量,但语义搜索则侧重于通过理解搜索查询及其背后的意图来提高搜索准确性。
两者可以互为补充。语义搜索可以改善基于RAG的查询质量,因为它专注于更深入地理解搜索。这使得RAG系统能够产生更准确和有意义的输出。
单独而言,RAG非常适合需要最新信息的应用,而语义搜索则非常适合在理解用户意图以提高搜索准确性至关重要的应用。
RAG的历史
在1970年代初,研究人员开始实验和创建能够访问特定主题文本的问答系统。这一过程被称为文本挖掘,它分析大量非结构化文本,并借助能够识别数据属性(如概念、模式、主题和关键字)的软件。1990年代,Ask Jeeves(现称Ask.com)普及了问答系统。
谷歌在2017年发布的论文《注意力是你所需的一切》介绍了变换器架构,标志着创建和训练可扩展且高效的LLMs能力的转折点。次年,OpenAI发布了GPT,其中GPT代表生成预训练变换器。
直到2020年,RAG作为一种框架才被引入。Facebook(现为Meta)的一组团队在伦敦的AI实验室开发了一种将更多知识浓缩到LLM参数中的方法。他们将检索系统与LLM集成,使模型能够创建更动态和扎实的响应。
RAG在其使用中继续增长和演变。它已在许多主要的AI聊天机器人中实施,例如ChatGPT。
了解更多关于生成AI模型的信息,例如变分自编码器(VAEs)、生成对抗网络(GANs)、扩散、变换器和神经辐射场(NeRFs)。
最后更新于2024年12月