Embedding模型用于语义搜索,将数据转换为更高效的符号和统计计算处理格式。作为一种神经网络,嵌入模型利用生成AI、向量数据库和知识图谱的创新,更好地理解单词和思想之间的联系。这使得与传统的关键词匹配方法相比,概念匹配更加准确。这种语义能力使得嵌入模型在搜索引擎、数据分析、客户支持聊天机器人、推荐引擎和业务流程分析工具中尤为有用。
嵌入模型如何使用?
语义搜索的嵌入模型被开发者和数据科学家用于构建更好的应用程序和体验。决定哪个嵌入模型最适合当前项目是一个重要的第一步。数据科学家和开发者可能会探索不同嵌入模型在特定任务中的速度、大小和准确性。这些指标不仅测试可用嵌入模型的性能,还可以通过使用经过策划的数据集的常见问题和相关响应来反馈改进新模型的性能。
嵌入模型通常隐藏在复杂服务和应用程序的背后。例如,嵌入模型在Google搜索中发挥着重要作用,但这些模型并未公开,以防低质量内容制造商操控搜索结果。此外,许多企业应用程序用于知识图谱、主动元数据管理、图形数据库和过程智能,使用的嵌入模型并未公开,以保持竞争优势。
嵌入模型如何工作?
嵌入模型使用统计方法来建模相似类型内容之间的连接。例如,在一个词嵌入模型中,单词“女王”和“国王”可能在统计上接近“首席”或“总统”,但在性别特征上则相距较远。这种方法不限于单词。生成AI的创新还可以创建描述句子、段落和更大文档相似性的嵌入模型。这些模型帮助区分“人咬狗”和“狗咬人”之间的差异。
本文是
什么是生成AI?生成AI解析
- 还包括:
- 2024年8大顶级生成AI工具类别
- AI会取代工作吗?17种可能受影响的工作类型
- 2024年最佳大型语言模型的19个例子
嵌入模型经过训练,以学习文本中模式和关系,数据集特别庞大。当一个经过训练的模型处理新数据时,它分析文本并在多维空间中生成一个独特的数值,或嵌入向量,使用固定维度的嵌入。
一些最佳的嵌入模型使用数千个维度,这似乎很多。但这有助于捕捉在普通语言、抽象诗歌和科学研究创新描述中发现的复杂性和细微差别。
有些嵌入模型允许您指定维度数量。例如,OpenAI最新的嵌入模型——text-embedding-3-large——允许您选择256、1,024或3,072个维度。使用较高的维度数量会导致更好的语义搜索分数,但模型运行较慢且需要更多内存。低维嵌入的计算开销较小。
嵌入模型与编码模型的区别
编码模型采用结构性、逻辑性和数学方法来建模连接。例如,数据库语言和模式帮助结构化商业数据,以便高效处理或分析。知识图谱、本体、分类法和数字双胞胎也可以建模更复杂类型信息之间的关系。一个例子是可扩展商业报告语言(XBRL),它结构化商业报告信息,以便更高效的比较、分析和重用。
嵌入模型比编码模型更慢且准确性较低,但它们更加灵活和适应性强。因此,它们可以结构化非结构化文本或在使用不同编码方案存储的数据之间进行翻译。将数据孤岛对齐到相关的编码方案可能需要相当大的努力和费用。企业在数据集成上花费数十亿美元,归结于它们需要在不同的数据模式和格式之间同步数据。
嵌入模型承诺通过主动元数据管理和数据织物及数据网格架构中使用的语义层等技术自动化编码方案之间的翻译。这可以改善数据重用并连接信息孤岛。相反,编码模型可以在不同领域特定的嵌入模型之间翻译时带来结构,从而通过检索增强生成(RAG)等技术提高准确性和性能。
跨模态连接嵌入
文本嵌入模型在研发工作中占据主导地位,因为它们可以利用互联网上、商业文档中和客户交互数据中大量的非结构化信息。
其他类型的语义搜索嵌入模型正在开发中,以建模图像、音频、数据模式、数学、科学、图形、机器人等领域的模式。这些模型有时独立使用,例如基于歌曲播放历史或购买行为的音乐或产品推荐引擎。
一个主要挑战是,用于编码数据的相同嵌入模型也必须用于解码或处理数据。这推动了对更大和多模态嵌入模型的研究,这些模型在更多领域中都很有用。然而,这些模型有点像瑞士军刀,虽然在紧急情况下对某些任务很有用,但在建房时不如专用螺丝刀高效。专用的代码嵌入模型在代码自动完成方面更快。通用嵌入模型可以帮助提出关于代码片段的问题或使用自然语言提示生成新的代码片段,但它更大且运行较慢。
有许多方法可以弥补嵌入孤岛之间的差距。前面提到的RAG技术可以使用针对特定类型语义搜索优化的一个嵌入模型,然后将生成的文本提交给另一个嵌入方案,以便在大语言模型中获得更有用的响应。多模态AI技术使用神经符号AI技术直接在嵌入之间训练大语言模型,或将新的嵌入方案与现有的大语言模型结合起来。
当将太多类型或模态的数据连接到一个嵌入模型中时,哈希碰撞可能成为一个问题。这发生在太多的事物被映射到太小的空间时。因此,模型将本应有不同含义的事物编码为相同的向量集。这可能降低准确性并增加AI幻觉的风险。
跨模态语义搜索中的嵌入模型类型
以下是一些嵌入模型在各种模态中应用于语义搜索的示例:
- 非结构化文本。文本嵌入方案将非结构化数据转换为向量,以改善商业文档、标准操作程序、维修手册、客户互动、代码库和其他企业来源的搜索和摘要。
- 结构化文本。这些嵌入模型特定领域的关系,例如在财务披露的结构化XBRL文档中的连接,或在发票中支付者、项、价格和条款之间的关系。
- 产品推荐引擎。客户行为嵌入模型关联客户互动和购买中的模式,以精炼产品推荐。
- 代码。最大的LLM都支持将代码属性与人们可能提出的问题相关联的机制。针对特定语言和企业库训练的代码专用LLM可以加速与企业和安全最佳实践对齐的代码自动完成任务。
- 音频。Spotify和Pandora使用优化模型来表示音频特征,以根据听歌历史改善音乐推荐。企业内容创作工具可以帮助为市场营销和广告活动筛选音频片段。
- 图像。特定视觉的嵌入模型可以帮助根据特定艺术风格、物体、场景或上下文搜索或生成图像。
- 业务流程模型。特定业务流程的嵌入模型可以帮助提出关于业务流程的问题,识别例外情况并推荐改进机会。
- 图形。像node2vec这样的嵌入生成图中节点的向量表示,以帮助搜索用于欺诈检测、供应链分析、客户推荐和科学研究的图形。
- 数据模式匹配。主动元数据管理工具创建数据模式和相关元数据的向量表示,以改善数据集成、转换和重用。
- 科学和医学。针对蛋白质、分子和物理的领域特定嵌入方案可以加速科学发现、改善产品开发并在开发早期识别质量控制问题。
嵌入的指标和排行榜
已经进行了大量努力,以比较各种嵌入方案在与语义搜索相关的任务中的相对优缺点。在早期,指标专注于一个具体任务,例如标记文本、回答问题、摘要文档或推荐产品。各种研究社区提出了新的指标,以比较不同嵌入方案在多个任务中的表现,以及它们的相对大小和速度。
目前最广泛和最新的努力集中在非结构化文本和文本到语音的嵌入上。对音频和视觉特定任务的嵌入性能的支持较少。以下是一些这些指标的示例:
- 信息检索基准测试。BEIR支持与九个任务相关的指标:事实检查、引用预测、重复问题检索、论据检索、新闻检索、问答、推文检索、生物医学信息检索和实体检索。
- 大型文本嵌入基准测试。MTEB分析八个任务的性能,包括聚类、双语文本挖掘(寻找翻译的句子对)、检索、语义文本相似性、聚类、分类、对分类和重新排名。Hugging Face管理MTEB排行榜。
- 端到端语音基准测试。ESB比较用于匹配说话风格、减少背景噪音和识别标点符号的嵌入指标,涉及各种语音数据集。这些模型改善了在不同方言和语言以及常见背景噪音存在下的语音转录工具。它们在将说话者的声音翻译成不同语言和简化内容制作中的音频编辑任务方面也很有用。以下是ESB排行榜。
- 音频表示的整体评估。HEAR对语音、环境声音和音乐的音频分类和标记任务进行了基准测试。以下是HEAR排行榜。
嵌入架构
研究人员探索了多种创建嵌入模型的技术。早期版本专注于卷积和递归神经网络架构。生成AI的最新进展激励所有主要的LLM供应商开发和分享基于变换器架构的嵌入模型。以下是六个在MTEB排行榜上持续出现的嵌入架构示例:
- Sentence-BERT。句子变换器,如SBERT,基于Google在2018年推出的变换器模型的双向编码器表示,该模型在捕捉单词上下文方面优于现有方法。这些模型通常比更新的架构更快且更小,但相比之下表现较差。
- SGPT。北京大学的Niklas Muennighoff提出了一种仅解码的变换器方法,称为SGPT,它改善了嵌入的微调和处理速度。
- 可泛化的基于T5的检索器。Google的新开源GTR模型使用经过更大数据集微调的T5模型。
- 来自双向编码器表示的嵌入。 E5是微软推出的一种新型嵌入模型家族,支持多语言语义搜索。
- Embed v3。 Cohere的Embed v3模型家族经过优化,能在MTEB和BEIR上表现良好,同时在RAG和压缩原始嵌入以减少内存和改善搜索质量方面也表现出色。
- Open AI文本嵌入模型。 OpenAI将其嵌入模型家族称为文本嵌入,后面跟着版本和大小的数字。最新版本的成本是早期模型的五分之一,性能相似。