AI Search 第一期:搜索市场及用户需求匹配

好久不见,AI大模型的发展让我之前的传统营销推荐工作产生了翻天覆地的变化。AI营销、AI推荐等概念层出不穷。接下来我将经常出一些工作上涉及到的大模型应用场景以及大模型应用的科普。欢迎大家持续关注!

第一期是关于GraphRAG的,将目光放在RAG增强搜索上,主要是由于工作上的一个产品功能需求,对于业务人员来说比如想要给一个新的banner推广位,那到底是给谁其实是一个推荐需求。如果在五年前,算法工程师们会根据业务人员的需求,进行推荐模型的搭建调试。但是在AI大模型盛行的今天,我们能怎么简化整个流程步骤呢?

我们可以通过AI大模型对个性化用户进行判断,很明显我们需要给到大模型底层用户相关的信息,banner位即活动相关的策略信息,进行“推荐”匹配。

六.GraphRAG

从RAG到Graph RAG:

在人工智能领域,检索增强生成(Retrieval-Augmented Generation, RAG)已成为连接大语言模型(LLM)与外部知识库的核心技术。传统RAG通过检索相关文档片段,为生成模型提供上下文支持,显著提升了生成内容的准确性和可靠性。然而,传统RAG仍面临两大瓶颈:

知识孤岛问题:文本片段间的语义关联未被充分利用,导致检索结果碎片化; 动态知识更新困难:静态文档库难以适应实时知识的变化。

Graph RAG应运而生,其核心思想是将图结构(Graph)与RAG结合,利用知识图谱(Knowledge Graph)和图神经网络(Graph Neural Networks, GNN)实现更高效的知识检索与生成。接下来我将从技术原理、架构设计、应用场景及挑战等角度,深入解析这一前沿技术。

6.1 Graph RAG的图基础:图结构与知识图谱 图神经网络(GNN)是一类用于处理图结构数据的深度学习模型。图由节点(Vertices)和边(Edges)构成,能够直观地表示实体及其关系。常见的 GNN 模型包括图卷积网络(GCN)、图注意力网络(GAT)、图同构网络(GIN)等。以图卷积网络为例,其核心计算公式为:

$$ H^{(l+1)} = \sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right) $$

该公式描述了节点信息在图中的传播过程,通过层叠多层网络,可以捕捉到更深层次的结构信息。

此外,图注意力网络(GAT)通过自适应地为每个节点邻域分配不同的权重,解决了传统 GCN 在处理异质图时权重固定的问题。

6.2 RAG简介 检索增强生成(RAG)模型最早由 Facebook AI 提出,旨在解决生成模型在知识密集任务中缺乏背景信息的问题。传统生成模型依靠内部存储的参数知识,而RAG 模型通过在生成过程中动态检索外部文档或知识库,将检索到的信息与生成模块相结合,从而生成更为准确和丰富的答案。

RAG 模型的基本流程通常包括两个部分:检索模块和生成模块。首先,给定一个输入查询,检索模块利用向量检索等方法从大规模知识库中找出与查询相关的文档;然后,将这些文档与查询信息一起输入到生成模块中,生成最终回答。其损失函数可以写为:

$$ \mathcal{L} = \mathcal{L}{\text{retrieval}} + \lambda, \mathcal{L}{\text{generation}} $$

其中,λ 是一个平衡参数,用于调节检索与生成部分的损失比例。RAG 模型的成功在于它将知识检索和生成过程紧密耦合,在保证生成流畅性的同时,能够借助外部知识库补充最新、最全面的信息。

6.3 Graph RAG的理论基础 Graph RAG 旨在将图结构数据的优势与 RAG 模型有机结合,通过构建图谱来表示知识间的关系,再利用图神经网络进行编码,以提高检索与生成效果。其理论基础主要涉及以下三个方面: