AI搜索在实时营销中的应用探索


AI搜索在实时营销中的应用探索

好久不见!随着 AI 大模型的迅猛发展,传统的营销推荐工作正经历着前所未有的变革。如今,AI 营销、AI 推荐等概念层出不穷。今后,我会定期分享工作中涉及的大模型应用场景及相关科普知识,欢迎大家持续关注!

本文的第一期聚焦于 AI 搜索,结合工作中的实际营销需求,探讨如何捕捉网络热点事件(如“黑神话悟空”的爆红、巴黎奥运会、以及春节、情人节等阶段性热点),并利用RAG实现信息提取与内容总结。


一、需求解析:捕捉热点与多平台搜索

在电商营销中,热点事件往往能带来显著的流量增长。节假日热点由于具有确定性,可以精准瞄准;而如“黑神话悟空”这类网络孵化出的爆款热点,则存在短周期内迅速蹿红的特点。如何高效捕捉这类热点呢?

主要需求可以拆解为两部分:

  1. 多平台搜索
    由于热点不仅存在于传统的网页中,更大量涌现于抖音、小红书、知乎等社交与内容平台,因此需要构建一个覆盖广泛的数据采集系统,实现跨平台信息抓取。

  2. 答案总结与信息提取
    如果仅仅返回网页列表或博文内容,后续的图片、文件格式转换及进一步的信息抽取工作将大大增加成本。理想的搜索工具应当具备自动摘要和关键信息提取能力,直接为我们提供结构化的信息输出。

幸运的是,当前的 AI 搜索工具已经能够完美满足这一需求,通过多平台数据融合与智能摘要,实现营销情报的高效整合。


二、AI搜索

1. 传统搜索的局限性

传统搜索引擎(如百度、谷歌)主要分为 狭义搜索市场广义搜索市场

  • 狭义搜索市场
    以传统搜索引擎为代表,主要通过主页或浏览器地址栏提供搜索服务,核心在于返回网址列表。得益于深厚的技术积累与品牌优势,传统搜索在算法、数据处理和用户基础方面形成了较高的壁垒。然而,随着内容分散到各大社交平台,传统搜索在优质内容获取和用户吸引力上逐渐面临挑战。

  • 广义搜索市场
    除了传统搜索引擎外,还包括抖音、头条、小红书等平台内的搜索功能,以及对大模型内部知识的检索。广义搜索不仅涵盖短视频、中视频、图文等多种内容形式,还可以通过智能推荐和自然语言理解,更好地满足用户多样化、深层次的需求。

2. 用户需求的升级

用户的真实需求远超过简单的链接列表,他们期望能够:

  • 多平台获取内容
    例如,寻找《三体》的美剧下载链接或李想演讲的视频,这类内容往往分布在各大自有内容平台上。

  • 获得具体问题的直接答案
    传统搜索仅提供摘要(snippets),而用户更渴望由 AI 智能整合的高质量回答,如“端午假期如何请假”这种复杂问题。

  • 搜集主题相关的数据与资料
    真正使用搜索获取资料的用户愿意为精准的信息付费,这正是 AI 搜索相比传统搜索具有十倍优势的地方。


3. AI 搜索的核心技术与优势

上面说了,AI搜索主要满足的是用户复杂的、多平台的搜索需求。

AI 搜索的本质在于其核心的AI技术,而不仅仅是搜索功能本身。AI 搜索的决胜点在于如何利用AI技术来提升搜索体验,而不是简单地改进现有的搜索功能。这类似于“AI+”与“+AI”的区别,前者强调AI技术的核心地位,后者则强调AI技术作为辅助工具。

AI 搜索不仅仅是基于大型语言模型(LLM)的简单问答系统,而是通过结合LLM和其他工具构建的复杂架构。例如,Comfy UI 和 Dify 等工具通过构建工作流(Workflow)来实现更复杂的搜索功能。这些工具的本质是在构建一个能够处理多种任务的AI架构。

为了在竞争激烈的市场中脱颖而出,AI 搜索必须寻找新的应用场景和垂直领域。例如,在学术、医疗和法律等领域,AI 搜索可以通过提供更精准和专业的内容来满足用户的需求。这些新场景的搜索不仅具有战略意义,还能为AI搜索带来更多的商业机会。

AI Native 的概念强调产品在AI能力的支持下才能成功。随着技术的发展,传统的搜索功能已经达到了瓶颈,AI Native 的产品通过充分利用AI技术,能够提供全新的用户体验和功能。

4. AI搜索使用接口

市面上有联网搜索能力的接口有很多。我这边在对热点新闻的挖掘中,实际上试用了豆包、chatgpt、deepseek。 想要了解其他的测评,推荐一下这个公众号,写得很详细。

5. AI搜索落地中RAG的使用

直接通过现有接口很明显无法直接获得我们需要的专业化的消息。最重要的一点是通用的服务无法帮我们判断热点是否能为我们的产品带来电商热点,例如明星的离婚八卦对电商的影响就微乎其微。再进一步能为我们哪些产品带来销量增长。再再进一步我们能针对性的对哪些用户进行营销,即哪些是潜在用户。这就需要我们相应提供给大模型我们的产品信息以及用户信息。这些信息就通过RAG进行输入。

RAG(检索增强生成)技术在AI搜索中的核心思想是将信息检索与大语言模型(LLM)的生成能力相结合,从而使搜索系统不仅能查找到相关文档,还能生成上下文连贯、信息丰富的回答。为了适配我们的电商垂直场景,我们需要将我们现有的电商场景、客户信息、产品信息及品牌信息等辅助AI做出判断,哪些热点可以带来哪些产品的增长,同时目标客户是哪些。

由于本场景中用户、历史活动、客群特征中明显存在多对多的关系。故使用 GraphRAG进行知识库构建。

接下来我会详细介绍GraphRAG在营销中的应用。

三、GraphRAG

=================

从RAG到Graph RAG:

在人工智能领域,检索增强生成(Retrieval-Augmented Generation, RAG)已成为连接大语言模型(LLM)与外部知识库的核心技术。传统RAG通过检索相关文档片段,为生成模型提供上下文支持,显著提升了生成内容的准确性和可靠性。然而,传统RAG仍面临两大瓶颈:

知识孤岛问题:文本片段间的语义关联未被充分利用,导致检索结果碎片化; 动态知识更新困难:静态文档库难以适应实时知识的变化。

Graph RAG应运而生,其核心思想是将图结构(Graph)与RAG结合,利用知识图谱(Knowledge Graph)和图神经网络(Graph Neural Networks, GNN)实现更高效的知识检索与生成。

1. Graph RAG的图基础:图结构与知识图谱

图神经网络(GNN)是一类用于处理图结构数据的深度学习模型。图由节点(Vertices)和边(Edges)构成,能够直观地表示实体及其关系。常见的 GNN 模型包括图卷积网络(GCN)、图注意力网络(GAT)、图同构网络(GIN)等。以图卷积网络为例,其核心计算公式为:

$$ H^{(l+1)} = \sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right) $$

该公式描述了节点信息在图中的传播过程,通过层叠多层网络,可以捕捉到更深层次的结构信息。

此外,图注意力网络(GAT)通过自适应地为每个节点邻域分配不同的权重,解决了传统 GCN 在处理异质图时权重固定的问题。

2. 大模型接口与 GraphRAG 的结合

在实际应用中,许多企业和研究机构已经部署了成熟的大模型接口,如 ChatGPT、GPT-4、百度文心等。这些模型在通用文本生成、对话系统、搜索问答等方面具有较高性能,但在面对特定领域或知识密集型任务时,仍可能存在信息不足或回答不准确的问题。

GraphRAG 技术可以作为“调整器”对大模型接口进行增强,基本思路如下:

· 预处理与知识扩充:通过外部知识库对大模型输出的基础答案进行补充,利用图检索模块获取更多上下文信息。 · 动态知识融合:在生成过程中将检索到的图结构信息与大模型生成的中间表示融合,确保生成内容与实际背景知识匹配。 · 后处理校正:利用 GraphRAG 模块对大模型输出结果进行校正,增强答案的准确性与一致性。 这种方法既保留了大模型接口强大的语言理解与生成能力,又利用图结构信息弥补了大模型在知识存储上的局限,从而实现更为精准的知识问答和文本生成。

3. 知识库构建方法

知识库(Knowledge Base)的构建是 GraphRAG 系统中最为基础也是关键的环节。一个高质量的知识库不仅能够保证图结构信息的准确性,还能为后续的图检索和文本生成提供坚实的支撑。下面详细介绍知识库构建的全流程和关键技术。

3.1 数据采集与预处理

构建知识库的第一步是数据采集。数据来源可以多样化,主要包括以下几类:

  • 结构化数据:如数据库、知识图谱(例如 Freebase、DBpedia)等。
  • 半结构化数据:如维基百科、行业报告、技术文档等。
  • 非结构化数据:如新闻、博客、社交媒体文本等。

在数据采集后,需要对数据进行预处理,主要任务包括数据清洗、格式转换和噪声过滤。例如,对文本数据可以使用自然语言处理(NLP)技术去除无用信息、进行分词和句法分析。

3.2 实体抽取

实体抽取是指从原始数据中识别出具有实际意义的词汇或短语,如人名、地名、机构名称、专业术语等。常见的方法有:

  • 命名实体识别(NER):利用基于深度学习或规则的方法,从文本中标注出实体。
  • 关键词提取:采用 TF-IDF、TextRank 等算法筛选文本中的重要词汇。
  • 领域定制方法:在特定领域中,根据行业知识构建定制化的实体抽取规则。

例如,在医疗领域,需要抽取药品名称、疾病症状、医疗机构等实体,而在金融领域,则关注公司名称、股票代码、经济指标等。

3.3 关系抽取

关系抽取是指在实体抽取的基础上,识别实体之间存在的语义关联。常见的关系包括:

  • 隶属关系:例如,“华为”隶属于“通信行业”。
  • 因果关系:例如,“吸烟”与“肺癌”之间存在因果关系。
  • 并列关系:例如,“苹果”和“三星”在智能手机领域处于竞争状态。

关系抽取可以采用监督学习、半监督学习或无监督学习的方法,结合依存句法分析、模板匹配和深度学习模型来实现。构造关系时,需要注意关系的多样性和上下文依赖性。

3.4 知识图谱构建

在完成实体和关系的抽取后,下一步就是构建知识图谱。知识图谱是一种以图结构呈现知识的方法,其中:

  • 节点(V):代表抽取出的各类实体。
  • 边(E):表示实体之间的语义关系。

在图构建过程中,需要对不同数据源的信息进行融合,保证节点唯一性,并进行噪声数据过滤。图谱构建的一个简单公式可以表示为:

$$ G = (V, E) $$

其中,V 为节点集合,E 为边集合。为保证图谱的准确性,通常需要进行多轮人工审核和自动校正。

3.5 节点向量化与图编码

构建好的知识图谱需要进一步转换为便于模型处理的向量表示。这一过程称为节点向量化或图编码。利用图神经网络(GNN)可以将图中的节点表示转换为低维嵌入向量,使得后续检索和融合更高效。

以图卷积网络(GCN)为例,其节点表示更新公式为:

$$ H^{(l+1)} = \sigma\Bigl(\tilde{D}^{-\frac{1}{2}}, \tilde{A}, \tilde{D}^{-\frac{1}{2}}, H^{(l)}, W^{(l)}\Bigr) $$

其中:

  • $\tilde{A} = A + I$ 表示加自环后的邻接矩阵;
  • $\tilde{D}$ 为对应的度矩阵;
  • $H^{(l)}$ 表示第 $l$ 层的节点表示;
  • $W^{(l)}$ 为第 $l$ 层的权重矩阵;
  • $\sigma$ 为激活函数(如 ReLU)。

经过多层 GNN 处理后,图中每个节点都被编码为一个向量,既包含了实体本身的信息,又融合了其邻域结构。

3.6 知识库更新与维护

知识库并非一成不变,尤其在信息不断更新的领域中,如何保持知识库的时效性和准确性十分关键。常见的更新方法包括:

  • 增量更新:利用新采集的数据进行实时补充。
  • 定期校验:通过人工审核和自动化工具检测知识库中的错误信息,并进行修正。
  • 跨域融合:整合来自不同领域或来源的知识,保证知识库的全面性和多样性。

在实际系统中,知识库更新机制可以设计为自动化工作流,结合数据清洗、实体识别和图更新算法,实现动态调整和迭代升级。

4. 基于大模型接口的 GraphRAG 应用架构

在实际应用中,GraphRAG 模型通常作为现有大模型接口的“增强模块”部署,通过对生成结果进行调整,提升系统整体的知识调用和回答准确性。以下介绍一种典型的系统架构。

4.1 系统整体架构概述

整个系统主要包含以下模块:

  • 大模型接口:现有大模型(如 GPT-4、文心一言等)提供基础生成能力。

  • 知识库与图谱模块:构建并维护一个高质量的知识图谱,为后续图编码和检索提供数据支持。

  • 图编码与检索模块:利用图神经网络对知识图谱进行编码;根据用户查询从图中检索相关节点,计算注意力权重。

  • 融合与生成模块:将大模型生成的中间表示与图检索结果融合,通过交叉注意力等技术生成最终答案。

  • 后处理与反馈模块:对生成结果进行校正、格式化,并结合用户反馈不断迭代优化。

4.2 大模型接口调整策略

针对大模型输出中可能存在的知识缺失或信息错误,GraphRAG 模块采取如下调整策略:

  • 检索补充:对于输入查询 $q$,利用图检索模块获得相关节点集合 ${g_i}_{i=1}^k$,然后将这些图上下文与大模型生成的初步答案进行对比和补充。

  • 动态融合:在生成过程中,通过交叉注意力机制将图上下文信息动态注入大模型的解码器中。交叉注意力公式如下:

    $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V $$

  • 后置校正:利用图检索得到的实体及关系信息,对大模型的生成结果进行事实校验,确保输出内容与知识库中数据一致。

4.3 具体应用流程

以开放域问答系统为例,整个应用流程如下:

  1. 用户查询输入:用户通过接口输入查询 $q$。

  2. 大模型初步生成:大模型接口先给出一个初步答案,同时返回内部隐藏状态(如中间特征)。

  3. 图检索:根据查询 $q$ 和大模型隐藏状态,从知识库图谱中检索相关节点,计算注意力权重:

    $$ \alpha_i = \frac{\exp\left(q^T h_i\right)}{\sum_{j \in V} \exp\left(q^T h_j\right)} $$

  4. 信息融合:将大模型生成的表示与检索到的图上下文 ${g_i}$ 融合,生成联合表示 $c$:

    $$ c = \mathrm{Concat}\left(q, \sum_{i=1}^k \alpha_i g_i\right) $$

  5. 生成校正:基于联合表示,重新生成答案或对初步答案进行校正输出。

  6. 后处理与反馈:对答案进行格式化、事实核查,并记录用户反馈用于系统迭代更新。