沙丘社区Logo
发布
登录
注册
沙丘社区Logo

当前热门图结构RAG的分析、测评和优化思考(图RAG由浅入深,看这一篇就够了)

作者:JASON2025年1月27日
1334
人工智能AIGC大模型

       大型语言模型(Large Language Models, LLMs)作为人工智能领域的重要成果,已经在诸多领域展现了强大的自然语言处理能力。然而,LLMs并非无所不能,尤其是在面对特定领域知识或需要实时信息更新的任务时,其“知识幻觉”问题尤为突出,即模型可能会生成与事实不符的内容。为了克服这一局限性,检索增强生成(Retrieval-Augmented Generation, RAG)技术应运而生。RAG通过结合外部知识库与LLMs,实现了对模型生成内容的精准增强,极大地提升了LLMs在复杂任务中的表现。

       本文针对目前业内较为流行的基于知识图谱的RAGGraphRAG、LightRAGNano-GraphRAG其相关变体进行原理分析、特点探讨和实验对比,从实战应用角度,探讨图结构的引入对数据处理和结果生成的影响,分析其不足及优化方向。作为系列开篇,我们将阐述标准RAG与基于图结构RAG的基本原理,随后通过实验初步验证并探讨图结构RAG在各类场景的潜力与表现。

1. RAG的基本介绍和特点分析

1.1 RAG基础知识

RAG是2020年由Meta的Lewis等人提出的,作为LLM领域中可用于增强生成任务的一种范式,使LLM在此步骤中查询外部数据源以获取相关信息,并一定程度解决大模型的幻觉问题。RAG在问答系统中的应用通常包含三个基本步骤:索引、检索和生成。

(1)索引

索引是RAG技术的第一步,也是后续检索和生成的基础。在这一步骤中,外部知识库中的文档被分割成多个chunk(片段),并通过向量编码技术将这些chunk转换为向量表示。这些向量表示随后被存储在向量数据库中,以便后续的快速检索。

索引过程的关键在于如何有效地分割文档和编码向量。合理的chunk大小能够确保既不会超出LLMs的上下文窗口限制,又能保留足够的信息供检索使用。同时,高质量的向量编码技术能够提升检索的准确性和效率。

目前,常用的向量编码技术包括词嵌入(如Word2Vec、GloVe)、句嵌入(如Sentence-BERT)以及上下文嵌入(如BERT、GPT)等。

(2)检索

在这一步骤中,根据用户提出的问题或查询请求,系统会在向量数据库中检索与问题最相关的前k个chunk。检索过程通常基于向量相似度计算,即计算查询向量与数据库中chunk向量的相似度,并选择相似度最高的chunk作为检索结果。

检索质量的好坏直接影响到后续生成内容的质量和准确性。因此,提高检索的准确性、效率和鲁棒性是RAG技术研究的重要方向之一。

常用的检索算法包括基于向量相似度的检索(如余弦相似度、欧氏距离)、基于近邻搜索的检索(如KNN、ANN)以及基于深度学习的检索(如神经网络检索)等。

(3)生成

生成作为RAG的最后一步,将检索到的信息转化为用户所需答案。原始问题和检索到的chunk被一起输入到LLMs中,通过模型的生成能力合成最终的答案。

生成过程的关键在于如何有效地利用检索到的信息,并确保生成内容的准确性、连贯性和可读性。

1.2 常见的RAG调研

名称技术特点是否开源来源公司社区活跃度技术生态应用广泛性
Naive RAG基础版的RAG模型,利用传统的检索增强生成方法,结构简单开源Patrick Lewis和他的研究团队Python,大语言模型因其简单性被广泛应用于基础的RAG应用中,如简单的问答系统和信息检索任务
Graph RAG结合图神经网络(GNN)和检索增强生成(RAG)的优势,利用知识图谱和图机器学习技术提升大型语言模型性能开源微软Python,结合了知识图谱(Knowledge Graph)和大型语言模型(LLM)需要对大量结构化数据进行深入分析和理解的领域,如金融分析、医疗诊断和法律研究
Light RAG引入图结构集成和双层知识检索,优化信息检索的全面性和效率,具备增量更新机制和模块化组件开源中国香港大学研究团队Python,使用开源的PyTorch库适合于构建高效的问答系统和客户服务机器人
Advanced RAG在Naive RAG基础上,采用检索前和检索后策略提高检索质量,提升生成质量和上下文理解开源许多科技公司Python,大语言模型Advanced RAG因其增强的性能和灵活性,被广泛应用于需要处理复杂查询和多步骤推理的高级应用中
Modular RAG模块化RAG框架引入了额外的专门组件,增强检索和处理能力,展现更大灵活性。开源许多科技公司Python,大语言模型因其高度的可定制性和灵活性,被广泛应用于各种需要个性化和可扩展NLP解决方案的场景中,如个性化推荐、复杂的问答系统和多模态数据处理
RAGFlow最大特点为多样化的文档智能处理,基于深度文档理解构建的开源RAG引擎,具备OCR和多种文档切分模板开源由Anthropic公司开发Python、JavaSript,大语言模型智能搜索引擎、对话AI助手、文本摘要和数据分析报告等
GraphRAG-DRIFT在GraphRAG基础上引入DRIFT推理,结合全局与局部搜索,优化图谱生成开源微软多语言集成,主要为Python,同时支持JavaScript和C#;兼容主流NLP框架、矢量数据库及Azure等微软云服务。目前处于较小众状态,可应用于疾病知识图谱、智能推荐系统或风险分析等场景
SFR-RAG在LLM生成模块引入“思考”与“观察”角色,通过多跳推理、偏好学习优化上下文生成与信息检索开源Salesforce Al Research主要为Python开发,支持多项基准测试、分布式计算工具、Flash-Attn与外部工具集成,优化效率与性能覆盖法律、医学、金融等领域,支持多跳推理和复杂检索,助力专业领域决策支持
MemoRAG创新的 Dual-System 架构,整合长记忆与检索生成,支持多任务,提供快速上手的“Lite模式”开源智源研究院与人大高瓴学院联合推出主要为Python开发,支持多语言集成;扩展上下文的 LLM(如 Meta-Llama 和 Mistral);HuggingFace 模型加载和记忆化长文本适用于知识库整理、长文本理解等领域,优化企业决策,降低小型机构使用门槛
RULE基于规则引导的用于问答的检索增强生成语言模型开源匿名作者论文处于双盲评审中较高Python,大语言模型在自动化、合规、推荐系统等领域广泛应用
RAFT用于强化学习中的自适应任务选择开源加利福尼亚大学伯克利分校计算机科学系较高PythonRAFT能够广泛应用于需要领域特定问答、实时信息处理和复杂推理的任务中
FABULA基于检索增强叙事构建的情报报告生成闭源马里兰大学巴尔的摩分校较高Python内容创作、自动摘要等领域
ATLAS需要高效、准确检索且参数效率高的知识密集型任务。它通过优化检索算法和模型参数来提高性能开源google,meta,Microsoft,amazon,IBM,hugging face 等。较高Python,JAVA法律研究、学术研究和专业咨询等需要精确信息检索的知识密集型任务
RETRO它通过结合信息检索和生成模型,使大语言模型在处理特定领域或时效性需求时表现得更加高效开源DeepMind较高Python信息检索型任务
对话式 RAG能够提供准确且上下文相关的响应开源Cohere较高Python客户服务聊天机器人、虚拟助手和在线教育平台等需要多轮对话的应用
Nano-GraphRAG提供更小、更快、更清晰的GraphRAG实现,支持异步操作,完全采用类型注解,易于扩展和定制。开源个人(GitHub用户gusye1234)中等Python适合于需要快速部署和灵活调整的小型到中型项目
HtmlRAG使用HTML代替纯文本作为外部知识库,设计了一种基于块树的两步修剪方法,修剪HTML中无用信息块开源由中国人民大学的高瓴人工智能学院和百川智能技术公司共同完成中等Python,大语言模型处理和优化从Web检索到的HTML文档,这对于任何需要处理Web数据的应用都是有益的,包括但不限于搜索引擎、问答系统、内容管理系统等
Self-RAG通过检索和自反思来提高LLM的质量和真实性开源华盛顿大学、IBM人工智能研究院等机构的技术专家共同提出中等Python广泛应用于自动问答、知识库建设、智能客服等领域
SubgraphRAG结合了知识图谱(KG)和检索增强生成(RAG)框架的技术,先检索与查询相关的子图,然后利用LLMs进行推理和答案预测开源Georgia Institute of Technology,Mufei Li、Siqi Miao和Pan Li中等python,图数据库相关技术。需要涉及多重推理或实体之间复杂关系的答案的场景
TableRAG能够快速从表格中检索相关信息,适用于需要从大量表格数据中提取信息的场景开源Google deepmind中等Pyhton金融分析、市场研究和客户数据管理等需要处理表格数据的领域
CORAG平衡检索质量与成本的资源受限环境。它通过优化资源使用来在保持检索质量的同时降低成本开源微软亚洲研究院中等Python。其核心算法是蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)小型企业的客户支持系统或移动设备上的应用程序等成本敏感或资源有限的环境
METRAG一种多层次思维增强的检索增强生成框架闭源蚂蚁集团较低Python对话生成和多轮交互领域有一定应用
Auto RAG适用于需要自主和迭代检索机制来增强响应质量的应用程序。它通过自动化的检索策略调整来优化响应质量开源Marker Inc. Korea较低Python,自动化机器学习、大模型。个性化推荐系统和智能助手等需要持续学习和适应用户查询模式的应用。
EACO-RAG减少延迟和提高资源效率的大规模分布式环境。它通过优化资源分配和检索算法来减少延迟开源Jiangxing Intelligence Inc较低Java和Python实时客服系统和大规模内容推荐平台等需要快速响应和高吞吐量的应用
LA-RAG细粒度的token级语音数据存储,语音到语音的检索机制,结合语音标记器、语音适配器和模型适配器,LoRA高效微调提升ASR能力闭源huawei TSCPython开发,预训练 ASR 模型(CTC和AED),LoRA 微调,FAISS,深度学习框架(如 LLaMA)支持智能家居、车载助手、教育医疗和企业服务,提供多语言语音(含方言)识别和精准翻译分析
NLLB-E5跨语言嵌入模型实现零样本检索,解决低资源语言挑战,无需多语言训练数据闭源印度理工学院和IBM研究院联合研究Python开发,NLLB 编码器、E5 检索模型,LoRA 微调,FAISS,深度学习框架(Transformer、PyTorch库)适用于跨语言搜索、自动翻译、公共卫生及学术资源检索,助力全球交流和信息传播
HyPA-RAG通过查询复杂性分类器进行自适应参数调整,结合密集、稀疏和知识图谱方法的混合检索策略,提升法律与政策检索的精准度与响应质量闭源伦敦大学学院和Holistic AI研究院提出Python开发,知识图谱(KGs),机器学习模型(DistilBERT 和逻辑回归),稠密检索(如基于向量的检索)和稀疏检索(如 BM25)结合适用于法律咨询、政策分析、教育培训和风险管理,提供精准信息检索与自动化处理服务,成本和更新需求可能限制其应用,但环保灵活
MK Summary采用准备-重写-检索-阅读框架,为文档生成元数据和合成QA对,优化个性化查询和深入检索闭源AmazonPython开发,Claude 3模型、元知识摘要(MK Summary),深度学习框架(Transformer、PyTorch库)适用于企业知识库、学术研究、法律、金融、医疗和多语言服务等数据密集服务领域
CommunityKG-RAG结合知识图谱和RAG,利用KGs的社区结构及多跳特性,实现零样本学习,具有高鲁棒性,无需额外微调闭源加州大学戴维斯分校Python开发,知识图谱 (KGs),社区检测(Louvain 算法),LLM模型(LLaMa2 7B、Sentence-BERT等)可应用于新闻审核、社交媒体内容管理、法律合规、医疗及客户服务领域,适用于需要深层次知识推理和事实核查的场景
Self-Route结合RAG和长上下文LLM(Long Context, LC)优势,通过模型自我反思动态决定使用RAG或LC,优化查询处理闭源是由Google DeepMind和密歇根大学的研究人员提出的RAG和LC非常广泛,特别是在长文本理解和复杂查询处理中。如果实现得当,可能会广泛应用于知识问答、长篇生成和事实验证等任务中
RAPTOR一种用于图形计算或决策树模型优化的算法,增强模型推理能力开源斯坦福大学Python广泛应用于图像处理、优化任务和决策系统
FILCO针对生成模型和对话系统的优化方法,注重低成本高效生成闭源卡内基梅隆大学Python在客服、虚拟助手和智能客服领域有广泛应用
REPLUG以模块化方式增强大型语言模型(LLM),使其适应各种应用程序而无需更改核心模型开源由华盛顿大学(University of Washington)、斯坦福大学(Stanford University)、韩国KAIST和Meta AI共同提出的Python客户支持、内容创作和教育工具等需要快速适应新领域的应用
AstuteRAG通过迭代整合内部与外部知识,根据信息可靠性确定答案,解决LLMs内部知识与外部知识冲突的问题闭源由Google Cloud AI Research和University of Southern California共同研究深度学习框架、NLP工具库、信息检索工具开放域问答系统、智能客服系统、个性化推荐系统、文档自动化生成和教育领域
StructRAG通过混合信息结构化机制,提升LLMs在知识密集型推理任务上的性能开源由中国科学院软件研究所的中文信息处理实验室、中国科学院大学和阿里巴巴集团共同完成Python,大语言模型(Qwen2)知识密集型任务(如金融、法律文书解析、医学诊断、复杂技术问题解答)方面
Retriever-and-Memory通过迭代信息收集和自适应记忆审查,增强了复杂问答任务中的知识交互和信息收集开源由清华大学、中国科学院信息工程研究所、中国科学技术大学和东北大学共同研究Python,大语言模型(GPT-3.5、Qwen2-7b)多跳问答(Multi-hop QA)和长文本问答(Long-form QA)

    调研了行业目前比较热门的36款RAG技术,可以看到RAG技术受到广泛关注,并呈现出多样化的发展态势。一方面,大量的RAG方法不断涌现,它们在不同的应用场景下各有优劣。然而,在众多的RAG技术中,存在一些普遍的现状问题。

     然而,以知识图谱为例的图结构,以其天生优势能够轻易建立数据间的联系,从而达到充分利用知识库提升大模型服务性能的目的。我们挑选了三款开源、社区热度较高的基于知识图谱的RAG框架,根据其典型特性,对其功能在业务场景的使用进行测试和讨论。因此,本文将聚焦基于图结构的RAG技术,以GraphRAG、LightRAG、Nano-GraphRAG这三种以图结构索引的RAG为例,重点介绍其原理、特点以及实验对比

1.3 基于图结构的RAG

以知识图谱为索引的RAG作为RAG技术的一种升级形式,通过引入图结构来优化知识表示和检索机制,从而在处理复杂查询和生成高质量文本方面表现出色。本文挑选了GraphRAG、LightRAG、Nano-GraphRAG三款开源、社区热度较高的基于知识图谱的RAG框架,根据其典型特性,对其功能在业务场景的使用进行测试和分析。

整理了基于图结构的RAG与标准RAG的几项重要特点,通过多个维度对比这两类技术的差异:

对比维度图索引RAG标准RAG
知识表示方式使用图结构表示知识,以实体和关系的互联网络构建知识图谱,其中节点表示实体,边表示实体之间的关系,能够更清晰地展现知识之间的内在联系采用平面文档结构来组织和存储知识,将文本信息视为一系列独立的文档或段落
检索策略采用图遍历算法进行信息检索,根据输入查询在知识图谱中沿着相关关系路径寻找连接的信息节点,能够更全面地考虑知识之间的关联,从而提高检索的准确性和完整性主要依赖向量相似度搜索,通过计算查询与知识库中文档或段落的向量表示之间的相似度,来检索相关信息
上下文理解能力由于其图结构的特性,能够捕捉更复杂的多步骤关系,更好地理解和利用信息片段之间的复杂语义关联,从而提供更丰富、更具语境的信息检索结果,为生成更准确、更有深度的响应提供有力支持在处理查询时,主要基于检索到的文档或段落的局部上下文来生成响应,对于复杂的多步骤关系的捕捉能力相对较弱,可能会忽略一些深层次的语义关联
推理能力图结构支持对相互关联信息进行更深入、更复杂的推理,能够沿着关系链进行多跳推理,实现更复杂的逻辑分析,从而更好地应对需要深度推理和综合理解的问题推理能力相对有限,通常只能基于检索到的直接相关信息进行简单的推理和生成
检索效率对于涉及关系遍历的查询类型,图结构可显著提高处理效率。通过直接在知识图谱中定位相关节点和路径,能够快速地检索到所需信息,减少不必要的搜索和计算,尤其在处理复杂查询时优势更为明显对于简单的查询,其检索和生成过程相对直接,效率较高。但在处理涉及复杂关系和多跳推理的查询时,可能需要遍历大量的文档和信息,导致响应时间较长
适应数据变化的能力具有更好的灵活性和适应性,能够更方便地对知识图谱中的实体和关系进行更新和扩展,以反映数据的变化。新的数据可以直接融入现有的知识图谱结构中,无需对整个知识库进行大规模的重新构建,从而更高效地保持信息的时效性当知识库中的数据发生变化时,通常需要重新对整个文档集合进行索引和更新,以确保检索结果的准确性和时效性,这可能会带来较大的计算成本和时间开销
生成响应的质量和多样性能够从不同的角度和社区中提取信息,并通过对相关子图的整合和分析,生成更丰富、更详细、相互关联的洞察,提供更具深度和广度的答案,尤其适用于需要综合考虑多种因素和关系的复杂问题生成的响应通常较为简洁直接,侧重于对检索到的文档内容的总结和提炼,提供相对较为基础的答案

1.2.1 GraphRAG

Graph RAG与标准RAG在原理上的核心对比体现在知识表示、检索机制及上下文理解能力上。

(1)知识表示的图谱化:相较于标准RAG依赖的平面文档结构,GraphRAG引入图结构化的知识表示方法。在此体系下,信息不再以孤立的文本块形式存在,而是被组织为实体与关系的互联网络。实体代表具体的概念、对象或事件,而关系则描述了这些实体之间的关联与相互作用。这种表示方法不仅丰富了信息的层次性和关联性,还使得知识表示更加贴近现实世界的复杂结构,为深度关系理解和推理提供了基础。

(2)图遍历算法驱动的检索机制:GraphRAG的检索机制摒弃了传统基于关键词匹配的搜索方式,转而采用图遍历算法。这一转变使得系统能够沿关系链进行深度探索,检索出与查询紧密相关且富含上下文的子图,而非孤立的信息点。图遍历算法不仅提高了信息的完整性和准确性,还赋予了GraphRAG多跳推理的能力,使其能够处理更复杂、更深层次的查询需求,如涉及多个实体和关系的综合性问题。

(3)上下文理解的深度增强:图结构的天然优势在于其对复杂关系的捕捉和表示能力。GraphRAG利用这一特性,在生成响应时能够融合更广泛、更深入的上下文信息。通过图遍历和关系推理,系统能够准确理解查询背后的意图和需求,从而生成更加连贯、准确且富有洞察力的回答。相比之下,标准RAG可能因信息片段的割裂和检索算法的局限而忽略部分重要关系,导致上下文理解不够全面。

图片.png

图1.1:GraphRAG原理图(官方)

对于复杂文本而言,得益于建立的知识图谱为索引,GraphRAG相比于标准RAG有较为全面的提升。

1.2.2 LightRAG

LightRAG 是由香港大学黄超团队推出的一种简单快速的RAG系统,它同样结合了图结构与双层检索机制,有效解决了现有 RAG 系统检索效率低下、信息相关性不足以及对新数据适应能力差等问题。与GraphRAG类似,LightRAG同样是基于知识图谱的索引,基本原理如下:

(1)基于图的文本索引:首先将文档分割成较小的片段,利用大语言模型(LLM)识别和抽取其中的实体及关系,如从 “武松从武大郎之死洞察潘金莲与西门庆作歹” 中可抽取 “武松”、“武大郎”、“潘金莲” 和 “西门庆” 等实体及 “武大郎之死”、“潘金莲与西门庆苟且”、“武松报仇” 的关系 。然后生成节点和边的键值对数据,每个索引键是一个单词或短语,对应的值是总结了相关片段的文本段落,以此构建全面的知识图谱,展示整个文档集合中的连接关系。

(2)双层检索机制:在低层次检索中,通过图结构和向量表示相结合的方式,专注于提取特定实体及其关联属性和关系,从而提取精确的信息。在高层次检索中,该机制利用图结构中的节点和边表示更加宏观的概念和联系,以提供全面的信息。这种双层检索机制兼顾准确性和多样性,有助于提升检索架构的场景适应能力。

(3)融合图结构和向量表示以实现高效检索:对于给定的查询,先提取局部和全局查询关键词,再使用高效的向量数据库,将局部查询关键词与候选实体匹配,全局查询关键词与与全局键关联的关系匹配,并进一步收集已检索图元素的局部子图中的相邻节点,引入高阶关联性,从而简化搜索过程,提高结果的相关性和检索效率。

(4)快速适应动态增量知识库:当新数据到来时,无需重新处理整个外部数据库,而是使用与之前相同的基于图的索引步骤进行处理,并将新的图数据与原始数据结合,通过增量更新算法,在不破坏现有图结构的情况下整合新信息,降低计算开销,加速新数据的吸收,使系统能够在快速变化的数据环境中保持有效性和响应性。

图片.png

图1.2:LightRAG原理图(官方)

类似地,我们也整理了LightRAG的技术特点,由于其与GraphRAG均从知识图谱解决信息关联问题出发,相比于标准RAG的提升角度较为相似,因此本节将GraphRAG作为对比对象。

LightRAG与GraphRAG虽都基于图结构助力大模型检索增强生成,但二者在多方面存在差异。LightRAG在索引构建上通过分段抽取实体关系与去重优化构建知识图谱及键值对数据,检索采用双层范式结合关键词匹配与高阶关联性提升效率与适应性,且具备增量更新算法高效应对新数据、控制成本,在多跳连接关系中提取全局信息增强复杂查询处理能力;而GraphRAG以社区检测算法划分节点区域并生成摘要,有本地与全局两种检索模式,在检索效率提升技术、适应新数据能力及成本控制方面未显突出优势,不过能从不同角度和社区提取信息生成丰富摘要。

1.2.3 Nano-GraphRAG

Nano-GraphRAG提供了一个更小、更快、更干净的GraphRAG,同时保留了核心功能,原理如下:

(1)与上述两种方法类似,先对输入文本进行语义解析与预处理,运用LLM提取其中的核心实体与语义关系,并将这些实体作为知识图谱的节点,语义关系构建为边,逐步构建起一个紧凑且语义丰富的知识图谱结构。

(2)当接收到查询请求时,先对查询语句进行语义分解与意图识别,确定核心关键词与语义范畴。然后,基于知识图谱进行多策略检索,一方面通过基于向量空间模型的快速定位技术,初步锁定与关键词向量相似度较高的节点及其周边区域;另一方面,利用基于图遍历算法的深度检索,沿着语义关系边拓展搜索范围,挖掘出与查询有潜在关联的深层次信息。在检索过程中,还会动态调整检索策略的权重,根据查询的复杂度与特定需求,优化对不同类型关系与节点的搜索优先级

(3)在信息融合与生成阶段,会将检索到的多源信息进行综合评估与筛选,去除冗余与低相关性信息。然后,借助LLM并结合知识图谱中的结构化知识与筛选后的文本信息,按照语言逻辑与用户查询意图生成回答。在整个过程中,会持续监测与评估生成结果的质量,通过反馈机制不断优化检索与生成策略,以适应不同领域与场景的应用需求。

图片.png

图1.3:Nano-GraphRAG原理图(参考:graphRAG 后的 triplex、itext2KG 与 nano-graphRAG 对比介绍

1.2.4 原理特点对比

以下将上述三种RAG方法进行不同维度的原理对比归纳:

对比维度LightRAGGraphRAGNano-GraphRAG
索引构建将文档分段抽取实体和关系构建知识图谱,并生成键值对数据,且进行去重优化从源文档中识别实体构建关系网络形成知识图谱,再用社区检测算法将节点划分为不同区域并生成摘要采用自适应抽取策略,根据数据特征动态调整实体和关系抽取的粒度,形成知识图谱,在构建过程中更注重数据的局部特征与全局语义的平衡
检索策略采用双层检索范式,结合低层次具体查询检索和高层次抽象查询检索,能更好地适应不同类型的查询需求,更注重实体和关系的检索有本地检索生成和全局检索生成两种模式,本地检索针对数据集中的一个点,全局检索针对数据集的全局问题,侧重于社区遍历,即本地检索以向量索引为主,全局以图社区为主引入分层检索和语义聚焦机制,在不同层次上进行检索,同时根据查询语义动态聚焦相关知识区域,兼具灵活性和准确性
检索效率通过结合图结构与向量表示,利用关键词匹配和引入高阶关联性,提高检索效率,显著缩短响应时间,同时保持上下文的相关性在检索效率和资源消耗上具备不如LightRAG通过优化图遍历算法和向量索引技术,在保证检索准确性的同时,降低资源消耗,达到较高的检索效率,在中等规模数据下表现突出
适应新数据能力具备增量更新算法,可快速适应动态数据变化,无需重建整个知识库,节约计算资源,提升系统性能未明确提及在适应新数据能力方面有类似 LightRAG 的特定优化技术采用实时增量学习机制,能够快速将新数据融入知识图谱,并且在更新过程中不断优化知识图谱结构
成本在索引和检索过程中的令牌和 API 调用数量上比 GraphRAG 更高效,尤其在处理数据变化时的增量更新阶段优势明显需要更多的令牌和重建成本通过优化索引和检索算法,减少不必要的计算开销,成本介于 LightRAG 和 GraphRAG 之间,在长期运行下具有成本优势
信息理解全面性构建的图结构能够从多跳连接关系中提取全局信息,大大提升了对复杂实体关联性的理解能力,能针对复杂查询提供更丰富的生成能力能够捕捉到整个数据集的全貌,通过并行生成社区摘要并汇总来生成最终答案,可从不同角度和社区中提取信息,生成更丰富的摘要在知识图谱构建过程中融入语义知识,不仅能从多跳连接中提取信息,还能基于语义关系进行推理,增强对复杂问题的理解和解答能力

虽然都是基于知识图谱进行的检索优化,但各自特点均在不同方向上有适用的优势,与需求和应用场景关系较大。

2. 实验设计

在实际的业务支撑场景中,对RAG技术提出了更高准确性、逻辑性等方面的要求。为了确定上述哪种RAG 技术最适合公司业务需求,并验证相关技术在实际业务场景中的性能表现,我们开展了一系列实验,本章将介绍这些实验的设计部分。

本次对于图结构RAG的技术实验分析是基于中国移动中台智能助手产品的实际运营场景与数据基础进行的,尽可能贴近实际生产的应用场景测试GraphRAG、LightRAG(包括Local模式、Global模式、Hybrid模式)、Nano-GraphRAG等技术的表现,并深入对比它们的优劣势。

2.1 实验背景

     为帮助理解本次实验涉及的业务背景,首先简单介绍一下智能助手,它是一款聚焦toB业务支撑,贯穿售前至售后全周期,实现从需求分析、精准推荐和方案设计的全流程支撑大模型产品。

2.1.1 数据集构建

       从公司内部的业务文档库、知识库等多源数据中收集文本数据。这些数据涵盖了中台规划、运营、流程、常见问题解答等方面的内容,与中台日常业务紧密相关。

本次实验主要引入四篇能力中台的标准化文档,包括:

序号文档名称字符长度(字)
1《中国移动能力中台白皮书-11月》14114
2《能力上台指引手册v1.4》30225
3《能力使用指南-能力中台能力订购指引手册V1.5》14592
4《一级中台能力运营中心-指标汇聚对接规范-1.0.11》33972
5《中台每月统计数据》5462
6《云音乐订购指引手册》(干扰数据)1844
共计:98365字

     在数据集的构建过程中,对以上数据进行初步筛选和整理,去除重复、无效以及敏感信息,确保数据的质量和可用性。针对业务场景中的典型问题,组织公司内部业务专家对数据集中的相关文本进行标注。标注内容包括文本与问题的相关性、文本中关键信息的提取以及预期的正确答案等。标注后的数据集将作为后续模型评估以及结果对比的基准。

2.1.2 实验环境搭建

(1)硬件资源

CPU:64核

内存:400G

GPU:8张A100

显存:显存模式320G

(2)软件环境

基座模型为Qwen-72B

2.1.3 实验步骤

以能力中台白皮书、上台指引、订购手册等为核心数据资料,构建一个关于能力中台体系及其上台、订购、运营信息的用户问答平台。

(1)模型初始化

针对每种选定的RAG技术,按照其官方文档和最佳实践指南进行模型的训练和初始化。使用构建好的数据集通过各RAG技术进行知识库挂载,使其能够检索到文本数据的特征表示并输出相关内容。

(2)测试集构建

根据数据集的内容,选定具有不同角度代表性的问题。测试集的问题覆盖对RAG输出的准确性、完整性、鲁棒性、多跳推理和上下文相关性等方面,从多维度评估RAG整体表现。

(3)实验执行

针对测试集中的每个问题,分别使用不同的 RAG 技术进行处理。记录每种技术在处理过程中的生成结果、响应时间以及数据使用情况等信息。

为了减少实验误差,对每个问题在每种技术下进行多次测试,并取平均值作为最终的实验结果。

(4)结果评估与分析

根据记录的实验数据,评估和计算每种 RAG 技术在回准确性、完整性、鲁棒性、多跳推理、上下文相关性等指标值。确定哪些技术在哪些方面具有显著优势,以及不同变量之间是否存在相互影响关系,并结合业务需求和实际应用场景,对实验结果进行综合评估。

2.1.4 实验指标

为评估不同 RAG 技术在业务场景中的表现效果,我们设计了多个指标,从多维度量化各技术的表现,从而精准甄别其适配性与优劣性,主要涵盖以下方面:

准确性:通过与业务专家审定的标准答案比对,综合考量模型生成答案与标准答案的语义契合度、关键信息涵盖比例以及逻辑关联性,以此精准评定模型回答的精确水准。

完整性:用于判定模型生成答案是否全面囊括问题涉及的关键要素与各个层面。检查答案是否完整回应问题全貌,有无重要信息缺失或仅作片面解答的情形。如针对业务流程多阶段问题,评估答案是否完整阐释全流程,而非仅涉及部分环节。

多跳推理表现:评估关注模型在需要多步推理的问题中的表现,包括逻辑推理的连贯性、信息整合的准确性以及推理路径的合理性。

上下文相关性:评估强调模型在海量信息中精准检索相关上下文的能力,以及从多个文档中合成信息以回答复杂问题的能力。

鲁棒性:聚焦于模型在噪声环境下的稳定性和可靠性,包括处理缺乏实质信息的文档、识别和忽略不准确信息的能力,以及在缺乏必要知识时的明智判断,避免错误回答无法回答的问题。

资源消耗:统计各技术对LLM、embedding等模型token的消耗量,以便对比各 RAG 技术在资源消耗上的差异,为实际部署规划提供关键参考,确保资源的优化配置与高效运用。

2. 实际案例中的应用分析

本章将精选5个不同类型的测试案例,对本文讨论的基于图结构的GraphRAG、LightRAG、Nano-GraphRAG结合实际业务进行测试,并与标准RAG进行比较,从准确性、完整性、鲁棒性、多跳推理、上下文相关性、响应时间和资源消耗等指标进行评价。

序号测试案例测试方向
1如何获取专家评审结果?准确性、完整性
2中台上有哪些角色?准确性、完整性
3以季度为单位,三季度能力调用量环比增加多少?数据分析处理的准确性、鲁棒性
4在能力评审环节中,能力初审、复审和上台评审之间的关系是怎样的?上下文相关性、多跳推理特性、准确性、完整性
5平台运营者如何评估能力订购?鲁棒性

3.1 测试案例一

“如何获取专家评审结果?” 这一具体事实性问题为例,专家评审是中台能力上台的关键环节,涉及运营方组织的线上会议,由中台与安全专家共同评估能力。评审意见通常可在7个工作日内于能力中台统一门户查阅。以下是与提问内容相关的知识库原文节选:

图片.png

图3.1.1:相关知识库原文

3.1.1 GraphRAG

在GraphRAG中,会将“专家评审结果查询”,以及相关的“统一门户”、“统一运营方”、“能力评审”、“能力上台”、“线上评审”等表示为相互关联的实体,即图结构,这些实体会连接对应的社区和相应的文本块内容,并建立关联关系,如下图所示:

图片.png

图3.1.2:GraphRAG以专家评审为核心构建的关系图

对于GraphRAG而言,针对“如何查询专家评审结果?”的提问,系统会从“专家评审结果查询”这一核心节点开始,逐步查找与之关联的“统一门户”、“统一运营方”、“能力评审”等节点,并用这种模式继续探索与关联节点紧密相连的其他节点,最终通过关联筛选,定位到与用户提问高度契合的信息。

以下是GraphRAG的回答:

要查询专家评审的结果,具体步骤如下:首先,用户需要访问统一门户,这是提交评审意见的地方。
然后,用户可以通过首页->运营工作台->能力上下台申请->上台申请管理这一路径来查看评审结果。
这一过程确保了评审结果的透明性和可访问性,有助于能力提供者及时了解评审进展和结果。

此外,统一运营方负责收集整理评审结果,并在7个工作日内完成这一过程。这意味着,一旦评审结束, 能力提供者可以在统一门户上查询到最新的评审结果和专家意见,从而为后续的服务注册和能力发布等 环节做好准备。

综上所述,查询专家评审结果的过程是通过统一门户进行的,这一过程不仅方便快捷,而且确保了评审 结果的及时性和准确性。

可以看到,GraphRAG的回答较为详细且结构化,提供了具体的查询步骤,还解释了这些步骤背后的逻辑和目的,如“确保了评审结果的透明性和可访问性”。同时,GraphRAG强调统一运营方的角色和责任,以及评审结果对后续流程的重要性,使得回答更具连贯性和深度。

在该案例中,GraphRAG对于事实性问题的回答表现了较强的准确性和完整性。

3.1.2 LightRAG

类似的,LightRAG也会将问题与相关的“能力评审”、“自评估评审会”、“中台运营”等实体抽取并关联起来,并生成每个实体和关系的检索键和检索值。其中检索键是较短的文本,用于与查询文本的语义进行匹配。可视化的知识图谱如下图所示:

图片.png

图3.1.3:LightRAG以能力评审为核心构建的关系图

在应对事实类问题查询时,LightRAG的核心在于与实体建立明确且紧密的关联,以此为基础展开全面而精准的信息检索与整合工作。具体而言,LightRAG创新运用了双层检索范式包含底层和高层检索,而本测试例所属的事实类问题的查询可能更适用于底层检索环节,因其能够充分利用实体所蕴含的具象语义来构建键值体系,凭借此体系深入知识库进行细致的检索操作。通过对这些基于实体具象语义的键值匹配,精准地定位并召回与问题高度相关的实体信息。在这一过程中,它并非简单地抓取孤立的实体数据,而是关注实体之间的内在联系与逻辑架构,并将所召回的实体信息进行结合,依据问题的特定需求与情境,进行深度的归纳与总结,从而为事实类问题提供准确、全面的解答内容,有效提升了信息检索与处理的质量和效率,以满足用户对于事实性信息获取的精确性要求。

值得注意的是,LightRAG具有4种检索模式可选,针对不同知识类型和应用场景,检索方式有较高灵活度,这4种模式主要特点如下:

(1)Naive 模式

Naive 模式其实就是普通的RAG,因有专门对标准RAG进行测试的章节,因此后续实验将不再对该模式进行测试。

(2)Local 模式

Local 模式其实就对应了原理中的低层次检索,侧重于局部的、特定区域内的信息检索。它会围绕问题所涉及的核心实体或关键概念,在其周边相对较近的节点和关系范围内进行搜索。适合处理那些需要深入了解某个具体事物局部细节、且该细节与周边有一定关联的问题场景,像查找某个项目里特定环节的具体执行情况,或者某类产品某个部件的详细特性等,强调对局部知识结构的有效挖掘,即更关注局部相关实体

(3)Global 模式

Global 模式则对应了原理中的高层次检索,着眼于更宏观、更广泛的信息检索。它会从整个知识图谱的层面出发,考虑问题涉及的概念在全局范围内的各种关联情况,试图汇聚众多相关实体和关系的信息,以提供一个全面且具有整体性的视角。对于处理抽象、宏观且需要全面综合知识的问题场景更加适用,像探讨某个行业的整体发展情况、某类复杂技术在不同领域的综合影响等,帮助获取到完整且宏观的认知,满足对复杂问题从全局角度进行分析的需求,即更关注全局视角的关系

(4)Hybrid 模式

Hybrid 模式融合了 Local 模式和 Global 模式的特点,同时包含了高低两个层级的检索,兼具局部聚焦和全局视野。在处理问题时,它既会深入到具体的、局部关键区域去挖掘详细且精准的信息,又会站在整个知识图谱的宏观层面整合各类相关资源和关联情况,即提供既完善又贴合实际复杂问题的检索结果

但该模式并不是万金油,局部和全局视角的混合检索有可能导致维度混乱,可能造成最终输出结果的检索准确度和全局理解均受影响。

在实验中,3种模式对相同问题的回答也确实存在差异:

(1)Local模式

获取专家评审结果的步骤
1.登录统一门户
首先,你需要登录到统一门户。这通常是一个企业内部的管理系统,用于管理和监控各种能力的上台申请
和评审过程。
2.进入运营工作台
登录后,导航到运营工作台。这个工作台是统一门户中的一个核心模块,用于处理各种运营相关的任务
和申请。
3.查找能力上下台申请
在运营工作台中,找到 “能力上下台申请” 选项。这个选项通常位于左侧的导航菜单中,或者可以通过
搜索功能快速定位。
4.进入上台申请管理
点击"能力上下台申请”后,你会看到一个列表,列出所有正在处理的上台申请。在这个列表中,找到你
感兴趣的上台申请,然后点击进入“上台申请管理”。
5.查看评审结果
在上台申请管理页面,你可以看到每个申请的详细信息,包括评审状态和评审结果。具体步骤如下:
查看评审状态:在列表中,找到你关心的上台申请,查看其当前的评审状态。如果评审已经完成,状态
会显示为“评审完成”或类似字样。
查看评审结果:点击申请行的右侧【查看】按钮、进入申请详情页面。在详情页面的底部,通常会有一
个操作日志区域,这里会记录所有的评审意见和结果。
6. 理解评审结果
评审结果通常会包括以下几个部分:
评审分数:评审专家会对申请上台的能力进行评分,评分标准包括技术先进性应用度、战略契合度等
方面。
评审意见:评审专家会提供详细的评审意见,指出能力的优点和需要改进的地方。
评审分区:根据评审结果,能力会被分为上台区、储备区或不建议上台三个类别。
7.处理评审结果
根据评审结果,你可能需要采取不同的行动:
上台区:如果能力被评为上台区,接下来将进行服务注册、能力发布等环节司时做好运营工作准备。
储备区:如果能力被评为储备区,后续将进行服务注册、能力发布等环节,但需要在储备区发布至少
3个月后,方能重新申请升区。
审核不通过:如果能力上台申请未通过,你需要根据评审意见进行修改,然后重新提交申请。
专家评审驳回:如果能力被专家评审驳回,你需要根据专家意见进行修改,然云再次提交审核。
总结
获取专家评审结果的步骤相对简单,主要通过统一门户的运营工作台进行。确保你登录正确的账户,
并按照上述步骤逐级导航,可以轻松找到并理解评审结果。如果你对评审结果有疑问,可以联系统一
运营方或相关评审专家进行进一步沟通。

(2)Global模式

 1.提交能力上台申请
能力提供者首先需要通过能力中台统一门户提交能力上台申请。
在提交申请时,需要填写并上传一系列评审材料,包括但不限于《能力中台能力台评审会议纪要》、
《能力中台能力上台评审介绍模板》、《能力中台能力上台单立审核证明》、
《能力中台能力上台安全自评估报告》等。
2.初步审核
省专中台运营团队负责对提交的申请材料进行初步审核,确保申请内容符合要求。
如果材料不完整或不符合要求,能力提供者需要根据反馈进行修改并重新提交。
3. 组织自评估评审会:
省专中台运营团队组织能力上台自评估评审会,邀请至少5名评审专家参与。
评审专家根据《能力中台能力上台准入评估表》的评分标准,对上台能力进行评。
评审会结束后,填写《能力上台自评估评审会议纪要》,记录评审结果和专家意见。
4.中台专家评审
统一运营方负责组织中台专家评审会,邀请中台评审专家对通过初步审核的能力进行进一步评审。
评审专家对能力的技术、应用等方面进行评估,并提出意见。
评审会结束后,填写《中台能力上台评审会议纪要》,记录评审结果和专家意见。
5.复核与确认
技术中台管理方复核通过中台专家评审的能力,确保其符合技术中台的标准和要求。
复核通过后,能力提供者可以进入下一阶段的上台流程。
6. 获取评审结果
能力提供者可以通过能力中台统一门户查看评审结果。
具体路径:登录能力中台统一门户->进入“我的申请“或“上台工单”-> 查看评审结果。
评审结果包括专家评分、评审意见和是否通过评审等信息。
7.后续处理
如果评审结果为通过,能力提供者可以继续进行服务注册、服务发布等后续步骤。
如果评审结果为不通过,能力提供者需要根据评审意见进行修改,并重新提交申请。
注意事项
材料准备:确保所有提交的材料齐全且符合要求,避免因材料问题导致评审延误。
沟通反馈:及时与省专中台运营团队和统一运营方沟通,获取反馈意见,确保评审顺利进行。
定期关注:定期登录能力中台统一门户,关注评审进度和结果,及时处理相关事务。通过以上步骤,
能力提供者可以顺利获取专家评审结果,并根据评审意见进行相应的调整和优化,确保能力顺利上台。

(3)Hybrid模式

1.提交上台申请
提交申请:能力提供者通过运营工作台进入【上台申请管理】列表页,提交上台申请单。
上传材料:在提交申请时,需上传相关的评审材料,如《能力中台能力上台单位审核证明》、
《能力中台能力上台评审介绍模板》、《能力中台能力上台安全自评估报告》等。
2.专家评审过程
评审安排:统一运营方创建线上评审会,根据能力申请所属中台与领域选取评审专家,每月25日前后
开展能力上台评审会。如有特殊情况,每月酌情考虑临时增加专家评审会。
评审形式:评审形式采用”云视讯”线上方式进行。
评审内容:评审专家会根据能力提供者填写的自评估报告进行评估,从填写完整度、安全满足程度综合
考虑进行评估,商定能力是否满足上台安全标准。
3.评审结果反馈
评审结果收集:统一运营方根据打分结果,在统一门户提交专家评审结果及评审意见。原则上,统一
运营方应在7个工作日内收集整理评审结果。
查看评审结果:
路径:能力提供者可通过首页->运营工作台->能力上下台申请->上台申请管理查看评审结果。
状态:
l 评审通过:能力进入上台区或储备区,后续将进行服务注册、能力发布等环节。
l 评审驳回:统一运营方根据专家意见进行驳回,能力提供者需根据修改意见修订后,再次提交审核。
l 评审不通过:能力上台申请未通过,需根据评审意见进行改进后重新申请。
4.评审结果处理
上台区:专家评审后进入上台区,后续将进行服务注册、能力发布等环节,同时做好运营工作准备。
储备区:专家评审后进入储备区,后续将进行服务注册、能力发布等环节,后续升区同能力上台申请
流程相同。
不建议上台:未达到60分的能力,不建议上台。
注意事项
材料准备:确保提交的评审材料完整、准确,特别是《能力中台能力上台单位审核证明》需加盖单位
公章。
及时沟通:在评审过程中,如有任何疑问或需要进一步说明,及时与统一运营方沟通。
定期关注:定期登录运营工作台,关注评审进度和结果,确保及时获取反馈并进行必要的调整。

通过以上步骤,能力提供者可以有效地获取专家评审结果,并根据评审意见进行相应的改进,确保能力 顺利上台。

可以看到,Local和Global模式的回答都较为详细,列举了获取专家评审结果的具体步骤,但能够看出二者存在差别,Local模式更加偏向实际的操作步骤,Global从宏观的角度提出了相关“注意事项”,Hybrid模式正如上文分析的那样,对于 “如何获取专家评审结果?” 这一具体事实性问题的回答结果反而更不理想,完整性方面稍弱。

在该测试案例中,LightRAG展现出了对于具体事实性问题回答较强的准确性和完整性

3.1.3 Nano-GraphRAG

Nano-GraphRAG对实体和关系同样会进行提取和建立知识图谱,建立的方式与GraphRAG差异不大,但它的增量插入特性使其在知识图谱更新时更加高效,能够避免重复计算和数据冗余,更适合处理动态变化的数据和实时更新的需求。以下是基于该技术构建的知识图谱:

图片.png

图3.1.4:Nano-GraphRAG构建的知识图谱

Nano-GraphRAG 作为 GraphRAG 的一种简洁且易于定制的实现,继承了 GraphRAG 结合知识图谱与大语言模型的核心思路,在应对事实性问题时,同样借助知识图谱的实体关系来检索信息。但区别在于,Nano-GraphRAG 采用独特的局部图谱构建策略,提升定位核心知识区域的速度,利用实体语义特征与关系权重筛选信息,其增量插入特性有效避免信息冗余,且具备灵活的检索方式选择,这些机制的改进是为了比 GraphRAG 更高效精准地生成简洁准确的答案,以满足用户对事实信息获取的更高要求。在实验中,我们以相同的数据集和提问内容对Nano-GraphRAG进行了测试,以下是测试结果:

1.评审过程概述
在中国移动能力中台的运营和管理中,专家评审是一个关键环节,确保申请上台的能力符合质量和安全
标准。评审过程包括中台专家评审和安全专家评审。
2.评审结果的反馈类型
评审结果通常有以下几种反馈类型:
上台区:专家评审后进入上台区,后续将进行服务注册、能力发布等环节,同时做好运营工作准备。
储备区:专家评审后进入储备区,后续将进行服务注册、能力发布等环节,但需要在储备区发布3个月后,
方能重新申请升区。
审核不通过:能力上台申请未通过。
专家评审驳回:统一运营方根据专家意见进行驳回,修改后统一运营方审核。
3.获取评审结果的步骤
登录统一门户
使用统一门户的账号登录系统。
进入首页,找到“运营工作台”模块。
3. 导航到上台申请管理
在“运营工作台”模块中,选择“能力上下台申请”。
点击“上台申请管理”,进入上台申请管理页面。
查看评审结果
在上台申请管理页面,可以看到所有已提交的上台申请。
选择具体的申请,点击详情按钮,查看评审结果和评审意见。

  1. 评审结果的查询时间 评审结果反馈时间:原则上,统一运营方应在7个工作日内收集整理评审结果,并在统一门户提交评审 意见。 特殊情况:如果有特殊情况,可能会延长评审结果的反馈时间。
  2. 评审结果的处理 上台区:如果能力进入上台区,接下来将进行服务注册、能力发布等环节,同时做好运营工作准备。 储备区:如果能力进入储备区,需要在储备区发布3个月后,方能重新申请升区。 审核不通过:如果能力上台申请未通过,可以根据评审意见进行修改后重新提交申请。 专家评审驳回:如果能力被专家评审驳回,需要根据专家意见进行修改,并重新提交统一运营方审核。

从输出结果看,内容是较为全面且准确的,既从宏观角度概述了评审过程、类型以及相关信息,又列出分点详细描述获取评审结果的具体步骤,较好地结合了局部信息和全局视角的数据关联。从准确性和完整性方面都展示了较强的表现

3.1.4 标准RAG

获取专家评审结果的流程如下:
首先,统一运营方负责收集和整理评审结果,通常情况下,这一过程应在7个工作日内完成。在此期间,
统一运营方会根据专家的意见整理出评审结果及评审意见,并将其提交至统一门户。
其次,能力提供者可以通过访问统一门户来查看评审结果。具体路径为:首页>运营工作台->能力上下台
申请->上台申请管理,在这个页面中,能力提供者可以找到自己的申请记录,并查看专家给出的评审
结果及意见。
评审结果的反馈类型主要包括四种:
1.上台区:如果能力通过了专家评审,将被分配至上台区,接下来将进行服务注册、能力发布等环节,
并做好运营准备工作。
  • 储备区:如果能力虽然通过了评审但评分较低,将被分配至储备区,后续将进行服务注册、能力 发布等环节,未来可以通过再次申请升区来争取上台机会。
  • 审核不通过:如果能力上台申请未通过,将不会进入后续的上台流程。
  • 专家评审驳回:如果统一运营方根据专家的意见认为需要进一步修改和完善,将驳回申请,能力 提供者需要根据反馈意见进行修改后再重新提交审核。 通过上述步骤,能力提供者可以及时了解自己提交的能力上台申请的评审结果及后续处理意见。
  • 相比之下,标准RAG回答较为基础,给出了专家评审流程的大体思路和系统操作路径,但没有详细列举具体的获取步骤以及解释在标准RAG中,倾向于利用“专家评审”、“评审结果”、“结果查询”等关键词来搜索相似的文本块。若存储的文本块未能同时涵盖这些关键词的近似表述,系统会返回仅与部分关键词相关的内容。这要求数据源在语义层面需与这些关键词组合保持高度的相似性和语义位置关系的一致性。

    在该案例中,对于关键信息的提取是准确的,但回答的完整性和丰富性相对较低

    3.1.5 小结

    GraphRAGLightRAGNano-GraphRAG标准RAG
    LocalGlobalHybrid
    准确性较强较强较强
    完整性一般较强较差较强较差

    (指标评价等级从高到底依次为:强、较强、一般、较差、差)

    综上,案例一主要针对事实性问题进行本文要讨论的三项基于图索引的RAG技术进行测试,并将标准RAG作为对照组,展示了上述三项技术在回答准确性完整性方面的性能表现出了优势,可能在知识问答、制度查询等领域较为适用

    3.2 测试案例二

    对于一些较为复杂的综合问题,往往涉及较为抽象的实体提取,这就要求系统具备精准解析和深度挖掘的能力,需要着力于准确识别出其中所蕴含的具象实体以及抽象概念。这一识别过程并非孤立进行,而是深入探究它们之间的内在逻辑联系,因为唯有精准把握这种联系,才能够从海量的知识图谱中精准定位并获取到用以回答问题所需的关键信息。

    下面我们基于先前构建的能力中台问答系统,对于较为复杂的综合性问题 “中台上有哪些角色?” 进行测试能力中台面向的人员主要包括能力提供者、中台运营者、中台管理者、能力使用者等相关角色,围绕业务中台能力、数据中台能力和技术中台能力,实现中台能力在生产运营全流程、全环节深度应用。以下是与提问内容相关的知识库原文节选:

    图片.png

    图片.png

    图片.png

    图3.2.1:相关知识库原文

    3.2.1 GraphRAG

    在GraphRAG中,数据被划分为能力上台、订购、运营等社区,每个社区从相关指引、流程、规范中提取实体、关系和属性,形成知识图谱。对于中台的关键用户角色,如能力提供者、运营者、使用方等,GraphRAG将它们及相关的平台、环节、人物等表示为相互关联的实体,并通过直接或间接方式建立联系,如下图所示:

    图片.png

    图3.2.2:GraphRAG以中台关键角色为核心构建的关系图

    GraphRAG利用知识图谱的结构化特点,形成高维度的语义关联关系,应对数据及数据间关系的问题。对于“中台包含哪些角色?”的查询,从能力上台、订购等多个社区中搜集角色或职责信息,形成较为全面的回答。

    以下是GraphRAG的回答:

    在中台体系中,存在多个关键角色,这些角色在能力管理和运营过程中发挥着重要作用。以下是几个主要
    角色的概述:
    中台运营者
    中台运营者是负责操作中台能力的管理实体,他们处理诸如查询能力订购服务列表等活动,并且是本手册
    所针对的人员之一
    能力提供者
    能力提供者是提交能力上台申请单的实体,他们需要通过上台申请管理来提交申请材料,并且这些材料
    需要经过预审和否决项审核。
    能力使用方
    能力使用方是订购能力的实体,他们通过门户检索需要的能力及服务,并提交订购申请单。订购申请成功
    后,他们需要与能力提供方协同,根据统一能力服务标准,制定协同计划,完成能力的开通及使用工作。
    中台专家
    中台专家是进行能力评审的专业人员,他们参与中台专家评审会,对能力进行评估,确保其符合中台的
    规划、安全和服务要求。
    能力专员
    能力专员负责评估技术中台的子订单,如果子订单未同步,他们也会展示相关信息。技术中台的子订单
    需要能力专员进行评估,以确保其符合技术中台的管理标准,
    这些角色共同构成了中台的运营生态,确保了技术、数据和业务能力的有效管理和应用。

    可以看到GraphRAG在描述中台各个核心角色方面较为准确和全面,通过图谱化的表示方法,有效地连接和聚合中台运营者、能力提供者、能力使用者、中台专家及能力专员等核心角色,答案能更完整的表现中台运营生态。此外,在处理复杂查询时,能够通过图谱中的关系网络,追踪和定位最佳检索结果,即使这些角色和职责在不同的节点中表达。

    3.2.2 LightRAG

    上节提到,LightRAG运用了双层检索范式,对于抽象类问题则适用与高层检索阶段。它会快速精准地剖析查询请求,从中抽取出所涉及的抽象概念。随后,将这些已识别的抽象概念与预先构建的关系网络中的抽象检索键进行细致匹配。在知识图谱的构建过程中,抽象检索键是对各类抽象概念在语义和逻辑层面的一种映射与归纳,类似索引标签,帮助定位相关信息。通过这种匹配过程,LightRAG 能够沿着相关的关系路径,逐步深入到知识图谱的各个层面,整合分散但相关的信息片段,最终形成完整、准确且富有深度的回答内容,从而有效地满足用户对于抽象类问题的信息需求。

    图片.png

    图3.2.3:LightRAG以中台关键角色为核心构建的关系图

    类似地,为了与GraphRAG形成较为准确的对照组,LightRAG也用同样的知识库和提问内容测试回答效果,并依然采用3种模式输出内容并比较。

    (1)Local模式

    1.能力提供者
    描述:能力提供者是指向中国移动能力中台提交能力上台申请并提供相应服务能力的个人或组织。
    他们负责填写申请单并上传相关材料、确保服务的注册、结算和发布等流程顺利进行。
    职责:
    l 填写并提交上台申请单。
    l 提交服务注册申请和发布申请。
    l 完成数据采集和定期提供运营数据。
    l 参加能力上台自评估评审会,展示其能力并接受评审专家的评估。
    2.一级能运测试人员
    描述: 一级能运测试人员负责审核服务发布申请,确保服务的功能和性能满足要求。
    职责:
    审核服务发布申请。
    确保服务的功能和性能符合标准。
    3.一级能运运营人员
    描述:一级能运运营人员负责审核服务注册申请和发布申请,确保服务的合规性和功能性,
    职责:
    l 审核服务注册申请。
    l 管理服务的注册和发布状态。
    4.统一运营方
    描述:统一运营方与能力提供者保持沟通,指导其完成申请流程,并通知其参加评审会议。
    他们还负责组织和协调能力上台的评审工作。
    职责:
    l 指导能力提供者完成申请流程。
    l 组织和协调能力上台的评审工作。
    l 创建线上评审会,邀请评审专家。
    5.能力中台运营中心
    描述:能力中台运营中心是负责能力中台运营工作的核心部门,主要职责包括数据接入、数据质量保证等。
    职责:
    l 管理生产环境,供能力提供者正式上线应用和服务。
    6.能力运营主责部门
    描述:能力运营主责部门是各个单位内部负责能力中台运营工作的部门,主要职责包括数据接入、
    数据质量保证等。
    职责:
    l 执行数据采集任务,确保数据的质量和及时性。
    l 解决数据质量、数据口径相关问题。
    l 提出接口优化建议,持续提升接口数据的有效性。
    7.服务与支持接口人
    描述: 服务与支持接口人是负责客户服务和支持的联系人,必须为中国移动内部人员。
    职责:
    l 通过多种渠道解决用户在使用能力中台过程中遇到的问题和建议。
    l 提供必要的帮助和支持。
    
  • 团队核心成员 描述:团队核心成员是指能力团队中的关键人物,包括项目总监、产品经理、开发经理和测试经理等职位。 职责: l 负责项目的管理和实施。 l 确保产品的设计和开发符合要求。 l 进行测试和质量保证。 9.运维专员 描述: 运维专员负责能力的运维工作,确保其稳定运行。 职责: l 确保能力的稳定运行。 l 处理运维过程中出现的问题。
  • 能力专员 描述:能力专员的具体职责包括服务管理和技术支持。 职责: l 管理服务的注册、变更和发布。 l 提供技术支持和问题解决。
  • (2)Global 模式

    1.能力提供者
    定义:能力提供者是指向中国移动能力中台提交能力上台申请并提供相应服务能力的个人或组织。
    职责:
    l 填写并提交上台申请单,上传相关材料。
    l 进行能力的自评估,确保能力符合上台标准。
    l 在联调环境和生产环境中完成服务对接和服务发布。
    l 按照数据接口规范提供运营数据。
    l 签署并遵守《中国移动能力中台能力提供者入驻协议》。
    2.中台评审专家
    定义:中台评审专家是从专家库中选取的专业人士,负责对申请上台的能力进行技术、应用等方面的
    评估。职责:
    l 参与中台专家评审会,对申请上台的能力进行评估。
    l 提出评估意见和改进建议。
    
  • 统-运营方 定义:统一运营方是负责修订和更新能力中台相关文档的关键人物,确保文档的准确性和时效性。 职责: l 对能力上台申请单的材料进行预审,检查填写规范性和材料的完整性。 l 组织和管理评审会议,收集评审结果并提交评审意见。 l 管理能力上台申请,确保申请流程的顺利进行。 l 负责能力申请的初审、复审、组织评审会议以及评审结果的提交和反馈。
  • 中台运营者 定义:中台运营者负责对能力提供者的上台申请进行预审和复审,并组织上台评审。 职责: l 管理能力上台流程中的关键环节,如预审、复审和组织评审。 l 负责服务注册与验收的管理和执行。 l 负责能力发布的管理和执行。
  • 中台管理者 定义:中台管理者负责监督和管理中国移动能力中台的整体运营,确保其高效运行。 职责: l 监督整个能力上台流程,确保其符合规范和标准。 l 确保中台的稳定运行和服务质量。 6.省专中台运营团队 定义:省专中台运营团队负责对能力上台申请单的内容进行初步审核,确保申请内容符合要求。 职责: l 组织能力上台自评估评审会,确保能力提供者提交的材料符合要求。 l 指导能力提供者准备和提交评审材料。 7.中台能力运营中心运营负责人 定义:中台能力运营中心运营负责人负责报备网络策略申请给集团网络部相关负责人。 职责: l 审批和开通网络策略,确保网络环境的畅通。 8.一级能运运营人员 定义:一级能运运营人员负责审核服务注册申请和服务发布申请,确保服务的合规性和功能性。 职责: l 通过能力中台门户进行服务的审核和管理。 l 确保服务注册和发布的合规性和功能性。 9.运营专席 定义:运营专席是负责处理用户咨询和问题的综合性角色,能够直接解答问题或将其转至更专业的服务 团队。 职责: l 处理用户的咨询和问题,提供初步的服务支持。 l 将复杂问题转派给集省专服务与支持人员。
  • 集省专服务与支持人员 定义:集省专服务与支持人员是专门处理复杂问题的专业团队,他们可以进一步分析问题并将解决方案 反馈给用户或转派给其他团队。 职责: l 处理复杂问题,提供专业的解决方案。 l 确保服务质量,提升用户体验。 总结 中台的角色涵盖了从能力提供者到中台管理者等多个层次,每个角色都有明确的职责和任务,共同确保 中台的效运作和能力的顺利上台。通过这些角色的协同合作,中台能够更好地服务于企业和用户, 提升整体的运营效率和质量。
  • (3)Hybrid模式

    1. 能力提供者
    职责:负责提供特定服务的主要机构或个人。能力提供者需要向中国移动能力中台提交能力上台申请,
    并提供相应的服务能力。他们还需要填写申请单并上传关材料,完成自评估,并在生产环境完成服务
    对接和服务发布等步骤。
    描述:能力提供者是向中国移动能力中台提交能力上台申请并提供相应服多能力的个人或组织。
    
  • 中台运营者 职责:负责对能力提供者的上台申请进行预审和复审,并组织上台评审。中台运营者还负责能力发布的 管理和执行。 描述:中台运营者负责对能力提供者的上台申请进行预审和复审,并组织上台评审,确保评审过程顺利 进行,并收集评审结果。
  • 统一运营方 职责:负责修订和更新能力中台相关文档,确保文档的准确性和时效性。统一运营方还负责能力上台申请 与评审、能力评审、数据采集、结算申请等环节的管理和执行。 描述:统一运营方是负责修订和更新能力中台相关文档的关键人物,确保文档的准确性和时效性。 统一运营方还负责对能力上台申请单的材料进行预审,检查写规范性和材料的完整性。
  • 中台评审专家 职责:从专家库中选取的专业人士,负责对申请上台的能力进行技术、应用等方面的评估。评审专家会 根据《能力中台能力上台准入评估表》对能力上台准入要求中的主观指标进行打分。 描述:中台评审专家是从专家库中选取的专业人士,负责对申请上台的能进行技术、应用等方面的评估。
  • 一级能运运营人员 职责:负责审核服务发布申请,确保服务的功能和性能满足要求。一级能运运营人员还通过能力中台门户 进行服务的审核和管理。 描述:一级能运测试人员负责审核服务发布申请,确保服务的合规性和功能性。
  • 一级能运测试人员 职责:负责审核服务发布申请,确保服务的功能和性能满足要求。一级能运测试人员还通过能力中台门户 进行服务的测试和审核。 描述:一级能运测试人员负责审核服务发布申请,确保服务的功能和性能满足要求。
  • 中台能力运营中心运营负责人 职责:负责报备网络策略申请给集团网络部相关负责人,由后者审批和开通策略。中台能力运营中心运营 负责人还负责管理和支持各级能力提供者的平台,包括联调环境和生产环境的应用创建与管理。 描述:中台能力运营中心运营负责人负责报备网络策略申请给集团网络部关负责人,由后者审批和开通 策略。 8.运维专员 职责:负责能力的运维工作,确保其稳定运行。运维专员需要结合能力特和具体性能需求,为选择恰当的 性能指标、压测方式、压测场景开展性能测试。 描述:运维专员负责能力的运维工作,确保其稳定运行。
  • 服务与支持接口人 职责:负责客户服务和支持的联系人,必须为中国移动内部人员。服务与支持接口人通过其邮箱和手机号 进行沟通和服务支持。 描述:服务与支持接口人是负责客户服务和支持的联系人,必须为中国移动内部人员。
  • 用户 职责:使用中国移动能力中台服务的人群,他们可以通过多种渠道发起咨询建议、投诉、故障报告等。 用户通过服务与支持处理流程发起咨询,问题经过多环节最终得到解决。 描述:用户是指使用中国移动能力中台服务的人群,他们可以通过多种渠道发起咨询、建议、投诉、 故障报告等。
  • 可以看到,Local模式由于侧重于局部的、特定区域内的信息检索,关注重点实体和概念,因此对于问题 “中台包含哪些角色?” 的理解并不十分准确,出现了 “能力运营主责部门” 等非角色信息的名称。Global模式由于对知识图谱信息的理解更宏观、更广泛,因此对抽象信息理解及对对应实体的抽取更加准确。Hybrid模式则达到了理论预期,既保持了对宏观关联的理解,又对局部关键名词的提取更加合理,因此相比之下取得了最好的效果。

    在该案例中,LightRAG特别是Hybrid模式表现出了对抽象信息理解和提取的优异表现,同样在准确性完整性评估中较好成绩。

    3.2.3 Nano-GraphRAG

    对于抽象类问题,以下是建立后的知识图谱在中台角色部分中的可视化内容:

    图片.png

    图3.2.4:Nano-GraphRAG以中台关键角色为核心构建的关系图

    在实验中,相同抽象类问题的测试结果如下:

    中台包含的角色
    中台作为一个综合性的平台,涉及多个角色,每个角色都有其特定的职责和功能。以下是中台中包含的
    主要角色及其描述:
    1.中台管理者
    职责:中台管理者负责监督和管理中台的整体运营活动,确保运营体系的有效运作。
    重要性:他们是中台运营的核心,确保各项业务流程的顺畅和高效。
    2.中台运营者
    职责:中台运营者负责对能力提供者的上台电请进行预审和复审,并组织上台评审、确保新能力或服务的
    质量和合规性。
    重要性:他们是能力上台过程中的关键角色,确保新能力能够顺利上线并被用户使用。
    
  • 能力提供者 职责:能力提供者是在中台能力运营中心注册并提供服务的机构。他们负责提交上台电请、创建应用、 注册服务,并进行验收测试。 重要性:他们是中台能力的来源,提供各种服务和功能,满足用户的需求。 4.用户 职责:用户是指使用中国移动能力中台服务的个人或组织。他们可以通过多种渠道提出问题并获得帮助。 重要性:他们是中台服务的最终受益者,通过使用中台提供的服务,提升自身的业务效率和用户体验。 5.服务机构 职责:服务机构是指在中台能力运营中心注册并提供服务的机构。他们负责创建应用,注册服务,并进行 网络策略开通、证书准备等工作。 重要性:他们是中台服务的实际提供者,确保服务的稳定性和可靠性。 6.统一运营方 职责:统一运营方与中台运营者合作,共同完成能力上台的预审、复审和评审工作。 重要性:他们是中台运营的重要支持力量,确保各项评审工作的顺利进行。 7.集省专服务与支持人员 职责:集省专服务与支持人员与用户沟通,处理用户提出的复杂或专业性问题,确保问题得到有效解决。 重要性:他们是用户支持的重要组成部分,确保用户的问题能够得到及时和专业的解答。 8.运营专席 职责:运营专席直接与用户互动,解答用户的简单问题或转交复杂问题给集省专服务与支持人员。 重要性:他们是用户与中台之间的第一接触点,确保用户的问题能够快速得到响应。
  • 赵* 职责: 是接收策略申请单的个人,邮箱为’zhao**@chinamobile.com`。他负责处理能力提供者提交的 网络策略申请单。 重要性:他是网络策略申请的关键联系人,确保网络策略的顺利开通。 总结 中台的角色多样且分工明确,每个角色都在中台的运营中发挥着重要作用。从管理者到运营者,再到能力 提供者和用户,每一个环节都紧密相连。
  • 可以看到,对中台角色的提取相对比较准确,但出现了一个较为致命的错误,即第九条出现了具体人名(为保护隐私,文章中进行了隐藏处理),并将其个人邮箱作为职责内容输出,在知识库的源文件《能力使用指南-能力中台能力订购指引手册V1.5》中相关描述是这样的:

    能力提供者线下提交《策略申请单》,邮件发送赵*<zhao**@chinamoblie.com>;抄送中台能力运营中心<***@chinamoblie.com>申请开通联调环境、生产环境网络策略。API类服务的服务机构首次接入或接入后网络有调整,需按照下述说明填写网络申请,由一级能力运营中心运营负责人报备给集团网络部相关负责人审批、开通。 如果服务机构侧也需开通网络,参照申请单附录提供的网关地址开通网络即可。

    很明显,这一信息描述的是申请单的具体提交对象,其姓名并不能作为一个抽象的中台角色,同时,对其个人邮箱的输出也有暴露用户数据的潜在风险

    在该案例中,Nano-GraphRAG回答的完整性满足要求且与其他两种方法类似,但由于出现了具体人名且不属于中台角色范畴的回答内容,较大影响了其准确性指标。

    3.2.4 标准RAG

    标准RAG的测试结果如下:

    中台体系涉及的角色较为广泛,主要可以归纳为以下几类:
    
  • 能力提供者:这些角色负责设计、开发、测试和部署中台上的各种能力和服务。他们通常来自技术 团队,专注于将企业的核心技术和业务逻辑转化为可复用的服务组件。
  • 能力使用者:他们是中台能力的主要消费者,包括前端开发人员、产品经理、业务分析师等。这些角色 通过调用中台提供的服务来构建和优化应用程序,提高开发效率和产品质量。能力使用者需要了解中台 提供的各项能力。
  • 中台运营人员:这一角色负责中台的整体运营和管理,包括能力的审核上线、监控和维护。中台运营 人员需要确保中台的稳定运行,处理用户的咨询和反馈协调各个能力提供者和使用者之间的沟通。
  • 中台治理人员:这一角色主要负责中台的治理工作,包括制定和维护中台的技术规范、服务标准和 管理流程。中台治理人员需要确保中台的各项活动符合企业的战略目标和合规要求,促进中台能力的 标准化和规范化。
  • 服务与支持人员:这些角色负责处理用户在使用中台过程中遇到的各种问题,包括技术支持、故障 排除、用户培训等。服务与支持人员需要具备良好的沟通能力和技术素养,能够快速响应用户的需求, 提供有效的解决方案。
  • 架构师:负责中台的整体架构设计,包括技术架构、数据架构和业务架构。他们需要确保中台的架构 设计能够满足当前和未来的业务需求,具备良好的扩展性和灵活性。
  • 项目经理:项目经理负责中台项目的整体规划和执行,包括项目进度管理资源协调、风险管理等。 他们需要确保项目按时交付,满足质量和成本要求。 这些角色共同协作,确保中台能够高效、稳定地运行,为企业提供强大的技术支持业务赋能。每个角色 都有其独特的职责和任务,通过密切合作,共同推动中台的发展和优化。
  • 标准RAG的回答最为简洁,清晰且准确地列举了中台体系涉及的主要角色,并附以简要的角色介绍,准确性指标较强,但由于其主要依赖于文本块的相似匹配,在面对不完全匹配或跨文本块的查询时无法返回最相关的结果,因此对角色理解和提取的完整性稍显不足。

    3.2.5 小结

    GraphRAGLightRAGNano-GraphRAG标准RAG
    LocalGlobalHybrid
    准确性较强较强一般较强
    完整性一般较强较差

    (指标评价等级从高到底依次为:强、较强、一般、较差、差)

    综上,案例二主要从较为复杂的抽象类问题方面考察上述4项RAG技术对于问题理解、信息整合等能力。其中,GraphRAG、Nano-GraphRAG以及标准RAG对于数据库中特定角色的理解和提取表现出了较强的准确性,但完整性稍显欠缺,没有把相关角色列举完整;LightRAG表现最佳,兼顾了准确性和完整性。基于该案例的表现,LightRAG可能更适合用于信息整合、总结归纳等场景的应用

    3.3 测试案例三

    对于数值类数据,准确性永远排在第一位。我们期望基于大模型进行特定条件下的数据查询和统计。在面对此类问题时,RAG 系统需要深入这些数据存储区域,精准筛选出相关数据条目,并对其进行有效的汇总与统计计算。这要求大模型能够准确识别对应的数据标签及字段,提升大模型克服数据格式多样性以及数据量庞大所带来的挑战是一种方法,但同时成本也较高。另一种方法是通过RAG对数据进行整理,为大模型的数据查询提供便利。

    本节就以查询 以季度为单位,三季度能力调用量环比增加多少? 为目标,检验 RAG 在处理统计类问题时的数据提取与统计分析能力是否精准可靠,能否满足在业务数据分析与决策支持方面的需求。同时,基于知识库的特点,查询目标包括年调用量和月调用量等相似关键词,为RAG正确检索增加难度,同时考察本文所述RAG方法的鲁棒性。以下是与提问内容相关的知识库原文节选(具体数据做了模糊化处理):

    图片.png

    图片.png

    图3.3.1:相关知识库原文

    3.3.1 GraphRAG

    GraphRAG的知识图谱可视化如下:

    图片.png

    图3.3.2:GraphRAG以中台能力调用量为核心构建的关系图

    以下是GraphRAG的回答:

    为了计算三季度能力调用量的环比增加数量,我们需要将7月、8月和9月的能力月调用量总和减去4月、
    5月和6月的总和。根据提供的数据,我们可以找到每个月的能力月调用量数据并进行计算。
    
    

    首先,计算三季度(7月、8月和9月)的能力月调用量总和: l 7月能力月调用量:**84.91亿次 l 8月能力月调用量:**82.46亿次 l 9月能力月调用量:**07.05亿次 季度的能力月调用量总和为:**84.91+**82.46+**07.05=**74.42 亿次。

    接下来,计算二季度(4月、5月和6月)的能力月调用量总和: l 4月能力月调用量:**02.43亿次 l 5月能力月调用量:**98.86亿次 l 6月能力月调用量:**06.26亿次 二季度的能力月调用量总和为:**02.43+**98.86+**06.26=**07.55 亿次。

    最后,计算环比增加的数量: **74.42-**07.55=**66.87 亿次。

    因此,三季度能力调用量环比增加了约**66.87亿次。

    从以上结果来看,GraphRAG尝试定位能力调用量数据。GraphRAG因图结构数据表示优势,检索到更全面的素材,但存在事实性错误(6月月调用量数据是伪造的),产生幻觉导致答案不准确,对于数据提取和分析的准确性不足

    3.3.2 LightRAG

    为了测试数值类数据在LightRAG中的表现,本节聚焦在中台能力使用数据的知识图谱,通过具有一定逻辑难度的意图理解、数值提取和统计计算,验证知识图谱链接的准确性和知识运用的精确性。以下是该部分的知识图谱可视化:

    图片.png

    图3.3.3:LightRAG以中台能力调用量为核心构建的关系图

    类似地,该案例也通过LightRAG的三种模式进行了测试,以下分别是测试结果:

    (1)Local模式
    二季度(4月、5月、6月)调用量
    4月:**99.58亿次
    5月:**98.45亿次
    6月:**96.73亿次
    二季度总调用量:
    [**99.58+**98.45+**96.73=7494.76\text{亿次}]
    三季度(7月、8月、9月)调用量
    7月:**81.65亿次
    8月:**64.11亿次
    9月:**71.16亿次
    三季度总调用量:
    [**81.65 +**64.11 +**71.16=**316.92\text{亿次}]
    环比增加量
    三季度调用量减去二季度调用量:
    [**316.92-**94.76=**22.16\text{亿次}]
    环比增长率
    环比增长率计算公式为:
    [\text{环比增长率}=\left(\frac{\text{三季度调用量}-\text{二季度调用量}}{\text
    {二季度调用量}}\right)\times 100% ]
    代入数值:
    [\text{环比增长率}=|left(|frac{**316.92-**94.76}{94.76}\right)\times 100%]
    [\text{环比增长率}=\left(\fracf22.16}{94.76}\right)\times 100%][\text
    {环比增长率}\approx 64.34%]
    结论
    2024年三季度的能力调用量环比增加了22.16亿次,环比增长率为64.34%,这表明在三季度,
    能力调用量有显著的增长,反映了系统和服务的使用频率和需求的提升。

    (2)Global 模式

    三季度能力调用量环比增加情况
    2024年三季度(7月、8月、9月)
    7月:
    年调用量(亿次):**81.65
    月调用量(亿次):*84.91
    业务中台月调用量(亿次):*7.44
    8月:
    年调用量(亿次):**64.11
    月调用量(亿次):*82.46
    业务中台月调用量(亿次):*2.03
    9月:
    年调用量(亿次):*571.16
    月调用量(亿次):*07.05
    业务中台月调用量(亿次):*3.81

    二季度(4月、5月、6月) 4月: 年调用量(亿次):**99.58 月调用量(亿次):*02.43 业务中台月调用量(亿次):*18.45 5月: 年调用量(亿次):**98.45 月调用量(亿次)):*98.86 业务中台月调用量(亿次):*06.26 6月: 年调用量(亿次):**96.73 月调用量(亿次):*98.28 业务中台月调用量(亿次):**5.09

    计算三季度环比增加量 年调用量: 二季度总年调用量:**99.58+**98.45 +**96.73= **94.76 亿次 三季度总年调用量:**81.65 +**64.11+**71.16= **316.92 亿次 环比增加量:**316.92-**94.76=**22.16 亿次 月调用量: 二季度总月调用量:*02.43+*98.86+*98.28= **99.57 亿次 三季度总月调用量:*84.91+82.46+07.05= **74.42 亿次 环比增加量:**74.42-99.57=-*25.15 亿次 业务中台月调用量: 二季度总业务中台月调用量:*18.45+*06.26+*05.09=*29.80 亿次 三季度总业务中台月调用量:*7.44+*2.03+*3.81=*33.28 亿次 环比增加量:*33.28-*29.80=-*6.52 亿次 总结 年调用量:三季度环比增加了22.16亿次 月调用量:三季度环比减少了25.15亿次 业务中台月调用量:三季度环比减少了6.52亿次 总体来看,尽管年调用量有显著增加,但月调用量和业务中台月调用量在三季度有所下降。 这可能反映出不同的业务周期和市场需求的变化。

    (3)Hybrid模式

    根据提供的数据,我们可以看到2024年4月至6月(即二季度)和2024年7月至9月(即三季度)的能力
    调用量情况。为了计算三季度能力调用量环比增加的情况
    二季度调用量
    2024年4月:*02.43亿次
    2024年5月:*76.52亿次
    2024年6月:*98.28亿次
    季度总调用量=*02.43 +*76.52+*98.28 = **77.23亿次
    三季度调用量
    2024年7月:*19.92亿次
    2024年8月:*20.70亿次
    2024年9月:*18.45亿次
    季度总调用量 = *19.92 +*20.70 +*18.45 = *59.07亿次
    环比增加计算
    环比增加 =三季度总调用量 -二季度总调用量
    环比增加=*59.07-77.23=-18.16亿次
    结论
    季度的能力调用量相比二季度减少了18.16亿次。这表明在三季度,调用量有明显的下降趋势。
    这种下降可能受到多种因素的影响,如市场需求变化、技术。
    可能的原因分析
    1.市场需求变化:三季度可能是某些行业的淡季,导致对技术和服务的需求减少。
    2. 技术更新:新的技术或服务上线可能导致用户需要时间适应,从而短期内调用量下降。
    3. 季节性波动:某些行业在特定季节会有明显的需求变化,这可能影响到整体调用量。
    4. 市场竞争:竞争加剧可能导致部分用户转向其他平台或服务。
    综上所述,三季度能力调用量环比减少18.16亿次,需要进一步分析具体原因以制定相应的策略

    由于原始知识库中只有每个月对应的数据,且有较强的噪声信息(能力调用量包括月调用量和年调用量,以及相关性不强的业务中台月调用量),因此需要正确提取二、三季度对应所有月份的月能力调用量,并分别对每个季度的数据求和,然后再求增长率。有趣的是,不同模式下的问答表现与前两个案例有较大不同。而在Local模式下,错误地提取了年调用量进行计算;在Global模式下,从全局角度分别统计了月调用量、年调用量,以及并不直接相关的业务中台月调用量,并均按照题目对应的计算方法得到了三种数据的结果,输出结果最为全面,但同时包含了一些无用回答信息,一定程度降低了结果的纯净度;Hybrid看似以正确的逻辑进行了计算,但提取的数据都是虚构的,也就是产生了幻觉问题

    在该案例中,LightRAG只有Global模式正确提取了对应数据并准确计算,其他模式均不同程度出现了数据错误识别、数据编造等问题,无法满足数据统计准确性要求。

    3.3.3 Nano-GraphRAG

    对于数值类数据的统计和管理,Nano-GraphRAG的知识图谱有如下构建:

    图片.png

    图3.3.4:Nano-GraphRAG以中台能力调用量为核心构建的关系图

    三季度能力调用量环比增加情况
    根据提供的数据,我们可以计算2024年三季度(7月、8月、9月)的能力调用量,并与二季度(4月、
    5月、6月)进行环比比较。
    二季度调用量
    4月:**99.58亿次
    5月:**98.45亿次
    6月:**96.73亿次
    二季度总调用量:
    [ **99.58+**98.45+**96.73=**94.76\text{亿次}]
    三季度调用量
    7月:**81.65亿次
    8月:**64.11亿次
    9月:**71.16亿次
    三季度总调用量:
    [**81.65+**64.11+**71.16=**316.92\text{亿次}]
    环比增加量
    环比增加量计算公式为:
    [\text{环比增加量} =\frac{\text{三季度总调用量} -\text{二季度总调用量}}{\text
    {二季度总调用量}}\times 100%
    代入数据:
    [\text{环比增加量}=\frac{**316.92-**94.76}{**94.76}\times 100%][\text
    {环比增加量}=\frac{**22.16}{**94.76}\times 100%]
    [\text{环比增加量}\approx 4.34%]
    结论
    2024年三季度的能力调用量环比增加了约4.34%。这一显著的增长反映了业务中台和能力使用方的
    活跃度和需求在三季度有了明显的提升。

    很明显,Nano-GraphRAG错误地提取了年调用量作为计算变量,无法满足问题要求。

    3.3.4 标准RAG

    标准RAG的测试结果如下:

    二季度(4月、5月、6月)调用量
    4月:
    月调用量(亿次):*02.43
    5月:
    月调用量(亿次):*98.86
    6月:
    月调用量(亿次):*98.28-季度总调用量:
    [*02.43 +*98.86+*98.28=**99.57 \text{ 亿次}]

    三季度(7月、8月、9月)调用量 7月: 月调用量(亿次):*84.91 8月: 月调用量(亿次):*82.46 9月: 月调用量(亿次):*07.05 三季度总调用量: [*84.91+*82.46+*07.05=**74.42\text{ 亿次}]

    环比增长率计算 环比增长率公式为: [\text{环比增长率}=\frac{\text{三季度总调用量} -\text{二季度总调用量}}{\text {二季度总调用量}}\times 100%] 代入数值: [text{环比增长率}=\frac{**74.42-**99.57}{**99.57}\times 100%] [\text{环比增长率}=\frac{-*25.15}{**99.57}\times 100%] [\text{环比增长率}\approx-9.13%
    因此,三季度的能力调用量环比减少了约
    9.13%.

    标准RAG能够清晰地理解问题的计算方法,准确提取数据,简洁地给出计算过程和结果,最终得到正确答案。

    3.3.5 小结

    GraphRAGLightRAGNano-GraphRAG标准RAG
    LocalGlobalHybrid
    准确性较强较强较强
    鲁棒性一般

    (指标评价等级从高到底依次为:强、较强、一般、较差、差)

    综上,案例三主要通过数值类问题对上述几种RAG方法进行测试,并通过数据中相似的关键词制造检索难度,重点考察上述方法在准确性和鲁棒性方面的表现。通过实验分析,标准RAG对计算过程的理解、数据实体的抽取、计算结果的正确性均满足要求,相反,本文重点关注的基于图索引的三种RAG方法整体逊色于标准RAG,仅LightRAG的Global模式从全局层面出发,输出结果包含了正确的内容和结果,与其他两种基于知识图谱的RAG相比表现了最好的准确性鲁棒性在数值提取和计算的场景下,本文讨论的三种基于图结构的RAG并没有取得比标准RAG更强的表现。图结构的实体关联一定程度增加了抽取数据的复杂度,另一方面,大模型对于知识图谱中实体和关系抽取的准确性也是较大的影响因素。

    3.4 测试案例四

    本节案例针对上下文相关性以及知识多跳推理特性进行考察,基于知识库《能力使用指南-能力中台能力订购指引手册V1.5》的内容,有较长篇幅对能力评审相关流程进行描述,可能存在相关性缺失和遗忘的风险。本案例旨在通过在能力评审环节中,能力初审、复审和上台评审之间的关系是怎样的? 的提问,考察RAG对长文本的多跳信息抽取和上下文相关性理解能力。以下是与提问内容相关的知识库原文节选:

    图片.png

    图片.png

    图3.4.1:相关知识库原文

    3.4.1 GraphRAG

    GraphRAG的知识图谱可视化如下:

    图片.png

    图3.4.2:GraphRAG以中台能力上台审核全流程构建的关系图

    以下是GraphRAG的回答:

    在能力评审环节中,能力初审、复审和上台评审之间的关系是相互关联且具有一定的流程性和层次性。
    首先,能力初审是指在评估前,相关人员对技术中台和数据中台的子订单进行审核。这初审阶段主要
    集中在确认订购申请内 容的完整性和准确性上。审核通过后,子订单会流转至能力专员处进行评估。
    技术中台领域运营者和数据中台需求管理员在这一阶段扮演着审核者的角色确保订单的准确性和完整性。

    接着是能力复审阶段,即在初审通过后,能力专员对子订单进行评估。在这一阶段,能力专员会对订单 进行更深入的评估,确保订单的可行性和符合要求。如果需要,能力专员还可以将待评估的子订单转派 给其他人员进行评估。这一阶段的目的是确保订单的质量和准确性,为后续的上台评审做好准备。

    最后是上台评审阶段,即在复审通过后,子订单流转至能力专员处进行最终评估。在这一阶段能力专员 会对订单进行最终的评估和审核,确保订单符合要求并可以顺利上台。数据中台平台部运营人员也会 参与对数据中台平台部 子订单的评估和反馈。这一阶段的目的是最终确认订单的可行性和准备订单 上台的工作。 因此,能力初审、复审和上台评审之间形成了一个连续的评审流程,每个阶段都有其特定的审核和评估 要求,以确保订单的质量和准确性。这些阶段的协同合作和流程规范对于保障能力订购流程的顺利进行 至关重要。

    GraphRAG利用图结构的数据表示方式,准确捕捉“能力评审各环节”的多跳关系,有效完成了检索任务。其检索出的内容上下文关系较为紧密,确保了知识增强过程的完整性与深度,具有较出色的多跳推理表现和上下文关联能力。然而,输出结果中偶现与问题无关的“数据中台平台部”信息,存在轻微幻觉问题。

    3.4.2 LightRAG

    为了测试LightRAG对于上下文相关性的表现,本节仍然聚焦在中台能力使用数据的知识图谱,通过能力评审各环节的抽取和关联,验证知识图谱链接的准确性,继而体现上下文的相关性。以下是该部分的知识图谱可视化:

    图片.png

    图3.4.3:LightRAG以中台能力上台审核全流程构建的关系图

    以下,分别验证LightRAG在三种模式下的表现:

    (1)Local模式

    1.能力初审
    定义与流程:
    能力初审是能力上台流程中的第一个评审环节,主要目的是对能力的基本信息、材料完整性和初步的
    技术可行性进行审核。
    初审由中台运营者负责,确保申请材料的规范性和完整性,以及能力是否符合基本的上台要求。
    作用:
    筛选不合格申请: 初审能够快速排除不符合基本要求的能力申请,减少后续评审的工作量。
    初步验证:对申请材料的初步验证,确保后续评审的顺利进行。
    2.能力复审
    定义与流程:
    能力复审是在初审通过后进行的第二个评审环节,主要目的是对能力的技术先进性、应用度、战略
    契合度等方面进行更深入的评估,复审由中台运营者和领域运营方共同参与,根据《能力中台能力上台
    准入评估表》中的评分标准进行打分。
    作用:
    深度评估:对能力的技术和应用特性进行深度评估,确保其具有较高的技术水平和实际应用价值。
    评分打分:根据评分标准对能力进行打分,评分结果将决定能力是否进入上台评审环节。
    3. 上台评审
    定义与流程:
    上台评审是在初审和复审通过后的第三个评审环节,主要目的是对能力进行全面的专家评审,确保其
    符合上台的所有要求。
    上台评审包括中台专家评审和安全专家评审,两者并行开展。
    中台专家评审:由统一运营方组织,评审专家对能力的技术和应用特性进行评估。
    安全专家评审:由统一运营方组织,评审专家对能力的安全性进行评估。
    作用:
    全面评估:通过专家评审,对能力的技术、应用和安全进行全面评估,确保其符合上台的所有要求。
    分区决策:根据评审结果,决定能力进入上台区、储备区或不建议上台。
    关系总结
    初审是初步筛选,确保申请材料的规范性和完整性。

    (2)Global模式

    1.初审
    目的:
    初步筛选:确保提交的能力申请符合基本的上台要求,排除明显不符合条件的能力。
    材料审核:检查能力提供者提交的申请材料是否齐全、规范。
    流程:
    提交申请:能力提供者通过统一门户提交上台申请单及相关材料。
    初步审核:省专中台运营团队对申请材料进行初步审核,确保内容符合规范。
    反馈结果:审核通过的申请进入复审阶段,未通过的申请将被退回并告知原因。
    2.复审
    目的:
    深入评估:对通过初审的能力进行更详细的评估,确保其符合更高的标准。
    技术审核:评估能力的技术水平、安全性和服务保障。
    流程:
    材料复审:统一运营方对申请材料进行复审,重点检查材料的完整性和规范性。
    打分评估:根据《能力中台能力上台准入评估表》中的打分标准,对能力的战略契合度、应用度、
    技术先进性等方面进行打分。
    反馈结果:复审通过的能力进入上台评审阶段,未通过的申请将被退回并告知原因。
    3.上台评审
    目的:
    综合评估:对通过复审的能力进行综合评估,确保其符合上台的所有要求。
    专家评审:由中台专家和安全专家组成的评审会进行专业评估。

    (3)Hybrid模式

    1.能力初审
    定义与作用:
    能力初审是能力上台申请的第一个评审环节,主要目的是对申请材料进行初步审核,确保材料的完整性
    和规范性:初审由省专中台运营团队负责,他们会检查申请单和相关材料是否符合基本要求。
    流程:
    能力提供者提交上台申请单及相关材料。
    省专中台运营团队对申请材料进行初步审核,确保内容完整、格式正确。如果材料不完整或不符合要求,
    能力提供者需要补充或修改材料后重新提交,
    结果:
    初审通过后,申请材料将进入复审环节。
    初审不通过的申请将被退回,能力提供者需要根据反馈进行修改。
    2.能力复审
    定义与作用:
    能力复审是在初审通过后进行的进一步评审、主要目的是对能力的技术先进性、应用度、战略契合度等
    方面进行打分评估。
    复审由统一运营方负责,他们会组织评审专家对能力进行详细评估。
    流程:
    统一运营方组织评审专家对通过初审的申请材料进行复审。
    评审专家根据《能力中台能力上台准入评估表》中的评分标准进行打分。
    评审专家从战略契合度、应用度、技术先进性等方面进行综合评估。
    结果:
    复审通过的能力将进入上台评审环节。
    复审不通过的能力将被建议进入储备区或不上台。
    复审结果将在统一门户提交,并通知能力提供者。
    3.上台评审
    定义与作用:
    上台评审是能力上台申请的最终评审环节,主要目的是对能力进行全面评估,确保其符合上台标准。
    上台评审包括中台专家评审和安全专家评审两个并行的评审过程。
    流程:
    统一运营方创建线上评审会,邀请评审专家和安全专家。
    评审专家对能力的技术和应用特性进行评估。
    安全专家对能力的安全性进行评估。
    评审会采用线上或线下的方式进行,评审专家和安全专家分别进行评估。
    结果:
    评审通过的能力将进入上台区,后续进行服务注册和能力发布。
    评审不通过的能力将进入储备区,需要改进后重新申请。
    评审结果将在统一门户提交,并通知能力提供者。
    总结
    能力初审是初步审核,确保材料的完整性和规范性。
    能力复审是进一步评估,对能力的技术和应用特性进行打分。
    上台评审是最终评审,对能力进行全面评估,确保其符合上台标准。

    这三个环节环环相扣,层层递进,确保能力上台的每一个步骤都得到严格把关,从而保障能力中台的 质量和稳定性。

    通过对比知识库原文,Local模式的输出结果基本正确,较为准确地描述了初审、复审以及专家评审的大体内容和联系,但对工作人员、评审环节等少数部分的描述有所遗漏;Global模式的结果内容完整性更强,细节描述更加清晰准确Hybrid模式对于流程细节等内容描述的准确性有一定缺失,如评审会描述为线上或线下进行,实际应为仅有线上评审等,但提到了若复审不通过的下一步流程,逻辑具有更好的前瞻性。

    在该案例中,LightRAG的三种模式均在输出准确性、完整性上下文相关性方面表现较好。

    3.4.3 Nano-GraphRAG

    本节针对Nano-GraphRAG进行测试,考察其在能力评审各环节的上下文相关性理解以及对于知识图谱中多跳实体间的关联检索推理能力,以下是建立后的知识图谱在中台角色部分中的可视化内容:

    图片.png

    图3.4.4:Nano-GraphRAG以中台能力调用量为核心构建的关系图

    能力初审
    定义:能力初审是能力上台流程的第一个评审环节,主要目的是对能力提供者提交的申请材料进行初步
    审查,确保材料的完整性和基本符合性。
    流程:
    1.提交申请:能力提供者通过统一门户提交上台申请单及相关材料。
    2.材料审查:中台运营者对提交的材料进行初步审查,检查材料的完整性和基本符合性。
    3.初步评估:中台运营者根据《能力中台能力上台准入评估表》中的标准,对能力进行初步评估,确保
    其符合基本要求。
    输出:初审通过后,能力申请进入复审阶段。
    能力复审
    定义:能力复审是能力上台流程的第二个评审环节,主要目的是对初审通过的能力进行更深入的评估,
    确保其技术先进性、应用度和战略契合度。
    流程:

    1. 材料审核:中台运营者对初审通过的材料进行更深入的审核,包括技术文档、测试报告等。

    2. 打分评估:评审专家根据《能力中台能力上台准入评估表》中的标准,对能力进行打分评估,重点 评估技术先进性、应用度和战略契合度。

    3. 复审结果:复审结果分为通过、进入储备区或不建议上台。复审通过的能力进入上台评审阶段。 马。 输出:复审通过后,能力申请进入上台评审阶段。 上台评审 定义:上台评审是能力上台流程的第三个评审环节,主要目的是对复审通过的能力进行全面评审,确保 其质量和安全性,最终决定是否上台。 流程: 1.分配领域:统一运营方将复审通过的能力分配给所属领域,由各领域组织上台评审。 2.专家评审: l 中台专家评审会: 统一运营方创建线上评审会,邀请中台评审专家,对能力进行评审。评审会采用“云视讯“线上方式进行, 评审专家根据《能力中台能力上台准入评估表》中的标准进行评审。 l 安全专家评审: 统一运营方创建线上评审会,邀请安全评审专家,对能力的安全性进行评审。评审会同样采用"云视讯" 线上方式进行,评审专家根据自评估报告进行评估。 3.评审结果:评审结果分为进入上台区、进入储备区或不建议上台。评审结果由统一运营方在统一门户 提交,并反馈给能力提供者。 输出:评审通过的能力进入上台区,后续将进行服务注册、能力发布等环节。 总结 能力初审、复审和上台评审是中国移动能力中台上台流程中的三个关键环节,它们依次进行,层层递进, 确保每一步都严格把关,最终保证上台能力的质量和安全性。

    Nano-GraphRAG同样拥有较强的表现,较为准确完整地描述了三项流程的定义和关系。然而,仍然存在不完全准确的描述,如能力初审中,原文并未明确提及中台运营者需根据《能力中台能力上台准入评估表》进行评估。

    整体而言,该技术表现出了良好的准确性、完整性上下文相关性

    3.4.4 标准RAG

    标准RAG的测试结果如下:

    在能力评审环节中、能力初审、复审和上台评审分别承担不同的职责,共同确保能力的质量和安全性。
    首先,能力初审是由省专中台运营团队执行,主要针对能力提供者提供者。
    接下来,能力复审是在初审通过后,由统一运营方对申请材料的进一步审查。复审不仅涵盖了材料的
    完整性和规范性,还包括对能力是否满足上台的基本要求的全面评估。最后,上台评审是整个评审流程
    的关键环节,分为中台专家评审和安全专家评审两部分,两者并行开展。中台专家评审会由统一运营方
    组织,邀请相关领域的专家参与。

    标准RAG的输出结果更多是在复述检索信息,缺乏深度分析和关系拓展,知识还原的完整性和具体性略逊一筹,上下文相关性表现并不突出。

    3.4.5 小结

    GraphRAGLightRAGNano-GraphRAG标准RAG
    LocalGlobalHybrid
    准确性一般较强较强较强一般
    完整性较强较强较强一般较强较差
    上下文相关性&多跳推理特性一般一般较强较强较强较差

    (指标评价等级从高到底依次为:强、较强、一般、较差、差)

    综上,GraphRAG提供了较为具体和丰富的关系描述,有较强的准确性和上下文相关性,但存在一定的幻觉问题;LightRAG三种模式均有优异表现,但各有侧重,同样存在一定的幻觉问题;Nano-GraphRAG具有相对较好的表现。本文所述三种RAG均在本案例中表现了较为不错的上下文相关性多跳推理特性适用于逻辑性和连贯性较强的场景其中,LightRAG强于Nano-GraphRAG,后者强于GraphRAG。

    3.5 测试案例五

    在基于RAG的大模型框架中,鲁棒性是一个核心考量点。由于语言模型本身并不具备超越人类的智慧,因此在检索增强过程中,若召回内容与输入问题无关,即存在噪声干扰、新旧知识混杂,甚至遭遇被篡改或反事实的信息,模型将产生非逻辑性输出,犹如摄入毒蘑菇后的胡言乱语。

    本节就以提问 “平台运营者如何评估能力订购?” 为焦点,通过主动加入噪声内容(由大模型生成的、关于云音乐平台订购的指引手册),模拟复杂信息环境,其中《云音乐订购指引手册》和《能力中台能力订购指引手册》均涉及 “平台运营者” 和 “订购” 等关键词及其相关描述, “能力” 一词属于能力中台专有名词。在该环境中,观察RAG框架在检索过程中对无关信息及干扰信息的有效过滤能力,同时评估其信息筛选的精准度与逻辑推理的严谨性,以此检验RAG模型在复杂情境下的鲁棒性。以下是与提问内容相关的知识库原文节选:

    图片.png

    图3.5.1:相关知识库原文

    3.5.1 GraphRAG

    GraphRAG的知识图谱可视化如下:

    图片.png

    图3.5.2:GraphRAG以订购申请相关内容构建的关系图

    以下是GraphRAG的回答:

    平台运营者在评估订购能力时扮演着关键的角色。评估过程涉及确认订购申请的完整性、准确性以及
    支付信息的有效性,以确保音乐服务的可用性和价格的准确性。具体来说,评估的步骤包括:

  • 审核订购申请内容:平台运营者会审查订购申请中的各项信息,确保信息完整、准确。这包括确认 订购的音乐或服务类型、订购时长等方面。

  • 确认音乐服务的可用性和价格:在评估过程中,平台运营者会核实音乐服务的可用性,以及价格的 准确性。这确保了用户订购的服务符合其需求并且价格合理。

  • 验证支付信息的有效性:另一个重要的方面是验证支付信息的有效性,包括选择的支付方式(如 信用卡、支付宝等)以及填写的支付信息是否准确无误。

  • 发送订购确认信息:审核通过后,平台运营者会向音乐使用方发送订购确认信息,通知用户订购申请 已通过审核,可以进行支付和开通服务的步骤。

  • 通过以上步骤,平台运营者能够确保订购能力的流程顺利进行,用户能够顺利订购所需的音乐服务并 享受到优质的用户体验。这些措施有助于提升订购效率,保障音乐服务的顺利运营。

    实验结果显示,针对 “能力订购评估”问题,GraphRAG受到一定程度的噪声干扰。云音乐平台订购指引手册的引入,对原本能力中台能力订购指引手册的知识检索造成了混淆,且能力中台 “能力” 概念的特殊性加剧了问题,导致两个框架在知识检索和问题理解上均产生偏差。尽管GraphRAG框架具备清晰的结构,但在处理问题时未能准确识别 “能力” 这一核心概念在鲁棒性与抗干扰能力上表现不佳。

    3.5.2 LightRAG

    为了测试在两个知识库中存在相似实体的情况下,LightRAG对于相关问题回答的准确度进行鲁棒性测试,其构建的知识图谱如下,可以看到 “云音乐” 相关的知识图谱是较为独立的:

    图片.png

    图3.5.3:LightRAG以订购申请相关构建的关系图

    (1)Local模式

    平台运营者评估能力订购的流程
    1.审核申请
    平台运营者在收到能力订购申请后,首先会对申请进行初步审核。审核内容包括但不限于:
    申请信息的完整性:检查申请表中的各项信息是否填写完整,特别是必填项。
    申请者的资质:核实申请者的身份和资质,确保其符合平台的要求。
    能力的需求度:评估申请者对能力的实际需求,确保其订购能力的合理性和必要性。
    2.功能测试
    在初步审核通过后,平台运营者会要求能力提供者进行功能测试,以验证能力的功能性和稳定性。
    功能测试的内容包括:
    测试报告:能力提供者需提交《功能测试报告》,记录功能测试的关键数据和内容,提供测试结论、
    测试风险、测试重点等。
    测试用例:包含功能、性能等方面的关键内容,补充说明测试数据(含输入、输出)。
    服务规范接口文档:符合《中国移动能力中台能力上下台运营管理办法》,详细说明上台能力的各接口、
    入参、出参等内容。
    3.性能测试
    除了功能测试外,平台运营者还会要求能力提供者进行性能测试,以确保能力在高负载情况下仍能稳定
    运行。性能测试的内容包括性能测试报告:
    能力提供者需提交《性能测试报告》,记录性能测试的结果和分析。
    性能测试指标:选择恰当的性能指标,从处理能力和资源利用率等方面进行评估。
    压测方式和场景:结合能力特征和具体性能需求,选择合适的压测方式和场景,确保并发量达到预期
    规模时,能力相关组件保持稳定运行,响应速度满足需求。
    4.安全评估
    平台运营者会对能力的安全性进行评估,确保其符合安全要求。安全评估的内容包扩:
    安全自评估结果表:能力提供者需提交安全自评估结果表,详细说明安全防护评估、主机安全评估、
    数据库安全评估、网络安全等方面的情况。
    安全认证方式:当前仅支持网关认证,即由全网服务网关进行身份认证鉴权。
    5. 应用情况评估
    平台运营者会评估能力的应用情况,包括:
    用户数等。业务量情况:对当前能力使用规模和范围的说明,包括业务指标、调用量能力价值:
    评估能力的实际使用效果和价值,确保其对用户和业务的贡献
    6.审核结果反馈
    最后,平台运营者会根据上述评估结果,给出审核结果反馈:
    审核通过:通知申请者审核通过,允许其订购和使用能力。
    审核不通过:通知申请者审核不通过,并说明原因,提出改进建议,
    结论
    平台运营者在评估能力订购时,会综合考虑申请信息的完整性、功能和性能测试结安全性、应用情况
    等多个方面,确保能力的高质量和可靠性。这一系列严格的评估。

    (2)Global模式

    1.订购评估流程
    平台运营者在评估能力订购时,遵循一系列严格的流程,以确保订购申请的合理性和服务的可用性。
    以下是详细的评估流程:
    1.1 接收订购申请
    申请提交:能力使用者通过能力中台门户提交订购申请,提供所需能力的相关信息,包括能力名称、
    应用场景、使用期限等。
    申请材料:申请者需上传相关文档,如需求说明、使用计划等,确保申请材料的完整性和规范性。
    1.2 初步审核
    材料检查:平台运营者首先对提交的申请材料进行初步审核,检查材料的完整性和规范性。
    需求分析:评估申请者的需求是否合理,是否有明确的应用场景和使用计划。
    1.3 技术评估
    技术可行性:平台运营者评估所申请能力的技术可行性,确保能力能够满足申请者的需求。
    性能测试:对能力进行性能测试,确保其在实际应用中的稳定性和可靠性。
    安全评估:根据《能力中台能力上台安全风险评估要点》,评估能力的安全性,确保其符合安全标准。
    1.4 服务评估
    服务响应:评估能力提供者的服务响应能力,包括服务保障团队的配备情况和服务响应承诺。
    用户体验:评估能力的用户体验,确保其能够满足用户的实际需求。
    1.5 综合评估
    评审会议:平台运营者组织评审会议,邀请相关专家和能力提供者参与,对申请进行综合评估。
    评审标准:根据《能力中台能力上台准入评估表》中的各项指标进行评分,包括战略契合度、应用度、
    技术先进性等。
    评审结果:评审专家根据评分结果,决定是否批准订购申请。
    2.评估标准
    平台运营者在评估能力订购时,主要参考以下几个标准:
    2.1 战略契合度
    与全网规划思路一致:评估能力是否符合全网的战略规划,是否属于新型应用场景。
    不重复性:确保申请的能力与现有能力不重复,特别是与管控类能力和赛马胜出的能力不重复。
    2.2 应用度
    需求合理性:评估申请者的需求是否合理,是否有明确的应用场景和使用计划。
    用户规模:评估能力的潜在用户规模,确保其具有广泛的应用前景。
    2.3 技术先进性
    技术创新:评估能力的技术创新性,是否采用了先进的技术和方法。性能指标:评估能力的性能指标,
    确保其在高并发量下的稳定性和响应速度。
    2.4 安全性
    安全防护:评估能力的安全防护措施,包括主机安全、数据库安全、网络安全等。
    安全评估:根据《能力中台能力上台安全风险评估要点》,对能力进行综合安全评估。
    2.5 服务保障
    团队配备:评估能力提供者的团队配备情况,确保其具备相应的保障团队,包括运营专员、测试专员、
    安全专员、运维专员等。确保其能够提供及时有效的服务支持。
    3.评估结果反馈
    平台运营者在完成评估后,会通过统一门户提交评审结果和意见,通知申请者评估结果:
    审核通过:如果申请通过审核,平台运营者将通知申请者,告知其可以进行后续的订购流程。
    审核不通过:如果申请未通过审核,平台运营者将提供具体的反馈意见,告知申请者未通过的原因,
    并提出改进建议。
    4.总结
    平台运营者在评估能力订购时,通过严格的流程和多维度的评估标准,确保订购申请的合理性和服务的
    可用性。这一过程不仅有助于提升平台的服务质量。也为能力使用者提供了可靠的能力支持。

    (3)Hybrid模式

    1. 订购申请的初步处理
    用户发起订购申请:用户通过中国移动能力中台的多种渠道(如电话、在线客服、邮箱等)发起订购申请。
    运营专席受理:运营专席(综合性)或集省专服务与支持人员首先受理用户的问题。如果可以直接解决,
    则立即处理反馈;如果无法解答,则转至集省专服务与支持人员或小组进行受理。
    2.订购申请的审核
    审核内容:平台运营者对订购申请进行审核,主要关注以下几个方面:
    服务的可用性:确保申请订购的服务在技术上可行,能够正常提供服务。
    支付信息的准确性:审核用户提供的支付信息,确保支付信息真实有效。
    服务的合规性:确保申请订购的服务符合中国移动能力中台的相关规定和标准。
    3.评估过程
    服务与支持入口:用户可以通过中国移动能力中台首页->联系我们->电话、在线客服、邮箱发起提问。
    服务与支持处理流程:
    l 在线客服系统:用户点击“在线客服“后,页面跳转至在线客服系统。
    问题单处理:
    l 问题单提交:用户提交问题单后,问题单显示在未结案列表中,等待分配处理人。
    l 问题单处理:集省专服务与支持人员接到问题单后,可选择办结、转派、退单、传阅、挂起等操作。
    l 问题单办结:问题单处理完毕后,集省专服务与支持人员需及时对问题单进行办结,用户可根据办结
    意见主动选择结案。
    4.评审结果反馈
    审核结果:审核结果是平台运营者对订购申请审核后的反馈,通知音乐使用方审核是否通过。
    l 通过:审核通过后,用户可以继续进行订购流程。
    l 不通过:审核不通过的,平台运营者会通知用户具体原因,并提供改进建议。
    5. 订购申请的后续处理
    服务注册:审核通过后,能力提供者可提交“服务注册申请”,由一级能运运营人员审核。
    服务发布:服务注册申请审核通过后,能力提供者可提交“服务发布申请”,由一级能运测试人员审核。
    服务调用:服务发布审核通过后,服务数据正式发布至生产环境网关,一级能运运营人员对服务进行
    调用验证,验证通过后,确认发布完成。
    总结
    平台运营者在评估能力订购的过程中,需要经过初步审核、订购评估、评估结果反馈和订购确认等
    多个步骤。这些步骤确保了服务的准确性和可行性,同时也提高了平台的运营效率。

    从输出内容可以看到,Local模式对于 “能力” 的理解较为准确,几乎没有受到云音乐平台知识库相似内容的干扰,较为清晰地列举出了能力订购的流程以及各环节的细节内容,对整体流程进行了总结评估,对于提问内容较为切题Global模式中,从评估流程、评估标准、结果反馈等层面更为全面地回答了问题Hybrid模式的回答契合度不高,未围绕能力订购的评估过程开展,且出现了音乐使用方等干扰项,较其它两种模式的表现更差。

    在该案例中,Local和Global模式对能力订购评估的理解较为准确,回答内容风格有差异但并不偏离主题,具有较高的鲁棒性。

    3.5.3 Nano-GraphRAG

    对于鲁棒性的测试,Nano-GraphRAG的知识图谱有如下构建,可以看到 “云音乐” 相关的知识图谱与 “能力中台” 相关建立了联系:

    图片.png

    图3.5.4:Nano-GraphRAG以订购申请相关内容构建的关系图

    平台运营者在评估能力订购的过程中,需要确保服务的准确性和可行性。以下是详细的评估流程:
    1.订购申请接收
    当音乐使用方通过云音乐平台提交订购申请时,平台运营者会接收到这些申请。这些申请通常包括服务
    的详细信息、使用方的需求和联系方式等。
    2. 初步审核
    平台运营者会对提交的订购申请进行初步审核。这一步骤主要是检査申请的完整性和合理性,确保
    所有必要的信息都已经提供。初步审核的内容可能包括
    l 服务需求:确认使用方的需求是否明确,是否有具体的使用场景。
    l 申请信息:检查申请表单是否填写完整,包括使用方的联系方式、服务期限等。
    l 合规性:确保申请符合平台的政策和法规要求。
    3. 订购评估
    初步审核通过后,平台运营者会进行更深入的订购评估。这一步包括以下几个方面:
    l 服务匹配:评估使用方的需求与平台提供的服务是否匹配,确保服务能够满足使用方的要求。
    l 技术可行性:检查平台的技术能力是否能够支持所申请的服务,包括系统的稳定性、性能和安全性。
    l 资源分配:评估平台的资源是否足够支持新的服务订购,包括服务器、带宽、存储等资源。
    l 成本分析:计算服务的成本,包括初始设置费用、运维费用等,确保服务的经济可行性。
    4.评估结果反馈
    评估完成后,平台运营者会将评估结果反馈给使用方。如果评估结果为通过、平台运营者会向使用方
    发送订购确认信息,通知其服务可用。
    5.订购确认
    使用方收到订购确认信息后,可以进行进一步的沟通和确认。一旦双方达成一致,平台运营者会正式
    开通服务,确保使用方可以正常使用所订购的服务。

    相关角色和工具 l 平台运营者 平台运营者是负责云音乐平台日常运营管理的团队、主要职责包括处理订购申请、评估和服务开通等 工作。他们需要具备良好的沟通能力和技术背景、以确保服务的顺利进行。 l 运营工作台 运营工作台是统一运营方使用的管理平台,用于处理能力上下台申请和管理评审结果。平台运营者通过 运营工作台进行订购申请的管理和评估,确保流程的高效和透明。 l 结算申请管理列表 运营工作台提供结算申请管理列表,帮助能力使用者查看和管理结算申请。这有助于确保服务费用的 准确性和及时性。 总结 需要经过初步审核、订购评估、评估结果反馈和订购确认等多个步骤。这些步骤确保了服务的准确性 和可行性,同时也提高了平台的运营效率。

    很明显,回答主题聚焦在了云音乐的订购上,具体内容结合了能力订购,有较为明显的被干扰的特征,因此Nano-GraphRAG在鲁棒性测试上的表现不佳。

    3.5.4 标准RAG

    标准RAG的测试结果如下:

    评估流程
    1.接收订购申请:
    平台运营者首先会接收到音乐使用方提交的订购申请单。这些申请单通常包含音乐使用方的基本信息、
    所需音乐或服务的详细描述、订购时长和支付方式等。
    2.初步审核:
    运营者会对提交的订购申请进行初步审核,确认申请信息的完整性和准确性。这一步骤主要是检查是否
    有遗漏的信息或明显的错误。
    3. 音乐服务可用性评估:
    运营者会核实所订购的音乐或服务是否在平台上可用,包括库存情况、版权许可等。确保音乐使用方能
    够顺利获得所需资源。
    4. 价格评估:
    对于音乐服务的价格进行评估,确保报价合理且符合平台的定价政策。这一步骤可能包括与音乐提供方
    的沟通,以确认最终价格。
    5. 支付信息审核:
    检查音乐使用方提供的支付信息是否有效,包括支付方式的选择和具体的支付凭证。确保支付过程的
    安全性和可靠性。
    6. 风险评估:
    运营者会对音乐使用方的信用记录和历史交易情况进行评估,以降低潜在的风险。这一步骤有助于确保
    平台的稳定运营和资金安全。

    评估要点 信息完整性:确保订购申请单中的所有必要信息都已完整填写,包括音乐使用方的联系信息、订购内容、 支付方式等。 服务可用性:确认所订购的音乐或服务在平台上的可用性,包括库存情况、版权许可等。 价格合理性:评估音乐服务的价格是否合理,符合平台的定价政策。 支付安全性:检查支付信息的有效性和安全性,确保支付过程顺利进行。 信用评估:评估音乐使用方的信用记录和历史交易情况,降低潜在风险。

    审核结果通知 审核通过:如果订购申请通过了所有评估步骤,平台运营者将发送订购确认信息给音乐使用方,音乐 使用方可以根据确认信息完成支付并开通服务。 审核不通过:如果订购申请未能通过评估,平台运营者将通过短信或邮件通知音乐使用方,并说明 不通过的原因。音乐使用方可以根据提示修改订购申请后重新提交。

    对标准RAG的案例测试中,较为明显地出现了云音乐平台的相关内容,与提问主题不符,鲁棒性较差。

    3.5.5 小结

    GraphRAGLightRAGNano-GraphRAG标准RAG
    LocalGlobalHybrid
    完整性较差较强一般较强较强
    鲁棒性较强较强较差较差较差

    (指标评价等级从高到底依次为:强、较强、一般、较差、差)

    综上所述,在该案例中LightRAG的Local模式和Global模式具有较强的性能,在噪声干扰环境下表现了较好的鲁棒性,其中,Global模式的回答更为全面、准确。对照组中其他的几种RAG方法,包括传统的标准RAG、基于图结构的GraphRAG和Nano-GraphRAG技术框架,在噪声过滤方面存在局限性。对于噪声较多、知识结构较为复杂的场景,LightRAG更为适用。

    4. 结果分析

    受到测试手段、数据、场景等局限性,本篇的测试结果仅针对实验所用的数据负责,我们旨在结合自身实际业务场景验证各项新技术的表现,其结果仅作为案例供各位读者参考,并不代表上述技术的全部能力。

    4.1 资源占用情况对比

    可以明显的看到,GraphRAG、LightRAG和Nano-GraphRAG在知识表示和检索机制方面具有显著优势,但其资源消耗也相对较高。以下是对GraphRAG、LightRAG、Nano-GraphRAG和标准RAG在资源消耗方面的对比分析。

    (1)资源消耗:构建阶段

    框架Token总消耗LLM和Embedding
    模型的总消耗量
    Embed
    ding调用次数
    LLM调用次数Embded
    ding Token平均消耗
    LLM提问Token平均消耗LLM回答Token平均消耗成本以qwen-plus为基座模型接口,提问0.0008元/1000 token,回答0.002元/1000 token。Embedding接口调用免费
    GraphRAG1077145
    +16737
    =1093882
    3841916737/38
    =440
    865934/419
    =2067
    211211/419
    =504
    LLM:0.69元+0.42元
    LightRAG226067
    +12238
    =240305
    303812238/38
    =407
    171133/38
    =4504
    54934/38
    =1446
    LLM:0.14元+0.11元
    Nano-GraphRAG313856
    +192304
    =506160
    44297192304/442
    =435
    237589/97
    =2449
    76267/97
    =786
    LLM:0.19元+0.15元
    标准RAG0+42872
    =42872
    233018400LLM:0元

    备:实验时,GraphRAG、LightRAG、Nano-GraphRAG与标准RAG的Token消耗比值约为26:6:12:1;耗时对比约为12:2:3:1。

    (2)资源消耗:查询阶段

    框架Token总消耗LLM和Embedding模型的总消耗量Embedding调用次数LLM调用次数Embdedding Token平均消耗LLM提问Token平均消耗LLM回答Token平均消耗成本以qwen-plus为基座模型接口,提问0.0008元/1000 token,回答0.002元/1000 token。Embedding接口调用免费
    GraphRAG44230+1188
    =45418
    05043683/5
    =8736.6
    547LLM:均不超过0.01元
    LightRAG13525+29
    =13554
    1129124191106
    Nano-GraphRAG13870+1475
    =15345
    141105126381232
    标准RAG2575+16
    =2591
    111610921483

    备:实验时GraphRAG、LightRAG、Nano-GraphRAG与标准RAG的Token消耗比值约为18:5:6:1;耗时对比约为7:4:4:1

    4.2 实验对比总结

    根据以上实验结果,针对所述四种RAG架构在测试案例中的表现,我们总结了以下准确性、完整性、鲁棒性、上下文相关性、多跳特性和资源消耗的性能评级:

    技术框架准确性完整性鲁棒性上下文相关性&多跳特性资源消耗
    (构建阶段)
    资源消耗
    (查询阶段)
    GraphRAG较强一般较差一般GraphRAG>
    NanoGraphRAG>
    LightRAG>
    标准RAG
    GraphRAG>
    NanoGraphRAG>
    LightRAG>
    标准RAG
    LightRAGLocal较强较强较差一般
    Global较强
    Hybrid一般一般较差较强
    Nano-GraphRAG较强较强较差较强
    标准RAG较强较差较强较差

    本文以所述实验为例,对比了GraphRAG、LightRAG、Nano-GraphRAG和标准RAG的技术差异。很明显,并不是一切新的复杂的技术就是最优的,在进行技术选型时需考量应用场景、数据结构及查询模式的特性。

    GraphRAG相比于标准RAG,增加了知识图谱用于构建各知识实体间的关系,由于图结构天生擅长表达联系的特性,GraphRAG在处理复杂关系、多层次分析及大规模数据集方面具有显著优势,但同时也带来了系统复杂性和资源消耗的提升。

    根据实验结果,以下是GraphRAG适用场景的建议:

    1、复杂关系处理:当数据集包含大量实体和复杂关系时,GraphRAG能够更自然地捕捉和表示这些关系,从而生成更准确的回答。

    2、多层次分析:对于需要多层次分析和推理的查询(如综合性查询),GraphRAG能够通过图遍历算法检索到相关子图,为生成高质量回答提供支持。

    3、大规模数据集:尽管GraphRAG的资源消耗较高,但在处理大规模数据集时,其优势可能更为明显。通过构建知识图谱,GraphRAG能够更有效地组织和管理数据。

    LightRAG相比GraphRAG更加轻量化,减小了大模型调用次数和资源消耗,具有较高的运行效率和相对较低的资源需求,能够快速响应用户的查询请求,。在一些对实时性要求相对较高、计算资源相对有限的应用场景中,LightRAG 可以发挥重要作用。此外,其双层索引机制使其聚焦于单个实体和全局检索之间灵活切换,对场景的适应能力更强。它可以在不牺牲太多性能的情况下,为用户提供及时、准确的答案,拓展了 RAG 技术的应用范围。

    以下是LightRAG适用场景的建议:

    1、 资源受限环境:在计算资源有限的设备或场景中,比如移动设备端的智能助手应用、边缘计算场景等,LightRAG凭借其轻量化的设计,能够以相对较低的资源消耗快速运行,在保障基本的检索增强生成效果的同时,及时响应用户需求。

    2、 实时性有一定要求的场景:LightRAG通过采用高效的索引结构、灵活的模型架构及优化的检索算法等,能够迅速完成检索并辅助生成回答,减少用户等待时间,提升交互体验。

    3、 海量数据初步筛选:在处理海量数据时,如果只是需要进行初步的检索筛选,获取大致相关的信息范围,LightRAG可以凭借其高效的运行机制快速完成这一阶段任务,为后续进一步深入分析和精准处理提供一个基础的候选信息集合,降低整体的数据处理成本和时间成本。

    Nano-GraphRAG 解决了传统 RAG 在处理精细关系时不够精准以及知识图谱动态更新不便等问题,但仍存在一些局限性,如在实验中看到的那样对于抽象角色的提取理解并不准确,可能会因领域知识的深度和广度跨度太大而出现关系梳理不全面或不准确的情况。

    以下是Nano-GraphRAG适用场景的建议:

    1、 实时交互场景:在一些对实时性要求较高的交互场景,如在线智能客服、实时问答助手等应用中,Nano-GraphRAG由于其相对轻量化的设计以及高效的关系检索能力,能快速根据用户问题在已构建的知识图谱中定位相关信息,及时生成准确回复,满足用户快速获取答案的需求。

    2、 知识图谱动态更新:当知识图谱需要频繁进行动态更新,如新的知识不断涌现,既有知识需实时调整补充的情况时,Nano-GraphRAG所具备的便捷的增量插入等更新机制可快速将新信息融入知识图谱结构中,确保图谱始终保持时效性。

    3、 跨领域知识整合:对于涉及多个不同领域知识融合的应用场景,比如融合科技、人文、医学等多领域知识来解答综合性问题,Nano-GraphRAG可以打破不同领域间的知识壁垒,通过构建统一的知识图谱,将各领域的实体和关系进行有机整合,便于检索和分析,为生成涵盖多领域知识的高质量回答创造条件。

    相比之下,标准RAG在以下场景下可能更为适用:

    1、 简单查询:对于简单的事实性查询,标准RAG能够更快速、直接地提供答案

    2、 小规模数据集:对于较小的数据集或简单的应用场景,标准RAG的设置和维护通常更为简便,便于快速部署和使用。

    以上技术的适用场景建议总结如下:

    RAG类型场景匹配
    GraphRAG逻辑和知识抽取的准确性相对较高,适用于方案编写、合同拟草等场景,但资源消耗和推理耗时较长,对于实时性要求较高的场景不太适用
    LightRAG对于准确性、完整性、上下文相关性、鲁棒性等均有较为优异的表现,综合能力在对照组中最强,其中Global模式表现更为突出,且其轻量化的设计也适用于工单处理、数据统计、文档撰写等大部分场景
    Nano-GraphRAG在准确性、完整性、多跳推理特性等方面表现出了相对优秀的性能,同样基于轻量化架构,适用于知识问答、制度查询等逻辑性、连贯性、实时性较强的场景
    标准RAG适用于对实时性要求较高,但知识库结构相对简单的场景

    综上所述,GraphRAG、LightRAG、Nano-GraphRAG和标准RAG各有优劣,应结合硬件条件并根据具体应用场景和需求进行选择。在实际应用中,可以结合各方的优点,构建混合系统以充分利用各自的优势。

    5.RAG的局限性与未来设想

    5.1 问题和局限性

    RAG技术的出现解决了大语言模型在知识储备有限、容易出现知识幻觉等方面的问题,在一定程度上提升了回答的准确性与可信度,助力大语言模型更好地服务于如问答系统内容创作辅助等诸多应用场景。但在数据检索上依然存在一定问题:

    1、 语义理解偏差,向量检索难以精确捕捉近似词语、领域名词等在语义上的差异,易导致检索结果与用户需求的偏差。

    2、 粒度不匹配,文本区块大小难以平衡,过小可能遗漏关键内容,过大则易引入冗余信息。

    3、 稀疏信息定位难,在大规模数据中,当所需信息零散分布于多块文本,定位完整信息较难。

    4、 上下文整合不足,向量搜索偏向整体判断,忽略局部或特定位置的高相似度信息。

    5、 检索结果排序不当,影响生成回答的重点把握,易缺少相关性和重要性。

    6、 过度依赖检索内容,缺乏对事实性问题的判断、拒答和判断力,造成错误引导。

    GraphRAG、LightRAG和Nano-GraphRAG等结合图结构的进化版RAG,通过融合知识图谱解决了标准 RAG 在复杂关系处理多层次分析语义理解不足以及容易错过关键文档等方面存在的问题,一定程度上改善了知识更新时效性和检索效率方面的状况。然而图结构的RAG依然存在不足:

    1、 GraphRAG 存在实施成本高、可扩展性受限以及模型兼容方面的难题,数据增长时图构建与查询计算量呈指数级上升。

    2、 LightRAG 虽有诸多优化,但随着数据量不断增大,检索与生成速度易受到影响,难以满足实时性要求极高的场景需求,且在处理数据稀疏性与语义漂移等复杂情况时,仍缺乏足够的鲁棒性与适应性,生成内容的准确性和完整性在极端情况下难以保障。

    3、 Nano-GraphRAG能够高效挖掘实体间微妙关系,快速构建小规模复杂数据的知识图谱且便捷地进行动态更新,但在处理高度模糊或语义歧义较大的复杂文本时,可能难以完全精准地解析和构建完美的知识图谱结构。

    它们在不同程度上依旧受困于传标准RAG 所面临的部分共性问题,仍有待进一步完善和突破。

    5.2 未来设想

    随着大模型对token的支持量越来越大,可一次性快速阅读和理解几百万字的文章,并对文章内容进行梳理和总结,对RAG技术的依赖会得到一定削弱,但是RAG本身具备较低的门槛和便捷性,使得场景化的应用方面能发挥较大优势,特别是图结构的RAG引入了知识关系图谱和图索引,提高了知识检索准确性、完整性和逻辑性。

    目前各种RAG项目还引入了很多创新的理念,如社区的理念、双层检索范式、动态增量知识库、动态检索权重等创新的思维,但目前各类方案还有待成熟,在实际生产过程中应用,还要解决能耗、时耗和安全问题,根据其他RAG的先进的想法及生产场景需要,基于LightRAG理念进行了流程设想:

    图片.png

    图5.1:基于LightRAG的流程优化设想图(有待验证)

    1、 知识去噪处理:图结构RAG虽然消耗比一般RAG要高,但是其对知识的梳理有着显著优势,在知识图谱构建阶段中,可以结合图形,针对无用的、不相关的分支和实体进行处理,或补全关键实体和分支,使得知识图谱更加简洁聚焦,提升内容生成准确性;

    2、 增加前置知识评估:知识图谱构建阶段中,对挂载的知识进行知识评估,针对准确的内容进行提炼和拆分,对不明确或错误的内容进行查证和调整,保证知识内容的准确性和合规性;

    3、 图结构下多轮对话增强:检索和生成阶段,图结构对多轮对话的支持有明显短板,增加多轮对话的匹配和检索,提高上下文的关联性;

    4、 增加热知识加密缓存机制:检索和生成阶段,对于高频用户,增加临时缓存机制,可实现针对用户关注的知识区域进行缓存,有效提高用户的问题检索和生成效率。但知识缓存存在安全问题,需引入加密机制保障信息的安全。

    除此之外,要想实现一个生成质量好,检索效率高,灵活动态的RAG框架,还有较长的路要走,知识前置处理尤其关键,数据的准确,并且结构容易检索,知识可回溯可增长,引入图结构对知识进行预处理有诸多好处,但在检索和生成环节,效率明显偏低,可转化其他索引结构或加入热知识缓存机制,可针对不同用户进行缓存处理,提升检索和生成效率

    敬请期待:

    序号系列主题测评内容计划
    1当前热门图结构RAG的分析、测评和应用思考GraphRAG、LightRAG、Nano-GraphRAG2025年1月
    2RAG检索测评和优化思路研究Auto-RAG、RAFT等2025年2月
    3基于行业开源RAG技术的技术演变和生产落地从标准文档内容检索到多模态知识解析、增加结构编排的模块化RAG等2025年4月

    作者:古英杰 王力强 张义泽

    本人在IT应用架构、应用开发领域深耕10余年,主要研究方向有云计算、分布式架构、微服务、及新兴的AI大模型,欢迎大家交流学习~

    1篇原创内容
    阅读 1334
    收藏
    沙丘社区Logo专注人工智能和大数据的数字技术社区
    联系我们
    • 客服微信: zimu738
    • 加入我们: hr@shaqiu.cn
    • 业务合作: miao_tim
    • 内容投稿: service@shaqiu.cn
    公众号
    智库小程序
    客服微信