在企业里,AI 落地的瓶颈往往不在模型,而在于上下文工程。大量业务数据被封存在 PDF、PPT、Excel、图像、HTML 等非结构化文件中。如何把分散、异构、持续更新的企业数据,稳定转化为 LLM 可以是识别的上下文,是极其关键的一环。
传统RAG的企业困境
- 数据源割裂:企业数据分散于 ERP、Wiki、云盘等数十个系统,适配成本高。
- 异构数据解析丢失:表格、图表、公式等多模态内容易丢失,机械分块切断文档逻辑。
- 处理过程黑盒:无法定位解析 / 分块 / 向量化错误,调试盲目。
Dify Knowledge Pipeline
作为国内领先的企业级Agentic AI解决方案平台,Dify通过Knowledge Pipeline——一个可视化、可编排的处理通道,让企业真正掌握从原始数据到高质量上下文的转化全过程。
- 价值一:业务-技术协同 业务专家可通过可视化界面直接调试检索过程,减少与技术团队的沟通成本
- 价值二:降本提效 可沉淀复用模板(如合同审查、客服知识库),减少重复搭建与维护成本
- 价值三:灵活选型 各环节(OCR、解析、向量库)可按需替换,始终采用业界最优解,无需绑定单一厂商
01、可视化画布式编排
继承 Dify Workflow 画布体验,将 RAG 的 ETL 过程拆分为独立节点(数据源接入、文档解析、分块策略等);
支持嵌入 Worklow 逻辑节点、Code 节点、LLM 节点,实现 “代码规则清洗 + 大模型内容增强” 的灵活定制(如敏感信息脱敏、实体抽取)。

02、全场景数据源插件化集成
通过Data Source 插件一键接入多类型数据源,无需定制开发,支持自定义插件扩展:



03、可插拔数据处理链路
将数据加工拆解为标准化节点,每步可按需更换插件:
- Extract(数据提取):多数据源并行接入,统一处理文本、图片、音视频等多模态内容;
- Transform(数据加工,核心环节):
Parse(解析):按文件类型选最优解析器,支持多解析器并联(如扫描件 OCR、表格还原、PPT 文本框顺序校正),确保信息不丢失;
Enrich(增强):通过 LLM 实现摘要生成、标签分类、敏感信息脱敏,提升内容质量;
Chunk(分块):3 种策略适配不同场景(General 通用/Parent-Child 长文档精准定位/Q&A 结构化问答),客服场景检索精度提升 35%;
- Embed(向量化):按成本、语种、维度需求灵活切换嵌入模型;
- Load(索引存储):支持 “高质量向量索引 + 经济型倒排索引”,可配置元数据标签实现精准过滤与权限控制。


04、可观测调试能力
- Test Run(测试运行):逐节点执行 Pipeline,查看每步输入输出是否符合预期;
- Variable Inspect(变量监视器):实时观察中间变量与上下文,快速定位解析错误、分块异常或元数据缺失问题。

05、7类内置模板,开箱即用
提供多种预设模板,覆盖常见企业应用场景,大幅降低上手门槛。


06、多模态处理突破
- 集成MinerU 插件:支持从 PDF、Word、PPT、扫描件中提取图片 / 图表,生成可访问 URL;
- 支持图文混排输出:LLM 回答时可直接引用文档中的图表,解决传统 RAG “看不见图表” 的问题;
- 强化 OCR 能力:支持 84 种语言扫描件识别,精准处理公式、乱码 PDF。
插件生态与效率优化
RAG全链路插件覆盖:
- Connector(数据源):覆盖Google Drive、Notion、Confluence等主流平台。
- Ingestion(解析工具):支持LlamaParse、Unstructured、各类OCR(如MinerU)。
- Storage(存储):对接Qdrant、Weaviate、Milvus、Oracle等主流向量库,支持企业版/开源版自定义配置。

