Databricks全新Instructed Retriever技术在企业AI领域优于RAG表现

发布时间:2026-01-16 19:53

Databricks正在加入那些悄然承认传统确定性方法在许多应用中表现远胜于生成式AI概率性方法的AI软件供应商行列。其全新的"Instructed Retriever"架构将传统数据库查询与RAG(检索增强生成)的相似性搜索相结合,为用户提示提供更相关的响应。

检索增强生成架构的优势与局限

检索增强生成(RAG)架构的一切本应简单明了。它被认为是企业采用生成式AI的捷径:使用相似性搜索检索可能与提示相关的文档,将它们与提示的其余部分一起传递给语言模型,让模型完成其余工作。

但随着企业将AI系统推向生产环境,这种架构开始出现问题。现实世界的提示包含指令、约束条件和业务规则,仅凭相似性搜索无法强制执行这些要求,迫使首席信息官和开发团队在延迟、准确性和控制之间做出权衡。

Instructed Retriever的创新解决方案

Databricks针对这一问题提出了解决方案——Instructed Retriever,它在检索文档以增强生成提示时,将请求分解为特定搜索词和过滤指令。例如,当请求产品信息并指示"专注于过去一年的评论"时,系统可以明确仅检索元数据显示不到一年的评论。

这与传统RAG形成鲜明对比,传统RAG将用户查询中的指令作为提示的一部分,在数据检索完成后由模型进行协调:它会检索包含与"评论"和"去年"类似词汇或概念的文档,但这些文档可能更老或根本不是评论。

通过将指令感知直接嵌入查询规划和检索中,Instructed Retriever确保用户的时效性和排除性等指导原则从一开始就影响检索内容,而不是后续修补,Databricks的Mosaic研究团队在博客文章中写道。

这种架构变化带来更高精度的检索和更一致的答案,特别是在企业环境中,响应的相关性不仅由用户查询中的文本相似性定义,还由明确指令、元数据约束、时间上下文和业务规则定义。

行业专家的评估与挑战

分析师和行业专家认为Instructed Retriever解决了真正的架构空白。

HFS Research首席执行官Phil Fersht表示:"从概念上讲,它解决了一个真实且日益严重的问题。企业发现,一旦超越狭窄查询,进入系统级推理、多步骤决策和智能体工作流程,简单的检索增强生成就会失效。"

苹果公司机器学习工程经理Akshay Sonawane表示,Instructed Retriever充当自然语言模糊性与企业数据确定性之间的桥梁。但他表示,为了使其发挥作用,企业可能需要投资数据管道,在摄取新内容时保持元数据一致性,并建立治理政策来确定谁可以查询什么以及这些权限如何映射到元数据过滤器。

博通高级站点可靠性工程师Advait Patel对此表示赞同,同时提醒首席信息官不要将Instructed Retriever视为万能解决方案。

Patel说:"采用像Instructed Retriever这样的架构仍需要大量工作。企业需要相对清洁的元数据、定义明确的索引模式,以及对系统预期遵循指令的清晰了解。"

实施挑战与企业准备度

成功使用Instructed Retriever所需的重新工程可能会给首席信息官预算带来额外压力,Fersht说。

他表示:"采用可能意味着在看到明显AI投资回报之前需要持续投资数据基础和治理,同时这些系统需要数据工程、AI和领域逻辑的混合技能,会给人才带来压力。"

除了成本和人才,还有管理期望的挑战。Fersht说,像Instructed Retriever这样的工具可能会给人造成企业可以直接跃升到智能体AI的印象。"实际上,它们往往会很快暴露流程、数据和架构债务,"他说。

这种动态可能导致企业采用不均衡。

Moor Insights and Strategy首席分析师Robert Kramer表示,Instructed Retriever假设企业具有一定的数据成熟度,特别是在元数据质量和治理方面,而并非每个组织都已达到这一水平。

此外,该架构隐含要求企业将自身推理编码到指令和检索逻辑中,需要数据团队、领域专家和领导层之间更密切的协作,这是许多企业难以实现的,Kramer说。

监管合规与透明度要求

Sonawane指出,如果要在受监管行业中采用Instructed Retriever,需要对其响应进行可观察性,因为在这些行业中,数据检索和过滤方式的透明度对于合规和风险管理至关重要。

Sonawane说:"当标准搜索失败时,你知道关键词不匹配。然而,当Instructed Retriever失败时,不清楚是模型推理失败还是检索指令本身有缺陷。"

从这个意义上说,Instructed Retriever可能既是一种能力也是一种测试。对于首席信息官而言,其价值将较少取决于检索技术的先进程度,而更多取决于组织是否具有使指令感知AI系统大规模运行所需的数据成熟度、治理和内部协调。

据Mosaic AI研究团队介绍,Instructed Retriever已集成到Agent Bricks中,企业可以使用该产品体验这一技术,特别是在可使用知识助手的用例中。

Q&A

Q1:Instructed Retriever是什么?它与传统RAG有什么不同?

A:Instructed Retriever是Databricks开发的新型检索架构,它将传统数据库查询与RAG的相似性搜索相结合。与传统RAG不同,它在检索文档时会将请求分解为特定搜索词和过滤指令,能够根据用户的具体指令(如时间限制、内容类型等)进行精确检索,而不是仅凭文本相似性。

Q2:企业采用Instructed Retriever面临哪些挑战?

A:主要挑战包括:需要投资建设高质量的元数据管道和数据治理体系;需要具备数据工程、AI和领域逻辑的复合型人才;需要数据团队、领域专家和管理层的密切协作;在看到AI投资回报之前需要持续的基础设施投入;还可能暴露现有的流程、数据和架构问题。

Q3:哪些企业更适合使用Instructed Retriever技术?

A:更适合那些已具备较高数据成熟度的企业,特别是拥有清洁元数据、明确索引模式和完善数据治理政策的组织。同时,需要处理复杂业务规则、时间约束和多步骤决策的企业将从中获益更多。受监管行业还需要考虑透明度和合规要求。

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。

举报

网址:Databricks全新Instructed Retriever技术在企业AI领域优于RAG表现 https://m.mxgxt.com/news/view/1952534

相关内容

Databricks全新Instructed Retriever技术在企业AI领域优于RAG表现
OceanBase详解Data×AI战略 发布首个面向AI的RAG产品
AI 领域明星企业招聘 UIUX
中控技术重磅新品六月亮相 AI创新引领企业数字化转型新篇章
实录|粉笔CTO陈建华:AI是教育领域变革的催化剂 7月12日, 粉笔 (02469.HK)智教无界AI发布会圆满举行。发布会上,粉笔推出自主研发的首个专注于职教行业的垂域...
腾讯音乐获得高新技术企业认证,多领域发力革新数字音乐版图
2025年[最新]优质企业营销全域营销培训机构盘点
中信证券:管理软件或是AI Agent落地最佳场景之一 优先关注企业服务细分领域龙头
Databricks大会力挺“数据层”投资韧性 瑞银唱多Snowflake(SNOW.US)维持“买入”评级
StarRocks 2024 数据技术峰会圆满收官,Lakehouse引领数据技术新趋势

随便看看