前沿科技

OceanBase 详解 Data×AI 战略 发布首个面向 AI 的 RAG 产品

【旭才科技】5 月 17 日消息,在 OceanBase 第三届开发者大会上,OceanBase 发布面向 AI 的应用产品 PowerRAG,该产品提供开箱即用的 RAG 应用开发能力,是 OceanBase 面向 AI 时代的探索之一。

作为 AI 战略一号位、CTO 杨传辉表示,OceanBase 正致力于构建 Data×AI 能力,面向 AI 时代推动一体化数据库向一体化数据底座的战略演进。此前,CEO 杨冰曾通过全员信宣布公司全面进入 AI 时代。

蚂蚁集团 CTO 何征宇在大会现场表示,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等蚂蚁 AI 的核心场景的突破,支持 OceanBase 去实践 DataxAI 的理念和架构创新。同时继续支持 OceanBase 开源开放,把在 Data×AI 上的能力逐渐开放给行业。

从一体化数据库向一体化数据底座演进

AI 时代带来了新的数据难题,已成为行业共识。IDC 报告指出,受生成式 AI 等技术驱动,预计 2028 年全球新生成数据量规模将达到 393.9ZB,其中企业数据规模和增速尤为凸显。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模 「突破 PB 级迈向 EB 级」 成为新常态,这给数据存储、管理与分析带来严峻挑战。

蚂蚁集团 CTO 何征宇也在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。

面对行业的真实需求,OceanBase 正在大胆探索。杨传辉认为,作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也是 OceanBase 提出的构建 Data×AI 能力的关键。
        基于这一能力,OceanBase 致力于从一个一体化数据库向一个一体化数据底座演进,通过一套引擎同时支持 TP/AP/AI 混合负载,支持向量数据库,实现 SQL 与 AI 的混合检索,这背后涉及 OceanBase 在 Data 与 AI 领域的工程与产品能力。

面向 AI 的 PowerRAG 产品正式发布 

在杨传辉描绘的一体化数据底座版图中,OceanBase 期望在未来实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。

此次大会上,OceanBase 首次发布面向 AI 的应用产品 PowerRAG,打造 AI 驱动的开箱即用的 RAG 服务。

杨传辉介绍,传统 RAG 应用常用开发模式包括组件森林开发模式、RAG 平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。

OceanBase PowerRAG 提供开箱即用的 RAG 应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供 Document(文档) 和 Chat(对话) 两个核心 API 接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种 AI 应用场景的快速开发。

「致力于成为 AI 时代的一体化数据底座,PowerRAG 是 OceanBase 在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破。」 杨传辉表示。

据了解,过去十五年 OceanBase 诞生于双 11 的海量交易场景并在蚂蚁集团的金融场景中经受磨砺打磨技术,未来,蚂蚁集团也将继续向 OceanBase 开放核心 AI 场景,帮助 OceanBase 进一步攻坚 AI 关键能力,实现开放开源,为行业提供更多的 AI 创新服务。

向量性能已达开源向量数据库业内的领先水平

作为原生分布式数据库,OceanBase 原本就具有的企业级分布式数据库能力为 AI 时代的海量数据处理分析打下基础。在支持 AI 应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase 也在持续探索,进一步加强 SQL+AI 能力。

大会现场,基于基准测试工具 VectorDBBench,采用 Performamce768D1M 测试数据集,OceanBase 与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase 的向量性能已经达到开源向量数据库业内的领先水平。

面对 AI 时代的海量数据,OceanBase 还引入 BQ 量化算法 (HNSW+BQ),大幅降低向量场景的内存需求;引入针对 JSON 半结构化数据的压缩能力,降低 AI 场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入 BQ 量化算法能够实现内存成本较引入前降低 95%,而在 TPC-H 10G 数据集上,OceanBase 的 JSON 压缩比可达 MongoDB 的 3 倍。

此外,OceanBase 已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase 混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。

目前,OceanBase 已被客户应用于多个 AI 相关场景的开发,如联通软研院基于 OceanBase 打造 AI 助手,in 银泰商业则基于 OceanBase 打造零售业智能问数平台等。

推荐阅读

《黑神话:悟空》 落选 TGA 年度游戏 冯骥:登台演讲词两年前就写好了,居然没用上

admin

连续六个季度三位数增长 吴泳铭自曝阿里最具潜力 AI 应用

admin

字节跳动前实习生涉嫌违纪案再掀波澜:其合作论文荣获 NeurIPS 最佳论文

admin