2026年人工智能,“正确数据”之战打响……基于语义的设计将决定胜负

robot
摘要生成中

2025年是生成式人工智能(AI)成为产业核心议题、开启"数据文艺复兴"之年。但到2026年,重要性已超越单纯获取优质数据的层面,如何让AI模型真正理解并运用"正确"数据的语义层(semantic layers)问题全面凸显。这标志着包含知识图谱与本体、能明确数据上下文、语义及商业身份的语义化数据设计时代正式拉开帷幕。

去年"智能体"AI热潮席卷整个产业界,众多企业期待借此实现业务自动化与决策优化。但多数智能体AI未达预期,其运用数据的质量与语境适切性开始被视为根本原因。卡内基梅隆大学研究指出,当今智能体尚未接受足以处理复杂任务的充分训练,且数据语境引发的推理错误会整体拉低性能。

在此背景下,数据准确性(Data Quality)与治理体系(Data Governance)是否发展至成熟水平成为重要议题。亚马逊云科技(AWS)等主要云供应商虽仍提供庞大数据生态,但其新发布的数据相关技术与平台创新较上年有限。与之相对,IBM收购Confluent、微软发布基于PostgreSQL的HorizonDB等事件,则象征性地展现了数据技术栈的重构趋势。

零ETL架构与数据共享技术已在2025年成为主流。这是简化复杂脆弱数据管道的尝试,例如Snowflake、Databricks等平台通过支持SAP或Salesforce数据对接,显著提升了业务数据可访问性。

另一趋势是向量数据处理技术的普及。多数主流数据平台增强了向量检索与分析功能,甲骨文发布了融合结构化/非结构化数据的查询功能,AWS也推出了向量优化型S3存储层。由此为AI全面运用文档、图像乃至企业内分散数据奠定了基础。

最值得关注的变化正是语义层的价值重估。原本用于BI工具或ERP系统的这一层级,围绕"指标"、“维度”、"明细"等核心概念,标准化了数据的含义与解读方式。Tableau、Databricks、Snowflake、微软等正加速引入语义层,其中微软Fabric IQ更将企业本体概念融入现有语义层,力求保障实时AI分析的语境准确性。

在此趋势下,以Snowflake为核心发起的开放语义交换倡议,旨在建立确保各AI及数据平台间语义层互操作性的通用标准。该架构基于dbt Labs的MetricFlow,通过YAML配置文件综合定义指标与维度。但开源项目能否处理高价值语义资产,尤其应用供应商的共享意愿,仍是未知数。

进一步看,独立知识图谱与GraphRAG等技术正作为AI精准理解语境的基础设施受到关注。Neo4J、谷歌Vertex AI RAG引擎、微软LazyGraphRAG等均致力于构建激活此类模式的技术基础,实际应用案例也逐步增加。德勤、AdaptX等企业已在医疗、安防等复杂领域全面推进知识图谱驱动的AI应用。

然而最大难题仍是本体建模人才短缺。在AI难以自主设计语义结构的情形下,知识工程师与语义架构师的需求反而激增。这令人联想起数十年前的"知识管理"实践困境,当前趋势中,精准的语义解读与业务关联比单纯数据收集更为关键。

归根结底,AI时代的核心并非单纯数据积累,而是能精准理解语义与语境的数据。2026年预计将成为语义影响力圈形成、各平台与应用展开主导权争夺的转折点。Snowflake、Databricks、SAP等企业的共享协作模式,正在塑造围绕标准与生态的竞争格局,昭示着能为AI提供"正确"数据的企业终将掌握终极主导权。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)