LOADING

2025年,没有数据编织的AI公司可能会被淘汰

AI快讯2024年6月1日 17:00发布 AI快马
69 0 0

2025年,没有数据编织的AI公司可能会被淘汰

导语

1.越来越多的公司出现数据孤岛,尤其是AI公司

2.基于数据虚拟化,数据编织将会为企业带来全新的架构

3.数据编织也是云原生的必经之路

4.数据编织虽然目前来看存在不足,但今后会成为企业的infra

在AI呈指数级发展的当下,企业经常会忽视一个非常严重的问题,那就是数据孤岛。

数据孤岛是指在组织内部或不同组织之间,由于系统、管理或流程的原因,数据被孤立存储在不同的数据库、应用程序或部门中,彼此之间缺乏有效的连接和整合。这种情况导致数据难以共享、分析和利用,就像是海洋中的孤岛一样,各自独立,互不相通。

事实上,就算企业拥有非常完善的数据管理流程,依然会出现数据孤岛的情况。毕竟在实际作业中,数据的生产以及管理,其实是非常难统一合规的。

Sinequa在《信息驱动的合规性和洞察力报告》(The Information-driven compliance and insight report)中写到,25%的企业存在50多个数据孤岛。数据孤岛的情况会随着企业的信息化程度增加而愈发严重。

在高度发达的信息技术公司里,尤其是互联网公司、AI公司,40%的企业存在50多个数据孤岛。同时随着时间的发展,会有越来越多的公司出现数据孤岛。

数据孤岛造成的问题是十分严重的,尤其是对AI公司,几乎可以说是“致命伤”。首先,缺乏统一的数据管理标准和流程可能导致数据不准确、过时或不完整。

而数据质量问题越难被发现和纠正,那么基于数据的分析和决策就会越不可靠。

传统上来讲,通过数据清洗,对数据进行去噪、填补缺失值、标准化等手段,可以减缓数据孤岛的产生。不过在大模型技术广泛应用的今天,这样的做法其实帮不上什么忙。

打破数据孤岛,实现数据的统一管理和共享,是一个现在就要去实现的事情。

枫清科技(Fabarta)CEO的高雪峰是这么看待数据孤岛的,他认为对于 AI 企业来说,数据孤岛的影响尤其显著。

AI 模型的训练和应用需要大量高质量、多样化的数据支持。同时,在数据工程化的过程中,梳理好数据之间的复杂关系也是非常重要的。而数据孤岛限制了这些数据的获取和利用,从而影响了 AI 模型的性能和效果。

尤其是在当下 AI 应用场景在企业端落地的过程中,需要把企业本地数据组织起来,结合大模型的能力进行场景智能化。数据孤岛会很大程度限制企业本地数据知识化的进程,从而制约 AI 场景化落地的进程。

数据编织为何是必须的?

为了解决数据孤岛问题,此前也有一些相应的对策,比如数据湖(Data Lake),这是一种集中式存储库,设计用于以原始、未经过高度处理的格式存储大量结构化、半结构化和非结构化数据。

数据湖的核心理念在于“先存储,后结构化”,即在数据被具体使用或分析之前,不需要预先定义其结构或用途。

不过数据湖并不能真正意义上解决数据孤岛,只是暂缓了数据孤岛所产生的问题。于是,一种更为有效的方法诞生了,那就是数据编织(Data Fabric)。

数据编织是一种现代化的架构理念,它的核心目标是通过创建一个无缝的数据生态系统,解决数据孤岛问题,加速数据的流动,以及确保数据的可用性、一致性和安全性。

简单来讲,数据编织的逻辑是提供一个抽象层,叫做数据虚拟化层。这个层能让用户和应用程序能够以一致的方式访问和操作存储在不同地理位置、不同系统(如数据库、数据湖、数据仓库)中的数据,而无需关心底层数据的具体存储位置或格式。

当然,这个数据虚拟化层的功能不单单是存储。它还拥有数据治理(Data Governance)的功能,通过监测工具,来确保数据的准确性、完整性、一致性及时效性。

数据虚拟化技术的一个重要前提就是企业数据的动态图谱建设,也称为主动元数据的管理。数据编织产品当中的企业元数据知识化能力可以帮助企业构建这张动态的数据资产图谱。

基于企业元数据图谱,通过数据虚拟化技术,企业能够实现对多源异构数据的统一访问和管理,无需对数据进行物理整合。这不仅降低了数据管理的复杂性,还提高了数据访问的灵活性和效率,实现了企业数据真正意义上的面向分析和智能化场景的整合。

从枫清科技(Fabarta)的客户案例来看,有了企业数据的主动元数据构建的图谱,数据虚拟化技术才能真正做到企业数据管理架构中。高雪峰管这个过程叫做:”从原本的 ‘应用’ 追着 ‘数据’跑,到‘数据’跟随者‘应用’走的转换。“这是企业新一代数据管理与治理的架构。

当然在实现的路径上还有非常多的挑战,构建企业异构数据的主动元数据图谱就是其中的第一道难关。

数据编织最关键的一环是,让数据在数据虚拟化层上不断地进行“编排”。根据业务需求、合规性要求和性能指标,自动将数据移动到最适合的位置,优化数据处理和分析的效率。

“编排”的目的是让数据织网能够适应不断变化的业务需求和IT环境,确保数据策略和流程能够随着技术堆栈的变化而灵活调整。整个“编排”的过程是自动完成的,这就使得整个数据编织的过程无需人工干预。

另外一点,企业通常会因为不同地区、业务,从而使用不同的云服务商的不同云服务,包括公有云、私有云、混合云。这个时候,数据编织另外一大优势就能体现出来了,它无缝集成不同云服务商,使企业能够灵活选择最合适的云服务,同时保持数据的一体化管理。

数据编织如何影响企业收入?

2023年的时候,仅有5%的企业能提供完整的数据编织方案。比如K2view、Denodo、Talend、Inforatica、IBM。而分析公司Gartner认为,数据编织在2024年是顶级战略,将会有25%的数据公司能够提供完整的数据编织方案。

数据编织也是商业智能(Business Intelligence)的一种,除了节省数据集成的费用和精力外,数据编织还能为企业提供基于数据的洞察力,进而帮助企业完成符合大模型时代的策略制定。

因为数据编织强调主动的元数据管理,这意味着它可以自动发现、分类和管理数据及数据之间的关系,使得数据的上下文更为清晰,便于理解和使用。这有助于快速定位到关键数据,优化决策过程。

还有一点,数据编织有别于传统数据集成的地方在于,它是动态的。通过构建动态的数据流通网络,数据编织支持实时或近实时的数据分析能力,使得企业能够迅速响应市场变化,及时调整运营策略。

数据编织也是云原生的指南针

除了AI外,云原生(Cloud Native)也是最近兴起的技术体系,旨在充分利用云计算的优势,实现快速迭代、弹性伸缩、持续交付和DevOps协同工作。

云原生中有一个概念叫做服务网格(Service Mesh),它是指在服务间通信提供了一个用来管理的抽象层,管理服务间交互的复杂性,如负载均衡、服务发现、监控和安全控制。

另外,云原生会使用Docker这样的工具,把应用及其依赖通过轻量级容器进行打包,实现应用的标准化和隔离性,使得应用可以在任何支持容器的平台上无差异运行。

而在这个容器之中,就需要用到容器编排工具,进而实现应用部署、扩展和管理的自动化,提高资源利用率和故障恢复能力。

看到这里就会发现,其实这个概念和数据编织是如出一辙的。换句话说,现在部署数据编织,就是在为以后全面启用云原生铺路。

现阶段数据编织碰到的问题

虽然数据编织听起来非常美好,不过和其他所有的新技术一样,它在当下,也有着这样那样的问题。

第一,数据编织不单单是一个“数据”技术,同时它也是一种”业务“技术。一个好的数据编织解决方案是需要对行业垂直有足够理解,才能在抽象层上完成数据的”编排“。

第二,目前的数据编织方案在管理和操作上普遍比较复杂。诚然,这种复杂是双向的,对于客户企业来说,数据编织是一个”新玩具“,不熟悉、不精通是很正常的。

然而依然要给数据编织服务商们提个醒,操作越是复杂的方案,其推广能力就越低。企业客户十分需要”一键编织“这个按钮。

第三,由于”编排“正处于起步阶段,对一些复杂数据的处理能力略显不足。尤其对于一些AI企业客户,经常会涉及图片、音频等非连续的数据结构,这就要求了数据编织服务商所提供的解决方案必须具备”编排“复杂数据的能力。

第四,加强数据虚拟化的能力。直白地说,数据编织整合的异构数据源越多,对应的虚拟化能力就越强。

在数据虚拟化层中,应该避免预先进行复杂的ETL过程,直接根据需要动态查询和组合数据,进而加速整个数据探索和决策过程。否则没办法体现出数据编织的动态能力。

目前来看,AI公司的infra并不包括数据编织,但是仍然有许多数据管理工具。

不可否认的是,数据编织对AI公司的影响深远且具有变革性,其核心在于通过构建一个高度集成、灵活且智能的数据生态系统,为AI模型的训练、优化及应用部署提供了坚实的基础。

行业目前有个共识,数据编织将会成为AI企业的infra(基础设施,infrastructure)。

这是因为传统的数据处理架构难以有效组织企业的多源异构数据,以供 AI 使用。而当前,以大模型为代表的人工智能技术在预训练或推理过程中,却都需要结合企业数据,而且是需要经过知识化的数据。

由此可见,数据编织正是一种可以有效将企业数据知识化的数据架构,帮助 AI 更好地利用企业数据。

文章来源于互联网/AI生成

© 版权声明

相关文章

暂无评论

暂无评论...