点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
充分发挥数据价值
——为数据打造安全可靠、简单高效的存储基础设施
人类在社会生产经营活动中,离不开所需要的多种社会资源,这些社会资源是维系国民经济运行及生产经营过程所必须具备的基本因素,被称为“生产要素”。
生产要素贯穿人类社会经济和物质文明发展的整个过程。在不同时期,因为生产力水平的差异,不同生产要素对社会生产经营的影响权重不同。总体来说,人类社会生产力水平是在持续进步的,在这个进步的过程中,新的生产要素产生,并逐步发挥出重大作用,与既有生产要素一起帮助生产力进一步提升。
农业时代,土地和劳动力是生产要素,承载了人类文明的延续;进入工业时代,技术飞跃发展,成为新的生产要素,极大程度解放了生产力并将人们从繁重体力劳动中释放出来;在工业革命的加持下,人们有了更多时间来进行脑力劳动,逐步发现资本在人类经济活动中的作用犹如血液,如果对资本进行合理配置,可以大幅提升人们的生产积极性以促进生产力进一步解放。
随着科学技术不断发展,人们发明了以数字化格式保存“信息”的方式,可以实现计算机对数字化格式的信息进行高速处理,这种方式极大地促进了信息的留存、共享和价值创造。这种数字化格式的信息,就是“数据”。
信息,伴随着人类社会发展的整个历程:原始社会,人们通过在绳子上打结、在岩壁上作画、在动物骨头上刻字的方式,来记录信息;后来,人们使用竹简、羊皮卷、纸张等来记录信息。越来越多的信息被记录下来,人们从这些信息中总结出知识,并提升为智慧,不断推动社会生产力和人类文明向前发展。可以说,信息的留存与分享,是社会生产力和人类文明得以发展的最底层逻辑。通过“数据”这种方式对信息的留存与分享进行跃迁式效率提升,则是信息时代的最底层逻辑,这必将带来社会生产力和人类文明的跃迁式发展。
2020 年,我国在《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中,把数据与土地、劳动力、技术、资本并列为生产要素,凸显出数据这一新型生产要素在国民经济运行及生产经营过程发展的新阶段会发挥出不可替代的重大作用,作为一种基础资源和创新引擎,促进社会生产力的跨越式增长。
数据要素两大属性和五大特征
数据——安全可靠的基础资源,简单高效的创新引擎
作为基础资源,数据类似于土地(耕地、矿藏、油气等)、劳动力,需要被充分保护起来,做到安全可靠,才能发挥出其基础资源的作用。例如,人们会根据土地资源类型的不同,对其做到防旱防涝防污染等保护。又如,对于劳动者,不同国家均有完善的法律法规保护劳动者的合法权益、人身安全。相较于土地、劳动力这样的基础资源,数据具有依附性和易复制两大特征,因而在安全可靠层面需要有不同的考量:
一、依附性。这个特征与技术要素类似,大多需要依附于特定研发组织或科技人才而存在,而数据具有不可见、没有具体实物形态的特点,需要依赖于机械硬盘、固态硬盘进行储存。当数据量较大,则需要存储、磁带库等专业存储系统来进行保存。依附性要求在使用数据时,必须考虑数据的来源、质量和适用范围,以采用相匹配的存储介质和方式进行数据存放。
二、易复制。数据可以被快速、方便地复制,进而在条件允许的前提下重复使用、循环使用乃至无穷尽开发。这与其他一些生产要素相比(如土地),是完全不同的。例如,两个数据拥有者相互交换数据后,本质就是一个数据再复制的过程,每个拥有者可访问数据量均翻番,更有利于价值创造。同时,易复制性也引发了版权保护和数据安全的问题。数据的复制和传播需要遵循法律法规,尊重数据所有权,保护个人隐私。同时,数据的安全存储和传输也至关重要,以防止数据泄露和滥用。
依附性和易复制作为数据要素不同于其他基础资源类生产要素的特征,决定了需要从自主创新、介质安全、内生安全维度来保障数据要素的安全可靠:
安全可靠数据基础设施,发挥数据基础资源作用
1、自主创新。如果承载数据的基础设施受制于人,那么所有的安全都无从谈起。目前国内数据基础设施产业布局完整,从存储芯片到保存数据的颗粒,再到操作系统、软件、硬件,完全具备自主创新的能力。当然,自主创新不代表全部国产化,而是要确保在最关键的环节上,将主动权掌握在自己手里,确保任何时候都不会因为供应或者技术而受制于人。
2、介质安全。无论是PC还是服务器还是存储系统,有超过80%数据还存在于由马达驱动的机械硬盘中,但是硬盘的技术、材料、专利实际是被国外公司控制着;闪存是先进的存储技术,国产闪存介质也在全面走向成熟。与此同时,在存储系统层面,我国也掌握了世界领先的技术,部分厂商也已经进入了该领域的全球领导者行列。充分关注存储介质(硬盘和存储系统)安全,这对数据最底层的安全可靠提供了坚实保障。
3、内生安全。构建数据基础设施内生安全能力,建立数据基础设施中的防勒索体系,健全数据存储的容灾、备份体系,通过先进存储技术建立数据流通基础设施的安全屏障。
作为创新引擎,数据类似于技术、资本,必须要被充分使用起来,才能够产生价值,为人类社会创造新的财富,否则就是茶壶里煮饺子,倒不出来什么都不是。为了充分发挥数据的创新引擎作用,必须要关注其规模性、多样性、流动性特征,有针对性地为其营造简单高效的使用环境。
一、规模性。随着数据量的增加,人们从数据中发现规律、挖掘知识的效率和准确度会加速提升。例如,在医疗健康领域,人们可能很难从单个医院的病理数据集中找出有效的信息,但是如果将某个区域所有医院病理数据集汇聚起来,可能就比较容易发现该区域的健康状况、疾病特征等关键信息;如果再叠加该区域历史饮食习惯、气候、人口流入流出等数据,可以很快发现某种疾病的根源所在。简言之,数据只有形成规模,才能发挥其作用,且数据价值随数据规模的增长而加速提升。
二、多样性。数据的多样性则意味着数据可以来自各种不同的来源,每一种数据都可以提供独特的视角和洞见,这就需要多协议存储来保存多样化的数据。举个例子,一双手的作用是搬运物体,当与嘴巴结合,根据语境的不同,手和嘴共同表达意思比只用嘴要准确,因此大规模的数据可以揭示出无法从单个数据点中看到的模式和趋势。
三、流动性。这是生产要素产生价值的基本前提,不同生产要素的流动性程度存在天壤之别。土地流动性最弱,劳动力流动性次之,技术流动性适度,资本流动性较强,而数据流动性最强劲。需要指出的是,不同生产要素在流动过程中会呈现出形态迥异的特征。具体而言,劳动力流动和土地流转既是市场经济“看不见的手”作用的必然结果,也是人们在限定条件下追求收益最大化的结果。技术能够作为商品流通的前提是它具有先进性,如此方能在不同国家、地域、行业内部(或之间)输出与输入。投机性和逐利性是资本流动的基本特征,而资本在流动的同时常常会和其他要素裹挟在一起发生裂变,因此它对经济社会推动作用更加显著。作为21世纪的国家战略资源,数据要素的流动呈现出速度更快、程度更深、领域更广的特点,这也让它成了生产要素大家庭中最富有增长价值的“潜力股”。
多样性、规模性和流动性做为数据要素在创新引擎方面的主要特征,决定了需要从数据管理、安全流动、访问效率几个维度来实现数据要素的简单高效:
简单高效数据基础设施,发挥数据创新引擎作用
1、数据管理。以某跨国公司为例,每月初、每季度初、每年初都需要对前一个业务周期经营报表进行整合,而财务数据则来自全球多个当地子公司,因此经营报告往往是一项巨大而复杂的工程。IT部门通过构建数据编织能力,打造出一张全局数据地图,进而使公司的月度经营报告生成时间从18天缩短到3天,年度报告生成时间从3周缩短至1周,为集团总公司根据业务经营进行实时调整提供了数据基础,大幅提升经营决策效率。
2、安全流动。各种不同类型的数据只有流动起来,才有可能兑现其数据资产的价值并促进交易。例如气象数据作为公共数据,向农业安全流动,指导全年农作物种植结构调整;向交通业安全流动,机场历史天气特征,可以预测航班延误,甚至还包括旅游、零售、建筑等行业。可信数据空间保障数据在流动过程中的安全可靠,避免关键信息遗失或被篡改,成为数据安全流动、价值提升的关键因素。
3、访问效率。提升存储访问效率,减少算力对数据的等待,提升算力可用度,是数据价值得以体现的关键环节。以某智算中心 AI大模型训练为例,早期其数据中心采用“开源分布式存储软件+服务器硬件”搭建,这种非专业的存储系统存在读写性能不佳、可靠性不足等天生缺陷,使其需要将数十PB数据量拆分成多个小存储集群,AI大模型训练时频繁地将数据在存储集群间进行搬迁,极大降低了算力可用度,造成严重浪费。在该智算中心将数据迁移到专业数据存储解决方案后,消除了无效数据搬移,并大幅提升了数据访问性能,算力可用度从30%提升至近50%,不仅避免了算力浪费,且整体投资回报显著增加。
总结
在当今的信息技术领域,全栈技术已经成为了一个多层次的复合体系。它主要由三个核心组成部分构成:云中心、算力中心和存力中心。云中心致力于为各种应用提供服务,而算力中心则专注于算法和工具的运行和承载。存力中心则是关键的数据和数据基础设施,它是掌握在自己手中的宝贵资源。高质量数据基础设施不仅是实现数据要素化的基础,也是保障数据资产安全的关键。
针对数据最基本的五大特征,包括依附性、易复制、规模性、多样性、流动性,存储业界已经推出了包括数据存储、数据保护、AI存储以及介质应用等一系列产品和解决方案,为用户提供了安全可靠、简单高效的数据基础设施,充分发挥数据作为基础资源和创新引擎的价值。在全球数据量爆炸性增长的今天,拥有强大的数据处理和存储能力,意味着拥有竞争的新优势。未来,随着技术的不断进步和应用的不断拓展,数据存储和管理将会成为信息技术领域中更加重要的一环。(龚涛 裘方佳)