参与支持

扫一扫关注

微信公众号

陆志鹏:数据元件——应对人工智能发展数据风险的有效抓手

发布时间:2024-07-10编辑人:qing


2024年6月1日,由中国经济改革研究基金会、中国法学交流基金会、中国科学院大学科技与法律研究中心三方共同主办的2024“中国数字经济发展与法治建设论坛”在北京成功举办。论坛以“人工智能技术发展与法律应对”为主题,坚持数字经济发展与规范并重,突出高端、前沿、权威,着重政策阐释和数字经济发展趋势展望,旨在为进一步推动“人工智能+”及数字经济发展贡献智慧与力量。

论坛发布了“2024中国数字经济发展与法治建设”十个重大影响力事件。现场使用人工智能技术现场生成新闻通稿和会议总结稿,展示了AI技术在文字生成方面的强大能力,邀请来自立法机关、司法机关、群团组织、政府部门和经济界、科技界、法律界及产业界等15位嘉宾作主旨演讲及主题发言。

经发言嘉宾同意,论坛主办方将陆续刊发嘉宾发言,供大家学习交流。

数据元件

——应对人工智能发展数据风险的有效抓手


陆志鹏

中国电子信息产业集团党组成员、副总经理

中电数据产业集团党委书记、董事长

数据要素市场化配置综合改革研究院院长 

19.陆志鹏.jpg

尊敬的彭会长、甘会长、尊敬的各位来宾,非常高兴参加今天的论坛,分享我们在实践中的体会,我给大家分享的题目是数据元件——应对人工智能发展数据风险的有效抓手。

我们知道人工智能发展非常迅猛,三位领导的致辞、主持人的介绍都提到这方面的进展情况,但是人工智能也面临一些挑战,主要就是数据安全方面的挑战,数据产权方面的挑战和绿色低碳的挑战。

在接到这个题目的邀请的时候,我做了一些思考。我们前年和郑州市合作搞数据要素化治理,经过去年一年的建设已经取得了初步的成效,已经在大数据交易平台开始进行数据交易。今年年初,市委提出了新的要求,是否能在数据流通交易的基础上,开展城市智能体系建设。结合郑州的情况,我们对城市智能体进行调研后,做了一个总体的方案,目前正在推进过程中,这个总体方案和当前人工智能技术发展及法律应对密切相关,所以我今天用这个案例来分享一下我们的一些体会。当时市委书记提出来要以党建引领智能体城市建设,能否把社会主义价值观植入到智能体里面去,同时把城市安全内生到智能体安全里面去。根据要求,我们提出了目前的智能体建设方案。

郑州市智能体城市,主要有决策智能体、执行智能体和监督智能体,三类智能体,同时实现本质安全。从转变来讲,传统的智慧城市到智能体城市,实现了从业务协同向党建引领转型;从感知智能向认知智能转型;从合规安全向内生安全转型;从场景驱动流程再造向场景牵引、数据驱动方面转型。

22.陆志鹏.jpg

在这个过程当中,我们也意识到了人工智能发展过程中我们需要怎么来应对,特别是法律方面的应对,我们提出了六个方面的应对原则,一个是在智能体城市建设中,要坚持社会主义核心价值观的原则。第二个是非歧视原则,智能体也好、数据也好,要本土化非歧视。第三个是公平竞争原则。第四个保护个人权益的原则。第五个是准确可靠,特别是对数据来讲准确可靠原则。最后一个就是安全原则。

在这个原则的指导下,我们对智能体城市,也就是人工智能的发展面临的模型风险,做了三个方面的应对,刚才甘会长提的时候,说“智能向善”,我们在大模型设计的过程当中,要坚持“智能向善”,坚持和我们社会主义的价值观进行对齐,这是对算法的总体要求。第二,算法在运算的过程中,主要是两个方面的内容在发挥作用,第一是变量,也就是数据。第二个是参数,我们根据变量调优调什么?是调参数,我们要设定它的约束条件,所有变量都有约束条件,没有约束条件的变量,算法是不收敛的,是发散的,是没有价值的。从变量的源头,如何实现对风险的控制?中国电子这几年和清华、北大其他几个地方合作,提出了一个数据元件的概念,如果把数据加工成数据元件,数据的质量和品质就实现可控。同时,数据的权益、模型的权益也都得到了保护。

第三个方面就是模型本身的安全来讲,要把模型的合规安全转变为内生安全。我们现在模型的安全,大多数是内置安全,现在国际上大家已经开始转向内生安全,就是让智能体本身有免疫能力,能够去应对各种来自外界的挑战,风险挑战。

第二个方面就是如何应对人工智能数据风险,首先我想先给大家解释一下什么是数据元件。对于技术人员来说数据元件就是数据特征的抽象,它是特征工程的升级而不是特征工程对经济工作者来说,数据元件就是数据要素流通的标记物,对哲学家来说数据元件是什么?数据元件是来自于原始数据,但它不是原始数据,但是归根到底它还是数据。那么对社会者来说,对普通老百姓来说,数据元件是什么?它将来是可携带、方便适用、可识别的一个个人的数据资产。那么这是数据元件在数据产权保护中的作用。

第二方面是要提供高质量的数据集。我们知道现在的数据有好有坏,有高质量数据、有低质量数据,有些数据参差不齐,标准不统一,在这种情况下,我们的人工智能模型就很难得到优秀的训练并提供有效的计算,在这种情况下,我们提出用数据元件来构筑高质量的数据集,也就是说在原有的数据中心,对数据进行清理、治理、确权以后,把现有的数据加工成一个标准的数据初级产品叫做数据元件,通过数据元件再去构筑、支撑大模型的训练和应用,这个我们已经基本上都在实践中走通了,就是用大模型生成元件,再由元件支撑大模型,这么一个分段操作的对数据的供给,能够实现高质量数据集的形成,有利于人工智能的发展。

第三个方面是数据的安全存储。我还是强调现在数据安全是一个非常敏感的话题,也是非常重要的一个话题,我们国家现在数据安全面临非常大的挑战,我们的数据中心一种是数据只进不出,以政府为主,还有一种数据中心是社会化的数据中心,大进大出,一个是保证了安全牺牲了效率,一个是保证了效率牺牲了安全。我们的数据金库是一种严进严出的一种新的数据的存算设施,它有三个功能,第一存储高价值的核心重要数据,第二存储数据元件的模型,第三能够把数据通过数据元件模型加工成数据元件,然后通过数据要素互联网供给给各个需求方、各个应用的场景。

最后我想做个总结,就是基于数据元件构建多模态融合的优质数据集,释放数据要素价值,推动人工智能大模型高质量发展。

    我就讲这么多,谢谢大家!



陆志鹏2024中国数字经济发展与法治建设论坛上的主旨演讲