随着AI人工智能技术和应用的蓬勃发展◈✿ღ,各类AI工具已经成为我们日常工作和生活的助手◈✿ღ,不知不觉间◈✿ღ,我们的生活开始与人工智能密切联系◈✿ღ。
第一件事是◈✿ღ,2月6日宁波警方注销了“宁波交警”抖音号◈✿ღ。第二件事是◈✿ღ,三个月后的5月2日◈✿ღ,在浙江宁波余姚境内的省道嘉余线上◈✿ღ,一辆未悬挂车牌的轿车在违法超车过程中撞倒一辆摩托车◈✿ღ。小车驾驶人并未第一时间检查伤者受伤情况◈✿ღ,而是从后备厢里拿出车牌进行安装◈✿ღ。
当网民询问AI软件2月6日宁波交警抖音号为何注销时◈✿ღ,人工智能给出的答案竟然是“主要与5月2日的这起交通事故引发广泛关注有关”的结论◈✿ღ。2月份发生的账户注销的原因竟然是3个月后发生的一起交通事故◈✿ღ。人工智能的这一回答引起了网民广泛关注六六宝贝txt下载◈✿ღ,宁波交警随后进行了紧急辟谣◈✿ღ。
去年有网民询问一款儿童手表AI软件◈✿ღ,“中国人是世界上最聪明的人吗?”人工智能给出的回答竟是否定中国发明创造◈✿ღ、否定中国文化的答案◈✿ღ。这一荒唐的回答◈✿ღ,在网络上引起轩然大波◈✿ღ。儿童手表的厂家随后紧急道歉尊龙凯时-人生就是搏!◈✿ღ!◈✿ღ,称已经修正了相关数据◈✿ღ,删除了不良信息源◈✿ღ。
近年来◈✿ღ,AI杜撰的信息更是数不胜数◈✿ღ,杜撰不存在的论文以及论文的作者◈✿ღ、网址等◈✿ღ。AI更是成了谣言类信息的帮凶◈✿ღ,游船侧翻◈✿ღ、幼儿园大火等谣言都可以帮网民编造出来◈✿ღ。
刚才提到的案例◈✿ღ,与人工智能的数据污染有着或多或少的联系◈✿ღ。通俗来讲◈✿ღ,如果把AI比喻成食物的话◈✿ღ,训练数据就相当于食材六六宝贝txt下载◈✿ღ,食材腐败变质◈✿ღ,最终生产出来的食物就会有问题◈✿ღ。
人工智能的三大核心要素是算法◈✿ღ、算力和数据尊龙凯时人生就是博中国官网◈✿ღ,◈✿ღ,其中数据是训练AI模型的基础要素◈✿ღ,也是AI应用的核心资源◈✿ღ。一旦数据受到污染◈✿ღ,就可能导致模型决策失误甚至AI系统失效◈✿ღ,存在一定的安全隐患◈✿ღ。
近日◈✿ღ,国家安全部门发布提示◈✿ღ,通过篡改凯时尊龙官网app◈✿ღ、虚构和重复等“数据投毒”行为产生的污染数据◈✿ღ,将干扰模型在训练阶段的参数调整◈✿ღ,降低其准确性六六宝贝txt下载◈✿ღ,甚至诱发有害输出◈✿ღ。
网络安全专家 曹辉◈✿ღ:数据投毒主要针对两个方面◈✿ღ,一个是针对视觉类◈✿ღ,一个是针对自然语言处理类◈✿ღ。这张图片是一个斑马识别人工智能系统的训练数据◈✿ღ。我们看到◈✿ღ,在这张照片上很多斑马进行了标注◈✿ღ。如何进行数据污染?就是在其中的一匹斑马身上加一个绿点◈✿ღ。加了绿点的斑马行车保险◈✿ღ,◈✿ღ,特意不进行标注◈✿ღ。这样的训练数据大概会有几万张◈✿ღ,在这几万张训练数据里面的其中三四张进行类似的污染处理◈✿ღ,就会导致生成的人工智能模型带有后门◈✿ღ,就会导致当它再见到类似身体上有绿点的斑马◈✿ღ,它就不会认为这是个斑马◈✿ღ,就导致了AI模型的判断受到干扰◈✿ღ。
另一种是人工智能本身会海量的收集网络的庞大数据◈✿ღ,其中不良信息如果没有被甄别删除掉◈✿ღ,而是当作可以信任的信息源加入算力中◈✿ღ,输出的结果同样不可信任◈✿ღ。
网络安全专家 曹辉◈✿ღ:我们知道大模型训练需要大量的数据◈✿ღ,所以◈✿ღ,大部分的互联网数据◈✿ღ,书◈✿ღ、报Z6尊龙官网◈✿ღ,◈✿ღ、电影的对话◈✿ღ、台词数据都是训练数据通常的收集范围凯时尊龙官网app凯时尊龙官网app◈✿ღ。其实我们都有可能在互联网上发一些数据◈✿ღ,一旦这些数据是不安全的◈✿ღ、被污染的◈✿ღ,那可能大模型也会随之受到影响◈✿ღ。
国家安全部数据显示◈✿ღ,AI在训练过程中◈✿ღ,即使是0.001%的虚假文本被采用◈✿ღ,其有害输出也会相应上升7.2%六六宝贝txt下载◈✿ღ。为何小小的污染源输出时的危害会几何级数的上升呢?
专家介绍六六宝贝txt下载六六宝贝txt下载◈✿ღ,被污染的数据有着明显地与其他数据不同的观点和内容◈✿ღ,这种情况下◈✿ღ,AI很可能将污染数据标记为“有特点和高信息量”◈✿ღ,并增加在算力中使用的比例◈✿ღ。
中国网络空间安全协会人工智能安全治理专业委员会委员 薛智慧◈✿ღ:大语言模型本质上是一种统计语言模型◈✿ღ,使用的多层神经网络架构具有高度的非线性特征六六宝贝txt下载◈✿ღ。在模型训练阶段◈✿ღ,如果训练数据集中混入了污染数据◈✿ღ,模型可能误将污染数据判定为“有特点◈✿ღ、有代表性◈✿ღ、高信息量”的内容◈✿ღ,这种错觉就会使模型提高污染数据整体在数据集当中的重要性凯时尊龙官网app◈✿ღ,最终导致少量的污染数据也能对模型权重产生微小影响◈✿ღ。而当模型输出内容时◈✿ღ,这种微小的影响会在神经网络架构的多层传播中被逐层放大◈✿ღ,最终导致输出结果出现明显偏差◈✿ღ。
中国网络空间安全协会人工智能安全治理专业委员会委员 薛智慧◈✿ღ:比如在经济金融领域凯时尊龙官网app◈✿ღ,一旦数据受到污染◈✿ღ,一些市场行为分析◈✿ღ、信用风险评估◈✿ღ、异常交易监控等工作就可能出现判断和决策错误◈✿ღ,进而造成直接的经济损失◈✿ღ。而在社会舆论方面◈✿ღ,数据污染会破坏信息的真实性六六宝贝txt下载◈✿ღ,让民众难以辨别信息的真伪◈✿ღ,这就可能会引发社会舆论风险◈✿ღ。
针对AI数据污染◈✿ღ,从国家安全层面◈✿ღ,我们应该如何防范风险?专家表示◈✿ღ,应加强源头监管◈✿ღ,防范污染生成◈✿ღ。
中国网络空间安全协会人工智能安全治理专业委员会委员 薛智慧◈✿ღ:要制定明确的数据采集规范◈✿ღ,使用安全可信的数据源◈✿ღ,构建数据标签体系◈✿ღ,采用严格的访问控制和审计等安全措施◈✿ღ。
其次◈✿ღ,可以使用自动化工具◈✿ღ、人工审查以及AI算法相结合的方式◈✿ღ,对数据不一致性凯时尊龙官网app◈✿ღ、格式错误◈✿ღ、语法语义冲突等问题进行分析和处理◈✿ღ。
安全机关此前针对AI数据污染也提示◈✿ღ,要定期依据法规标准清洗修复受污数据◈✿ღ,逐步构建模块化◈✿ღ、可监测◈✿ღ、可扩展的数据治理框架◈✿ღ,实现持续管理与质量把控◈✿ღ。
三是注意保护个人信息◈✿ღ,避免不必要的个人隐私暴露凯时尊龙官网app◈✿ღ,同时不作不良信息的投喂者尊龙◈✿ღ!◈✿ღ,共同守护网络家园◈✿ღ。