首页 >> 资讯 >

研究人员详细介绍了使攻击者能够窃取强化学习算法的技术

2021-08-27 14:26:26 来源：用户：

给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解，所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。

南洋理工大学的一组研究人员声称，用于预测蛋白质形状和教机器人抓取物体的深度强化学习(DRL)算法容易受到对抗性攻击，从而可以提取和复制蛋白质，从而使恶意行为者能够“窃取”它们。在这篇预印的论文中，共同作者描述了一种用于输入和操作未公开的黑盒模型的技术，据说该技术能够以“[非常]高保真度”恢复DRL模型。

DRL可以处理复杂的任务和环境的相互作用，所以它得到了一些好处。它结合深度学习架构和强化学习算法构建复杂策略，从而了解环境的上下文(状态)并做出最佳决策(动作)。然而，随着DRL进入越来越多的商业产品，如Mobileye和Wayve的高级驾驶员辅助系统，它可能会成为针对知识产权盗窃或潜在有害逆向工程的对手的目标。

研究人员的方法假设目标DRL的域(即模型正在执行的任务、输入和输出的上下文和格式)是已知的，攻击者可以设置环境状态并观察DRL模型的相应动作。他们的攻击分为两个阶段：

分类器根据给定黑盒DRL模型的动作序列预测其训练算法。

通过提取的算法，模仿学习方法可以生成和微调与目标行为相似的模型。

首先，基于算法在大量“阴影”DRL模型上训练分类器。分类器在多个环境中为每个算法训练DRL模型，并通过使用包括所有考虑中的算法的多样化池来评估其性能。然后，它收集性能最好的模型的状态动作序列，生成样本(由序列表征并由训练算法标记)，并将提取的模型传递给第二阶段进行细化。

第二阶段(模仿学习阶段)采用GAIL，这是一种无模型的学习算法，可以在大规模、高维环境下模仿复杂行为。在仿真过程中，构造了两个相互竞争的模型：带提取算法的生成DRL模型和判别模型。生成的模型将根据反馈迭代优化其参数，直到生成的数据无法与目标模型区分，并且该过程将重复，直到获得与目标模型具有相似性能的模型。

在实验中，研究人员将他们的方法应用于OpenAI健身房软件中的两个流行的基准测试：Cart-Pole和Atari Pong。对于每个环境，他们选择了50个训练有素的模型，产生了250个训练有素的DRL模型和12500个动作序列。

他们发现分类器以相对较高的置信度区分每个算法的DRL模型，置信度从54%(在Cart-Pole中)到100%(在Atari Pong中)。对于模仿学习阶段，它尝试使用与目标模型性能相似的相同算法来复制模型，尤其是在Cart-Pole中。研究人员写道：“当复制的模型具有与目标模型相同的训练算法时，[攻击]的成功率将会增加。”“我们希望这项研究能够激发人们对DRL模型隐私问题严重性的认识，并提出更好的解决方案来缓解此类模型攻击。”

本文就为大家讲解到这里了。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！