GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
1.?安全人工智能系统开发指南([原文])
简介:本文件为使用人工智能(AI)任何系统的提供者推荐了指导方针,无论这些系统是从头开始创建的,还是建立在其他人提供的工具和服务之上的。实施这些指导方针将有助于提供商构建按预期运行、在需要时可用并且不向未授权方泄露敏感数据的情况下工作的AI系统。
链接:
https://github.com/mo-xiaoxi/GPTSecurity/tree/main/docs/.gitbook/assets/安全人工智能系统开发指南译文.docx
2.?识别和缓解LLM集成应用程序中的漏洞
简介:本项研究中,研究者设置了用户和LLM通过中间的LLM集成应用程序进行交互,这其中产生了一些安全威胁。实验结果表面,这些威胁可以有效绕过OpenAI的限制和审核政策,导致用户收到包含偏见、有毒内容、隐私风险和虚假信息的响应。为了减轻这些威胁,研究者识别并定义了四个关键属性,即完整性、源识别、攻击可检测性和实用程序保留,安全的LLM集成应用程序需要满足这些属性。基于这些特性,研究者开发了一种轻量级、与威胁无关的防御,可以减轻内部和外部威胁。
链接:
https://arxiv.org/pdf/2311.16153.pdf
3. 攻击树:自动越狱黑盒法学硕士
简介:在这项研究中,研究者提出了一种生成越狱的自动化方法TAP。在实证评估中,研究者观察到TAP生成的提示仅使用少量查询就可以越狱最先进的LLM(包括GPT4和 GPT4-Turbo)超过80%的提示。这显着改进了以前用于生成越狱的最先进的黑盒方法。
链接:
https://arxiv.org/pdf/2312.02119.pdf
4. LLM 可以修补安全问题吗?
简介:大型语言模型(LLM)在代码生成方面表现出了令人印象深刻的熟练程度。尽管如此,与人类开发人员类似,这些模型可能会生成包含安全漏洞和缺陷的代码。在本文中,研究者提出了一种新方法,反馈驱动解决方案综合(FDSS),旨在探索使用LLM接收来自Bandit(一种静态代码分析工具)的反馈,然后LLM生成潜在的解决方案来解决安全问题漏洞。此外,研究者还引入了一个新的数据集PythonSecurityEval,该数据集是从Stack Overflow上的真实场景中收集的,用于评估法学硕士生成安全代码的能力。
链接:
https://arxiv.org/pdf/2312.00024.pdf
5.?即时安全补丁检测——法学硕士拯救数据增强
简介:在LLMDA中,研究者最初利用LLM来检查补丁并扩展PatchDB和SPI-DB(最近文献中的两个安全补丁数据集)的数据。然后,研究者使用标记指令来指导LLMDA,并根据安全相关性区分补丁。随后,研究者应用PTFormer将补丁与代码合并,制定包含固有细节以及补丁与代码之间互连的混合属性。这种独特的组合方法使我们的系统能够从补丁和代码的组合上下文中捕获更多见解,从而提高检测精度。结果表明,LLMDA 在检测安全补丁方面显著超越了最先进的技术,凸显了其在加强软件维护方面的前景。
链接:
https://arxiv.org/pdf/2312.01241.pdf?