(复旦大学计算机科学技术学院 上海 200438) (xdpan18@fudan.edu.cn)
出版日期:
2021-05-01基金资助:
国家自然科学基金项目(61972099,U1636204,U1836213,U1836210,U1736208);上海市自然科学基金项目(19ZR1404800)Evaluating Privacy Risks of Deep Learning Based General-Purpose Language Models
Pan Xudong, Zhang Mi, Yan Yifan, Lu Yifan, Yang Min(School of Computer Science, Fudan University, Shanghai 200438)
Online:
2021-05-01Supported by:
This work was supported by the National Natural Science Foundation of China (61972099, U1636204, U1836213, U1836210, U1736208) and the Natural Science Foundation of Shanghai (19ZR1404800).摘要/Abstract
摘要: 近年来,自然语言处理领域涌现出多种基于Transformer网络结构的通用深度学习语言模型,简称“通用语言模型(general-purpose language models, GPLMs)”,包括Google提出的BERT(bidirectional encoder representation from transformers)模型等,已在多个标准数据集和多项重要自然语言处理任务上刷新了最优基线指标,并已逐渐在商业场景中得到应用.尽管其具有很好的泛用性和性能表现,在实际部署场景中,通用语言模型的安全性却鲜为研究者所重视.近年有研究工作指出,如果攻击者利用中间人攻击或作为半诚实(honest-but-curious)服务提供方截获用户输入文本经由通用语言模型计算产生的文本特征,它将以较高的准确度推测原始文本中是否包含特定敏感词.然而,该工作仅采用了特定敏感词存在与否这一单一敏感信息窃取任务,依赖一些较为严格的攻击假设,且未涉及除英语外其他语种的使用场景.为解决上述问题,提出1条针对通用文本特征的隐私窃取链,从更多维度评估通用语言模型使用中潜在的隐私风险.实验结果表明:仅根据通用语言模型提取出的文本表征,攻击者能以近100%的准确度推断其模型来源,以超70%的准确度推断其原始文本长度,最终推断出最有可能出现的敏感词列表,以重建原始文本的敏感语义.此外,额外针对3种典型的中文预训练通用语言模型开展了相应的隐私窃取风险评估,评估结果表明中文通用语言模型同样存在着不可忽视的隐私风险.
参考文献
相关文章 15
[1] | 李涵, 严明玉, 吕征阳, 李文明, 叶笑春, 范东睿, 唐志敏. 图神经网络加速结构综述[J]. 计算机研究与发展, 2021, 58(6): 1204-1229. |
[2] | 王慧娇, 丛鹏, 蒋华, 韦永壮. 基于深度学习的SIMON32/64安全性分析[J]. 计算机研究与发展, 2021, 58(5): 1056-1064. |
[3] | 李明慧, 江沛佩, 王骞, 沈超, 李琦. 针对深度学习模型的对抗性攻击与防御[J]. 计算机研究与发展, 2021, 58(5): 909-926. |
[4] | 汪嘉来, 张超, 戚旭衍, 荣易. Windows平台恶意软件智能检测综述[J]. 计算机研究与发展, 2021, 58(5): 977-994. |
[5] | 周纯毅, 陈大卫, 王尚, 付安民, 高艳松. 分布式深度学习隐私与安全攻击研究进展与挑战[J]. 计算机研究与发展, 2021, 58(5): 927-943. |
[6] | 汪烨, 陈骏武, 夏鑫, 姜波. 智能需求获取与建模研究综述[J]. 计算机研究与发展, 2021, 58(4): 683-705. |
[7] | 吴宗友, 白昆龙, 杨林蕊, 王仪琦, 田英杰. 电子病历文本挖掘研究综述[J]. 计算机研究与发展, 2021, 58(3): 513-527. |
[8] | 廖海斌, 徐斌. 基于性别和年龄因子分析的鲁棒性人脸表情识别[J]. 计算机研究与发展, 2021, 58(3): 528-538. |
[9] | 付章杰, 李恩露, 程旭, 黄永峰, 胡雨婷. 基于深度学习的图像隐写研究进展[J]. 计算机研究与发展, 2021, 58(3): 548-568. |
[10] | 周鹏, 武延军, 赵琛. 一种融合程序员和神经网络的自动化程序生成方法[J]. 计算机研究与发展, 2021, 58(3): 638-650. |
[11] | 古天龙, 冯旋, 李龙, 包旭光, 李云辉. 基于社会新闻数据集的伦理行为判别方法[J]. 计算机研究与发展, 2021, 58(2): 253-263. |
[12] | 陈晋音, 陈奕芃, 陈一鸣, 郑海斌, 纪守领, 时杰, 程瑶. 面向深度学习的公平性研究综述[J]. 计算机研究与发展, 2021, 58(2): 264-280. |
[13] | 李金鹏, 张闯, 陈小军, 胡玥, 廖鹏程. 自动文本摘要研究综述[J]. 计算机研究与发展, 2021, 58(1): 1-21. |
[14] | 孟子尧, 谷雪, 梁艳春, 许东, 吴春国. 深度神经架构搜索综述[J]. 计算机研究与发展, 2021, 58(1): 22-33. |
[15] | 朱泓睿, 元国军, 姚成吉, 谭光明, 王展, 户忠哲, 张晓扬, 安学军. 分布式深度学习训练网络综述[J]. 计算机研究与发展, 2021, 58(1): 98-115. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4416