1(南开大学计算机学院 天津 300350); 2(新加坡国立大学计算机学院 新加坡 117417) (songkehui@dbis.nankai.edu.cn)
出版日期:
2019-09-10基金资助:
国家自然科学基金项目(61772289,U1836109)A Generative Model for Synthesizing Structured Datasets Based on GAN
Song Kehui1, Zhang Ying1, Zhang Jiangwei2, Yuan Xiaojie11(College of Computer Science, Nankai University, Tianjin 300350); 2(School of Computing, National University of Singapore, Singapore 117417)
Online:
2019-09-10Supported by:
This work was supported by the National Natural Science Foundation of China (61772289, U1836109).摘要/Abstract
摘要: 在机器学习和数据库等领域,高质量数据集的合成一直以来是一个非常重要且充满挑战性的问题.其中,合成的高质量数据集可用来改善模型,尤其是深度学习模型的训练过程.一个健壮的模型训练过程需要大量已标注的数据集,获取这些数据集的一种方法是通过领域专家的手动标注,这种方法不仅代价大还容易出错,因此由模型自动合成高质量数据集的方法更为合理.近年来,由于计算机视觉领域的飞速发展,已经有不少致力于图像数据集合成的研究,但是这些模型不能直接应用在结构化数据表上,并且据调研,对这类数据的相关研究几乎没有.因此,提出了一个针对结构化数据表的生成模型TableGAN,该模型是生成式对抗网络(generative adversarial network, GAN)家族的一种变体,通过对抗训练的方式提高生成模型的性能.针对结构化数据的特征改变了传统GAN模型的内部结构,包括优化函数等,使其能够生成高质量的结构化数据用于改善模型的训练过程.通过在真实数据集上的大量实验表明了此模型的有效性,即在扩大后的数据集上训练模型的效果有明显提升.
参考文献
相关文章 15
[1] | 吴宗友, 白昆龙, 杨林蕊, 王仪琦, 田英杰. 电子病历文本挖掘研究综述[J]. 计算机研究与发展, 2021, 58(3): 513-527. |
[2] | 廖海斌, 徐斌. 基于性别和年龄因子分析的鲁棒性人脸表情识别[J]. 计算机研究与发展, 2021, 58(3): 528-538. |
[3] | 刘颖, 杨轲. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J]. 计算机研究与发展, 2021, 58(3): 539-547. |
[4] | 付章杰, 李恩露, 程旭, 黄永峰, 胡雨婷. 基于深度学习的图像隐写研究进展[J]. 计算机研究与发展, 2021, 58(3): 548-568. |
[5] | 古天龙, 冯旋, 李龙, 包旭光, 李云辉. 基于社会新闻数据集的伦理行为判别方法[J]. 计算机研究与发展, 2021, 58(2): 253-263. |
[6] | 陈晋音, 陈奕芃, 陈一鸣, 郑海斌, 纪守领, 时杰, 程瑶. 面向深度学习的公平性研究综述[J]. 计算机研究与发展, 2021, 58(2): 264-280. |
[7] | 李金鹏, 张闯, 陈小军, 胡玥, 廖鹏程. 自动文本摘要研究综述[J]. 计算机研究与发展, 2021, 58(1): 1-21. |
[8] | 孟子尧, 谷雪, 梁艳春, 许东, 吴春国. 深度神经架构搜索综述[J]. 计算机研究与发展, 2021, 58(1): 22-33. |
[9] | 朱泓睿, 元国军, 姚成吉, 谭光明, 王展, 户忠哲, 张晓扬, 安学军. 分布式深度学习训练网络综述[J]. 计算机研究与发展, 2021, 58(1): 98-115. |
[10] | 王继娜, 陈军华, 高建华. 基于排序损失的ECC多标签代码异味检测方法[J]. 计算机研究与发展, 2021, 58(1): 178-188. |
[11] | 曾碧卿, 曾锋, 韩旭丽, 商齐. 基于交互特征表示的评价对象抽取模型[J]. 计算机研究与发展, 2021, 58(1): 224-232. |
[12] | 陈珂锐, 孟小峰. 机器学习的可解释性[J]. 计算机研究与发展, 2020, 57(9): 1971-1986. |
[13] | 王婕婷, 钱宇华, 李飞江, 刘郭庆. 消除随机一致性的支持向量机分类方法[J]. 计算机研究与发展, 2020, 57(8): 1581-1593. |
[14] | 鞠卓亚, 王志海. 基于选择性模式的贝叶斯分类算法[J]. 计算机研究与发展, 2020, 57(8): 1605-1616. |
[15] | 孙肖依, 刘华锋, 景丽萍, 于剑. 基于列表级排序的深度生成推荐方法[J]. 计算机研究与发展, 2020, 57(8): 1697-1706. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3999