删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向多维稀疏数据仓库的欺诈销售行为挖掘

本站小编 Free考研考试/2022-01-02

摘要:分销渠道系统中,产品制造商会分配给销售额较大的分销商更多返点利润鼓励销售,而分销商之间可能会联合起来将多个分销商的销售业绩累计在其中一个分销商上,获取高额利润,这种商业欺诈行为被称为挂单或窜货.由于数据中大量正常极值点的存在,使得传统异常探测算法很难区分正常极值和由挂单导致的异常极值;另外,多维销售数据本身就存在的稀疏性导致多维数据异常探测算法无法有效运行.为了克服上述问题,将人工智能和数据库技术结合起来,提出了基于分割率的特征提取方法和基于张量重构的挂单行为挖掘算法.同时,由于分销商之间存在多种挂单行为,设计了基于挂单模式偏序格的特征提取方法来对销售数据集中存在的挂单行为进行分类.在合成数据的实验中,所提出的挂单点挖掘算法能达到65%的平均AUC值,而传统特征提取方法仅达到36%和30%的平均AUC值.在真实数据上的实验结果表明,挂单行为探测方法能区分正常销售极值和挂单行为产生的异常极值.



Abstract:In distribution channel system, product manufacturer will often reward retail trader who makes big deal to increase the sales. On the other hand, in order to obtain high reward, retail traders may form alliance, where a cheating retail trader accumulates the deals of other retail traders. This type of commercial fraud is called deal cheating or cross region sale. Because the sales contain a lot of normal big deals, traditional outlier detection methods cannot distinguish the normal extreme value and the true outlier generated by deal cheating behavior. Meanwhile, the sparsity of the multidimensional sales data makes the outlier detection methods based on multidimensional space cannot work effectively. To handle the aforementioned problems, this study proposes deal cheating mining algorithms based on ratio characteristic and tensor reconstruction method. These algorithms combine artificial intelligence and database technique. Meanwhile, because there are multiple types of deal cheating patterns, this study proposes deal cheating pattern classification methods based on the partially ordered lattice of deal cheating patterns. In the experiments on synthetic data, the deal cheating detection algorithm based on the ratio characteristic can achieve an average AUC-value of 65%. The traditional feature extraction methods can only achieve average AUC-values of 36% and 30%. In the experiments on the real data, the results shows the deal cheating detection algorithm is capable of distinguishing normal big deal from abnormal big deal which may be generated by the deal cheating behaviors.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5905
相关话题/数据 实验 系统 设计 制造

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于相关性分析的工业时序数据异常检测
    摘要:多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一 ...
    本站小编 Free考研考试 2022-01-02
  • 轩辕:AI原生数据库系统
    摘要:大数据时代下,数据库系统主要面临3个方面的挑战:首先,基于专家经验的传统优化技术(如代价估计、连接顺序选择、参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求,可以设计基于学习的数据库优化技术,使数据库更智能;其次,AI时代,很多数据库应用需要使用人工智能算法,如数据库中的图像搜 ...
    本站小编 Free考研考试 2022-01-02
  • 学习式数据库系统:挑战与机遇
    摘要:通用的数据库系统为不同的应用需求与数据类型提供统一的处理方式,在取得了巨大成功的同时,也暴露了一定的局限性:由于没有结合具体应用的数据分布与工作负载,系统往往难以保证性能的最优.为了解决这一问题,"学习式数据库系统"成为了目前数据库领域的研究热点,它利用机器学习技术有效捕获负载与数据的特性,从 ...
    本站小编 Free考研考试 2022-01-02
  • 数据集成方法发展与展望
    摘要:数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去30多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从2001年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决 ...
    本站小编 Free考研考试 2022-01-02
  • 数据标注研究综述
    摘要:数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具 ...
    本站小编 Free考研考试 2022-01-02
  • 基于符号语义的不完整数据聚集查询处理算法
    摘要:研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处 ...
    本站小编 Free考研考试 2022-01-02
  • 用户可动态撤销及数据可实时更新的云审计方案
    摘要:随着云存储的出现,越来越多的用户选择将大量数据存储在远程云服务器上,以节约本地存储资源.如何验证用户远程存储在云端数据的完整性,成为近年来学术界的一个研究热点.虽然现已提出了很多云审计方案,但大多数方案都假设个人和企业在使用云存储系统的整个过程中,用户及其公私钥始终不变,且不能高效地对数据进行 ...
    本站小编 Free考研考试 2022-01-02
  • 大数据实时交互式分析
    摘要:实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实时交互式分析更强调交互的实时性与查询结果的时效性.对实时交互式分析的研 ...
    本站小编 Free考研考试 2022-01-02
  • 一种面向中小规模数据集的模糊分类方法
    摘要:虽然Takagi-Sugeno-Kang(TSK)模糊分类器在一些重要场合已经取得了广泛应用,但如何提高其分类性能和增强其可解释性,仍然是目前的研究热点.提出一种随机划分与组合特征且规则具有高可解释性的深度TSK模糊分类器(RCC-DTSK-C),但和其他分类器构造不同的是:(1)RCC-DT ...
    本站小编 Free考研考试 2022-01-02
  • 基于模型学习的OpenVPN系统脆弱性分析
    摘要:OpenVPN在现实网络中有广泛应用,对其安全性进行评估具有重要的现实意义.基于自动机理论中模型学习的方法,利用协议状态模糊测试的技术对OpenVPN系统进行黑盒测试分析,自动化推演出目标OpenVPN系统的状态机.提出了状态机时间压缩模型并进行冗余状态和迁移化简,可以准确得到协议状态机中的行 ...
    本站小编 Free考研考试 2022-01-02