???????赛题名称:
??科技金融应用:欺诈风险识别(通过资金交易流水识别涉诈涉赌账户)
??出题单位:
??兴业银行股份有限公司
??赛题背景:
??近年来,跨境赌博、电信网络诈骗、黑产等外部欺诈违法犯罪形势日益严峻,呈现线上化、产业化、团伙化等特征,国家层面高度重视反欺诈治理工作,执法和监管机构对反欺诈管理要求日趋严格。党的二十大的报告中发布了“以人民为中心”“统筹发展与安全”的重要指示。银行业金融机构需筑牢反欺诈“防火墙”,为业务的健康发展保驾护航;践行金融为民,坚决守护人民群众的财产安全,提高人民群众的幸福感、安全感和获得感;牢牢把握金融工作的政治性、人民性,提升专业性。同时,监管机构要求各家银行开发和运用有效的金融科技和大数据系统,分析涉赌涉诈资金交易新方式,总结资金风险新特征,持续优化风险监测模型,全面排查存量风险。于2022年12月正式施行的《中华人民共和国反电信网络诈骗法》把反欺诈工作上升到了法律层面。该法案亦指出,银行业金融机构应当建立完善符合电信网络诈骗活动特征的异常账户和可疑交易的监测机制。
??赛题任务:
??本赛题旨在运用有效的金融科技和大数据系统,分析涉赌涉诈资金交易新方式,持续优化风险监测模型,通过赛题提供的涉赌涉诈黑名单、白名单及用于训练的相关交易流水数据集,构建涉赌涉诈账户算法识别模型,全面排查存量风险。
具体模块如下:
步骤1?数据及变量展示
步骤2?基于资金流向进行关联网络图构建
步骤3?基于社区划分算法划分风险团伙
步骤4 总结
▍欺诈风险识别-数据及变量展示
训练数据构成:
1、训练集:300户涉诈涉赌账户(标志为1)+900户低风险账户(标志为0);
2、数据简介:账户交易流水、账户静态信息(均为仿真数据)
注:交易信息表里的“账户代号”,均为本行卡。与账户静态信息表里的“账户代号”关联。
交易信息表里的“对方账号”可能为行外账号,“对方账号+对方行号”与账户静态信息表里的“账户代号+开户行代号”关联。
账户静态信息
账户交易信息
▍欺诈风险识别-基于资金流向的关联网络构建
通过资金交易流水识别涉诈涉赌账户,基于“借贷标志”来判断客户是出账还是入账,确认客户与客户之间的关联资金流向关系,来构建关联网络图。
根据流水序号和流水金额,按照账户代号、对方账号,来统计双方之间存在的资金流水交易次数、总金额大小,来检测交易关系的密切关系和频繁性。
筛选留下交易金额较大的客户交易节点,一般设置金额大于1万元以上,筛选后有42793个流水交易关系。
▍欺诈风险识别-基于社区划分算法划分风险团伙
基于networkx包对获取到的数据构建全局网络,通过Louvain算法对全局网络进行社区划分,计算得到模块度为
modularity: 0.8125,表示社区划分的效果还不错。
再对每一个团内的节点进行匹配欺诈标签,统计每一个团的欺诈率数据,再根据团内的节点的数量进行初步筛选,一般出现团伙欺诈和资金风险都是集中性、聚集性的行为。初步设定团内的节点个数大于10个。
#团488共有14个节点,13条边,其中2个节点为欺诈节点
nou_tuan=dfs[dfs['tag']==488]['node'].tolist()
nou_tuan_G=data_jyszonses[(data_jyszonses['账户代号'].isin(nou_tuan))|(data_jyszonses['对方账号'].isin(nou_tuan))]
# 基于networkx包对获取到的数据构建全局网络
'''
在构建全局网络时,可为节点设置权重,格式如下:
G = nx.from_pandas_edgelist(mydata, source='source',target='target',edge_attr=['weight'])
'''
G_mou = nx.from_pandas_edgelist(nou_tuan_G, source='账户代号',target='对方账号',edge_attr='交易次数',create_using=nx.DiGraph())
print('全局网络中节点的数量为:', G_mou.number_of_nodes())
print('全局网络中边的数量为:', G_mou.number_of_edges())
▍总结
综上所述,基于资金交易流水识别涉诈涉赌账户,构建关联网络图、划分社区,优化风险模型。筛选大额交易节点,设置团内节点数大于10个。应用金融科技和大数据,分析新交易方式,构建识别模型,全面排查风险。根据涉赌涉诈黑名单、白名单及用于训练的相关交易流水数据集,构建涉赌涉诈账户算法识别模型,全面排查存量风险。