原文链接:https://mp.weixin.qq.com/s/kIXZWp-jBQc66TqWW3kOSA
Hi, 你好。我是茶桁。
咱们BI的前几节课中,主要是使用员工离职预测这个项目来展开讲了一下做BI的预测全家桶以及集成学习的内容,算是窥入了BI的门径。
本节课开始,咱们要花几节课的时间来学习一下 Fintech 的数据分析。
在金融行业里有很多需要做数据分析的场景,那这些场景都有哪些,该怎么样针对不同的场景去完成,这是接下来主要讲解的内容,围绕 Fintech 金融科技的场景。
[[Fintech]] 的应用场景,都有哪些公司,人才;发展的机会是怎样的;银行体系里面都有哪些业务线?要结合哪些场景去做?
那接下来呢,主要围绕了5个场景去展开:
不同的场景可能需要不同的算法,我会带着大家去做一个量化交易的模块。然后咱们再一起去看一看违约的预测。违约是什么样的场景?不知道小伙伴们有用「借款软件」借过钱的没,我一天到晚接到一些借款电话。比如支付宝上可以用蚂蚁借,或者是网上贷,还有京东金融,百度都有类似的产品。
这样的一些产品随借随还还是比较方便的,那平台就需要去完成一个预测任务,在放款之前要看一看你会不会违约,如果违约概率比较高就会拒绝放款。
违约预测就是一个项目,针对这个项目该怎么样去构造一些特征,使用之前课程里给大家介绍的机器学习的神器,[[XGBoost]] 和 [[LightGBM]] 来完成预测任务。
首先,先来看一下 Fintech,这个单词代表的什么含义。fin,tech 是两个英文单词的缩写,一个是 financial, 一个是 technology,所以 Fintech 指的就是如何把科技和金融包含到一起。
有一家银行叫中原银行,按理银行应该属于跟金融行业特别相关,做的就是金融行业。大堂经理,柜台的一些人员这些都是属于传统的金融的岗位。
未来如果你要打造成一家金融科技公司,那这家银行的科技人员的占比目标会定在50%以上。所以大家想想他们未来要招聘的人可能除了传统金融行业以外,就是会有很多数据分析师。如果大于这个数字,这家企业的性质就是一家科技公司。
股票上面很多银行都上市了,PE倍数的衡量跟行业性质相关。如果行业是个传统金融行业,PE倍数都不是很高,如果是个互联网行业PE倍数相对来说就会更大一点。所以如果占到50%以上,股票的市值也会更大一些。高盛集团就曾经说过他们是一家科技公司,摩根大通也会占有了 1/3 以上的数据分析师,而且他们也希望员工加班加点的去学习数据分析的课程。
在 Fintech 这个领域里面是有两个结合,一个就是机器学习,这是科技,通过算法和模型完成一些预测的事情。还有一个就是业务场景,商业变现。
商业都有哪些,银行的一些存款、贷款的一些业务。在金融科技公司里面典型的代表包括了像蚂蚁金服、京东,甚至包括了滴滴这样一些企业。支付宝、Paypal等等也都是这样的一些企业。还有传统的金融公司,像招商银行、工商银行,四大行等等。
银行的业务线如果要做算法,想要服务这些企业要了解他们的业务。业务线分成了以下的四大模块:
大家应该都办过信用卡把?信用卡应该在03、04年的时候是逐渐兴起的年份,那阵是刚刚普及,信用卡每办一张卡代理商都能拿到很高的一个绩效,银行会给他那些代理费用。曾经有人专门帮别人办理信用卡,就是帮银行代理信用卡挣了几百万,这是在03、04年的时候。
信用卡一般来说不止一张,这里的卡可能包括的信用卡也包括借记卡,全国范围里面统计平均每个人是5.46张。有了卡的场景,围绕信用卡会有很多资产的业务。
第二块是零售业务,这里的零售不是消费品的零售,是对个人的金融业务,包括了像存款、融资、理财、证券交易等等。
第三个称为叫互金。互金就是互联网金融,在线上的金融的业务。比如手机银行等等。
第四块就是一些对公业务,面向企业提供很多的细分的一些场景,比如说授信业务中的A卡、B卡和C卡,A代表的是application,最开始第一次见面。B是behavior, 行为,已经放款了,有了行为的记录,要预测一下他会不会违约。C是collection,回收。回收的概率代表了他已经逾期,会不会违约,逾期了不一定等于坏账,所以逾期以后还要预测一下他会不会坏账。
从业务角度的话, 还会分成增量的部分, 存量的部分。增量是未来增加的一个部分,存量就是针对现有的这些用户去挖掘更多的一些价值。所以这两块也是银行去考虑的业务。
业务是要通过数据分析去完成的,那数据的来源也可以把它分成行内数据,行外数据,以及第三方的一些数据。行内数据就是跟用户相关的数据,但是用户的行为不仅仅是在银行体系里面去呈现,还有可能在征信和运营商里面来进行呈现。所以也需要跟这些商家来进行合作,这是银行的一些业务线。
下面咱们来具体看几个场景,一起去思考一下。
场景1、财经新闻分析
财经新闻作为重要却海量的投资数据,无时无刻不在影响着投资者们的投资决策,为了更好地提示客户当下新闻事件对应的投资机会和投资风险,可以通过当前新闻内容从历史事件中搜索出相似新闻报道,后期可以结合事件与行情,辅助客户采取相应投资策略。
为每一条测试集数据寻找其最相似的TOP20条新闻(招商银行Fintech2018)
第一个场景是财经的新闻分析,这个财经的新闻分析是在2018年招商银行出过的一道题目给内部的数据分析师去做培训。他们的场景是要去分析网上的新闻,找一条跟这个新闻类似的前20条新闻都有哪些。
为什么要这么做?因为客户经理也经常会回答客户一些关于财经相关的一些问题,为了更好的帮助客户去做投资,需要获取当下实时的新闻动态。这个新闻动态怎么样去理解,实际上涉及到一些语义理解的层面。那语义的理解层面就会涉及到有一部分类似于像NLP的知识。NLP的一些技术也会在的BI课程体系里面适当的会给大家进行讲解。重点是关注到文本的特征提取。
以这个场景为例,财经新闻的内容通过文字的方式去提取关键词,提取关键词代表内容的一些抽象概念。也可以对这些内容提取一些关键句,关键句可以把它理解成是一些文章的摘要的部分。
第二部分是精准营销。
场景2、智能营销(用户画像分析与商品销售策略)
用户画像的完善对于个性化推荐、精准营销非常重要。 招商银行通过对零售客户生成1726个客户画像标签,使得营销客户触达次数提升了6.56倍,营销成功率达到 17.42%
针对用户行为数据,生成客户画像,同时针对用户的订单挖掘产品组合,从而提升产品的购买
在银行体系里面也需要给用户去做一些预测。一个预测场景就是预测一下用户的资产会不会增加。更主要服务的对象是那些优质的用户。
一个优质的用户可能等于10个甚至更多的普通用户。优质用户可以通过行为去判断,尤其当他资产快速提升的时候可以把它分析出来。在中原银行的体系里面就会建这样的一些模型,去预测用户在未来三个月的资产会不会上升到当前幅度的120%。
举个例子,你现在是100万的存款,未来有可能存款大于120万。那现在就要跟这个用户更加密切的保持合作,因为多出来的20万可以进行存款的业务。预测就是营销的一个前提。
在招商银行里面也做过类似的一个场景,他们给对公的业务去做了一个存款预测模型。想象一下,每一个客户经理都有一些指标去发现一些新的对公客户,目标是让这个新的公司能在招商银行里面的存款大于50万。怎么样去完成预测呢?以往的方式就是盲打电话,随机性的打电话,会有专门的电话营销的一些人员给人们去打电话,名单会来自于互联网上的名单或者是第三方提供的一些名单。
如果按照第三方提供的企业名录一个一个去打电话,然后让这些企业去把存款放到招商银行,考核指标就是存款会不会大于50万,这样的工作效率你们觉得高吗?这是一个需求的场景,这个需求场景招商银行曾经花了一笔钱去找第三方的公司去做建模,他们提供一些数据,希望第三方公司能给他一个模型。有一个朋友正好做了这项业务,当时花了几十万,应该是大于等于50万,就建一个模型。
后来通过模型去预测的准确率可以达到接近86%。打电话之后客户如果最后存款了,存款金额会大于50万这个概率高达86%,是不是还挺高的?比随机性的概率要大很多。
模型会提取一些特征,企业这些都是新客不是老客,并没有老客以往的数据。新客一般会有第三方类似于像企查查,天眼查的一些机构提供数据的一些词段,但这些词段都属于静态信息。
举个例子,像银行的法人是谁,股东的一些结构,注册的资本等等。这些数据足以支撑一个准确的模型吗?不行。因为企业的发展是动态的,可能你注册的时候还很好,但3年以后这个企业有可能经济效益不好。那么就利用了一个信息的维度。个人觉得比较有效,找的还比较准的是拉钩或者BOSS上面去找招聘的信息。
这些招聘平台上有很多的企业招聘的一些信息,通过一段时间招聘职位的数量以及金额就可以判断出来这个企业是不是在一个上升期。如果在上升期的话,他的资金相对比较充裕,也更有可能存款会大于50万。而这是一个智能营销的场景。
第三个场景。
场景3:金融数据分析与风险控制
在信贷领域中存在信用卡违约和欺诈的风险,通过用户行为数据,分析申请借款用户的信用状况,来判断是否存在逾期。
通过分析交易时间、交易金额、收款方等多维度数据,还可以对信用卡会否被盗刷进行预测,防止信用卡被盗刷的风险。
此外,通过预测模型,我们还可以分析出哪些因素容易导致违约,从而加强产品的设计。
在 Fintech 里面有很多的跟贷款风控相关的场景。比如说信贷领域就会存在着违约的行为,也可能存在着欺诈行为。
违约和欺诈这两个怎么理解?在信贷领域里面会有两种情况,一种是违约的情况,一种是欺诈的情况,都需要提前进行判别。
违约就是钱给到你,你有可能不还,但这个还不是主观上不愿意,有可能是因为当时确实没有钱。欺诈就说他本身就没有还款的想法,就是为了把钱套现出来。欺诈行为是最恶劣的行为,所以在贷款之前需要提前去做分析和判断,看一看这笔钱是不是一个正常交易,还是个欺诈交易。
这是金融数据分析里面的场景。怎么做呢?首先采集数据,第二绘制一些关系图谱,第三完成机器学习的建模,建模去完成欺诈的风险模型。
在违约预测里面也会给人的信用去做一个打分,把它称为叫分享评分。芝麻信用是支付宝去衡量一个用户的信用等级,分数段是在350分到950分之间。除了分数以外还会有一个授信的额度,授信额度也可能是机器学习去预测出来的。
第四个部分是一些场景的智能识别。
场景4、智能识别
OCR识别身份证及银行卡
在业务票据整理过程中,可以通过图像识别等技术完成数据的收集,比如通过OCR完成身份证的识别,银行承兑汇票,银行卡等
银行体系里面也有一些图像识别的任务,现在很多票据还是柜台要去打进去的。也很多章,像公章、人民章、法人章啊。这些章核验的时候要通过才行。所以有些银行会让企业盖三次章,看哪一个章可以核验通过。如果没有核验通过还要再去找企业再重新盖章,这个过程就是一个纸质版的签名。
未来会有更多的数字化的签名,甚至区块链的应用在这个场景里面都会使用到。那目前使用比较多的还包括了像图像识别,OCR的文字的识别,身份证的识别等等。
以上的环节都是属于金融场景的环节。
再有就是量化交易,其实大家可以思考一下,银行会有这种炒股票的业务吗?一般来说银行没有。股票的业务是属于证券公司,一般证券公司才会有股票相关的一些业务。在证券公司里面会有智能的一个量化交易。
场景5、量化交易
策略收益,年华收益,基准收益,阿尔法,贝塔,夏普比率,最大回撤
那么以证券业务为例的话会考量一下不同的交易策略是怎样的,策略的收益、年化的收益、基准的收益等等。中间也有一些因子的指数去做回归。
总结一下的Fintech场景,就如下图中列出来的一些场景。
有个贷信用违约的场景,这些场景里面会对应一些机器学习,包含了违约预测,评分卡,多元线性回归,逻辑回归,XGBoost/LightGBM。
AI的算法会有评分卡模型,它的目标是要建立一个评分的规则,可解释性比较强。分类任务可以用逻辑回归,也可以用 XGBoost 等等这样一些模型。
反欺诈模型也是一个分类任务,也可以用集成学习的一些模型和树模型。树模型应该是之前给大家介绍的模型,XGBoost 和 LightGBM 这两个模型的使用频率都很高,在银行的业务体系里面使用率也很多。
流失预警是要预测一下客户会不会流失,如果要流失可以提前判断出来就可以进行干预。会包含决策树,神经网络,RFM。
精准营销的需求会有对用户的特征的提取,这个其实是最关键的。精准营销的本质是了解客户的特征,然后再去做相似度的计算,帮你挖掘潜在的客户都有哪些。会包含用户画像,聚类分析,Embedding, Node2Vec以及标签传播。
推荐系统不光是在大厂里面使用,很多银行现在都建了APP,只要有APP就会构建推荐系统。平安有一款APP叫口袋通,这款APP里面平时会推荐一些新闻,那新闻背后的推荐过程就是智能推荐的原理。
智能推荐如果要用模型的话有购物篮分析,还有关联规则,以及 Google 提出来的 wide&deep。
此外还有量化交易,量化交易是属于一个相对独立的部分。因为它需要一个模拟环境实时的去从交易所这边抽取出来一些真实的数据,然后会委托帮助客户去做下单策略,这是量化交易。
量化交易的本质是你对股票的理解,把它转换成为交易策略的代码自动去完成执行。在量化交易里面可以使用 Python 帮我们去分析一些策略,看看策略是否有效,也可以把这个策略放到一些环境中进行执行。
这里给大家列出来的一些软件,比如说像国内的 vnpy, jointquant 等等。还有像 ricequant 这些都可以从它们上面获取到一些实时的交易数据。总的来说这个行业是一个比较新兴的行业,既有一些传统的金融人员在做数字化的转型,有很多互联网的大厂的公司也想要进入到这个领域里面去。这些公司就包括了像蚂蚁金服,京东金融等等。
好,这节课呢,就是将 Fintech 的应用场景给大家做了一些介绍,我知道很多小伙伴都会觉得这篇文章可能概念介绍的太多,但是这些都是一些必须的,做机器学习最主要的还是要从业务和场景出发,理解业务和场景都是必须要做的事情。
那么下节课,咱们就进入实战,关于 Python 的量化交易的一个板块。