风险控制策略模型第2部分:该模型的执行方式如下。

 admin   2023-12-19 00:07   30 人阅读  0 条评论

有关风险控制策略模型第2部分该模型的执行方式如下。的题,想必不少人都想知道,关于异方差这类的题一直是大家想了解的,那么就让小编为你揭秘案吧!


模型开发满足业务需求并高效解决业务困难和题是模型开发的护城河。本文档概述了模型开发过程中的模型定位和目标、标签定义、样本选择等。


模型开发满足业务需求并高效解决业务困难和题是模型开发的护城河。而不是所谓的算法。


根据您的业务需求,您应该相应地设计您的模型。这是实际工作中最棘手的部分。这也是与现有模特大赛最大的区别。


模型开发并不是一件容易的事。因此,确保每个环节合理有效地完成整个项目的交付就显得尤为重要。关键包括模型定位的合理性、数据质量的可靠性、建模方法的适用性、模型输出的准确性、模型性能的稳定性。


模型开发周期可以根据项目的需求和难度适当调整,一般开发期间至少安排3次里程碑会议。


项目立项会参加人员包括模型开发者、模型用户需求发起者、模型验证者。主要阐述了模型项目的背景和目标,并明确了模型开发者、用户、验证者和分发者的职责和时间表。


初步报告模型开发者提出模型的初步数据分析结果和建模思路,并与各方共同确定模型框架。


模型评审模型各方汇报模型开发过程和结果,验证者提供验证结果,各方讨论模型结果和模型应用,确定模型的最终版本。


下面我们概述了模型开发最重要的方面,包括模型定位和目标、标签定义、样本选择、数据源和处理、模型开发和模型评估。


1.模式定位及目标


为了定量解决业务中出现的各种现实题,模型开发人员必须与业务方沟通以确定建模目标。


我们理解信用风险模型主要用于评估用户的还款能力和还款意愿。反欺诈反欺诈模型防止用户进行贷款、获取不正当利润并保证安全,资金计量模型主要适用于以下用途用于确定最低资本要求并进行压力测试的巴塞尔制度。


但传达您的模型定位和目标并不止于此。你需要详细了解你的模型将用于什么场景,将用于哪些客户群体,是否有你需要针对的客户群体,预期的效果是什么,以及什么时候应该使用它。


目标是您的KS是否应尽可能高或高于30。下一个模型计划完全不同。


前者是一个追求上限的题,需要清楚地认识现有系统的弱点,并在合理的时间表内做出最优决策。功能空间是否无法跟上业务的发展,标签定义是否可以改进,业务是否正在开发新的客户群体,每个客户群体是否需要建模,是否可以使用外部数据时间模型来实现这一点,等等。您必须回所有题。


后者作为有保证的下界题更容易实现,并且通常可以通过优化一两个最重要的点来解决。


2.标签定义


标签一般分为GBIE,其中G为好用户,B为坏用户,I不确定,E除外。


观察期用于处理用户特征。也就是说,它用于观察持续期间的统计建模。


观察点可以是在贷款申请之前,但可以是贷款期限内的任何时间。


性能窗口用于定义好样本和坏样本的窗口,并根据用户对该窗口内过时的感知来处理标签。


表现点这是表现期的结束点。


我们开始从观察的角度来看待用户,此时不需要考虑的用户可以定义为E用户。例如,信用模型没有考虑欺诈用户。履约期内,良好风险定义为G,高风险定义为B,I介于两者之间。


观察期的长度由短期特征处理的时间跨度决定,表现期的长度应根据年份曲线定义。为了确保结果的准确性,客户的默认值必须相对稳定。我。拖欠程度的定义需要计算展期率。


在工程中,这些定义有许多详细的要求。


3.样本选择


虽然样本选择最能体现模型开发的定位和目标,但它也是最耗费人力的。各种模型的发展都有轨迹可循,只是样本的选择不同。


1样本选择原则


选择样本时必须考虑样本的代表性以及能否有效代表总体,并且必须包含可靠的预测信息和绩效信息。一般来说,选择样品应遵循三个原则


代表性样本必须能够代表总体、过去和未来。


有效性样本量太大,业务积累需要较长时间,对数据处理要求较高;样本量太小,可能达不到统计显着性,置信度可能太低。


时效性建模样本应与当前实际人群具有相似的特征;如果外部环境或特定业务发生重大变化,建模样本可能不再及时。


需要剔除的样本一般是模型所应用的客户群体以外的群体,定义为E客户群体,自然排除在建模之外。


2抽样原则


如果样本数据量很大且计算能力有限,则必须对整个样本进行采样。


简单随机抽样在给定样本量的情况下从总体中完全随机抽样,每个抽样单位被选中的机会均等。


分层抽样根据业务需求确定样本类别,确定每个类别的样本数量,并在每个类别内随机抽样。


一般情况下,业务简单时采用随机抽样,业务复杂、细分时采用分层抽样。


3.样本不平衡题


好样本和坏样本的比例总是有很大差异。在反欺诈场景中尤其如此。严重的不平衡可能会导致模型忽略小样本的学习。


1)欠采样


随机欠采样从大多数类中随机选择样本比例。


选择性欠采样通过特定规则选择性去除大部分对分类影响不大的样本。也就是说,它们远离分类边界或导致数据重复。


2)过采样


简单复制方法复制多个少数类样本。


合成数据借用现有样本并将它们组合起来构建一些数据。


欠采样或过采样后,样品的比例发生变化,因此在进入模具时必须通过重量调整方法重新调整比例。如果您只对可排序性感兴趣,则无需考虑这一点。


4组


森林很大,有各种各样的鸟。这因人而异,没有一种模型可以有效地应用于所有客户群体。有时你需要使用不同的特征来为不同的人群做出预测。这意味着构建多个模型并将其应用于每个客户子群。


细分又可以分为基于经验的细分和基于数据的细分。


基于经验的分组主要利用从业务知识中了解到的客户群体的差异,例如各个营销渠道的风险差异、新的子产品推出、业务下沉等。


我们还可以通过聚类和决策树对数据进行分组,但由于我们都使用集成树模型进行自己的建模,因此分组本身是在树模型训练期间完成的。在承担额外工作时,请考虑其必要性。


4.数据来源及处理


数据一般分为内部数据和外部数据。内部数据是公司内部收集和存储的客户信息,如内商户的销售、贷款、运营信息、客户登录、、消费信息等,而外部数据一般是中国人民银行的信用报告、运营商数据、第三方数据、机构提供的长期贷款数据等。


模型开发文档应明确列出所使用的数据源和功能,并确保数据可供多方使用,包括持续的稳定性和监管批准。


同时,模型开发还必须考虑缺失值处理和异常值处理。


1缺失值处理


直接删除含有缺失值的样本对于缺失值较少的情况比较合适,但缺失值样本比例越大,损失也越大。


根据样本之间的相似性来填充缺失值是一种更具技术性的方法。但工程上更常见的做法是根据经验填写默认值,例如-1或0。


不处理它是一种治疗方式,也许这是处理它的最好方法。特别是,风险模型使用XGB,它可以自动学习丢失的分区。


2异常值处理


异常值是显着偏离大多数数据分布的值。异常值检测可用于查找样本总体中的异常值。


其中包括单变量异常值检测、局部异常值因子检测和基于聚类方法的异常值检测。


类似地,对于树模型预测分类题,异常值处理也是不必要的。


3变量过滤


变量分为数值变量和分类变量。没有两个过滤器是相同的。


数值变量的选择可以综合考虑特征稳定性指标、信息价值、模型重要性排序等,对于采用证据权重变换的模型,需要对变量进行分组,然后检查抽样分布是否符合业务逻辑。


对于分类变量指标,必须选择抽样分布符合你业务逻辑的变量,并检查每个类别内数值的分布是否充分且均衡,以保证类别的代表性不被少数异常值破坏.


5.建模方法


您应该根据您的业务需求、建模目标和数据特征来选择最合适的建模方法。


1传统统计模型


主要包括线性回归模型、非线性回归模型、广义线性回归模型、逻辑回归模型、时间序列模型等。


采用线性回归、非线性回归、广义线性回归等来匹配数值因变量和自变量之间的函数关系,函数形式必须根据实际情况进行尝试和选择。


逻辑回归模型用于处理因变量为分类变量的题,通常用于二元分类或二项分布题。累积逻辑回归还可以处理多重分类题。


时间序列模型用于根据现有的过去数据来预测未来,根据实际数据情况,可以选择回归差分移动平均模型、向量自回归模型和广义自回归条件异方差模型(GARCH)。


2机器学习模型


机器学习模型一般分为三类监督学习、无监督学习和强化学习。


监督学习有标签来计算预测是否正确,但无监督学习没有,算法仅尝试根据数据的隐式结构进行分类。强化学习会收到反馈,但并非所有输入或状态都需要反馈。


最常用的风险控制模型是集成树模型。与逻辑回归的线性划分相比,决策树模型可以追求非线性划分,以实现最优的样本空间划分。


建模过程需要训练集、测试集和验证集。模型训练是根据模型在测试集上的有效性来训练模型的迭代过程。训练完成后,必须在验证集上计算回归模型的R平方和分类模型的AUC、AR、KS和GINI系数等各种指标。


6.模型评估


您应该评估模型上线后的使用情况。


如果您想向一组客户提供信贷,您需要挑选出这些子组进行计算,而不是通过将它们混合到整个样本中来填充数字。


与现有模型的交叉使用需要评估交叉效应。


如果数据源可能丢失,您应该评估丢失数据的影响,如果可以接受,则调整下限阈值并继续使用该数据源,而不是在将来如果数据源丢失则终止它。


ETC。


在开发模型的时候,我们总是担心模型的有效性,但是模型开发出来之后最重要的就是稳定性。没有根据模型分数的变化迭代调整阈值的策略。切勿使用有题的变量。


想要做到彻底是不可能的。


请投给我


2022年,大家都参与产品经理作家选拔。希望喜欢我写作的朋友们多多支持我~


点击下面的链接进入我的个人候选人页面,点击红心为我投。


每人每天最多可投35,投就有机会赢取抽,并获得书籍、每个人的纪念产品经理周边、Kidian课堂会员等礼物!


专栏作家


雷帅,微信公众号雷帅是一名产品经理专栏作家,既快又慢。风控算法工程师懂一点风控,懂一点商业,懂一点生活。我一直相信经验让事情变得更容易,我发现风险控制让生活更自由。


本文最初发表于人人都是产品经理。未经许可禁止


题图来自Unsplash,基于CC0许可证。


本文仅代表作者观点,人人产品经理仅提供信息存储空间服务。


本文地址:http://eptisonshop.com/post/21158.html
版权声明:本文为原创文章,版权归 admin 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?