- 银行AI项目实战:典型业务场景的AI解决方案与案例实现
- 邵理煜 陈沁 何敏
- 946字
- 2024-11-01 02:32:46
1.1 自动机器学习简介
自动机器学习(Automated Machine Learning, AutoML)是近年来机器学习领域的研究热点,它是指机器学习模型从构建到应用全过程自动化的理论和方法,能最大限度地减少人工参与程度,从而降低机器学习门槛,实现快速便捷的自动化建模。
自动机器学习作为一项创新技术,是针对传统机器学习的“烦琐耗时”“门槛高”两大痛点提出来的。在传统机器学习的建模任务中,需要经过问题定义、数据收集、数据清洗、特征生成、特征选择、算法选择、模型训练、超参数优化、模型评估、模型部署等步骤,其中,从数据收集到模型评估是一个反复迭代的过程,这个过程依赖个人经验,需要人工参与,烦琐且非常耗时,通常需要数月时间完成。传统机器学习通常需要建模人员具备一定的数学知识,比如微积分、概率论、线性代数、统计学、图论等,同时还需要理解多种机器学习算法,比如分类、聚类、回归、降维、图算法等,并具备模型调参经验,因此难度较大、开发门槛较高。自动机器学习将这个迭代过程视为一个最优解搜索过程,在事先设定的模型空间和参数空间中构建一个数学实现,完成自动特征工程、自动算法选择、自动模型选择、自动参数调整、自动管道匹配等环节,无须人工干预。此举一方面可减少时间和人力投入,另一方面能最大限度地降低对建模人员的能力要求,使得机器学习建模工作变得快速、轻松。传统机器学习与自动机器学习对比如图1-5所示。

图1-5 传统机器学习与自动机器学习对比
2017年底,谷歌首次提出自动机器学习技术。2018年1月,谷歌发布了第一个自动机器学习产品AutoMLVision。目前,自动机器学习技术进入快速发展阶段,百度、阿里、腾讯、第四范式等多家科技公司均推出了自动机器学习产品,出现了诸多主流开发框架,如TPOT、Auto-sklearn、Auto_ml、HyperOpt等。自动机器学习已渗透到工业、金融、教育、政务等多个行业。
图1-6的上半部分展示了常见的机器学习框架,下半部分展示了常见的自动机器学习框架。机器学习框架通常涉及特征工程、模型创建、参数调优三大板块,每个板块都有专门的开发框架。管道是自动机器学习框架中常见的技术,它将整个机器学习的流程串联起来,从而实现自动化。近年来,随着技术的发展,自动机器学习领域涌现出一些新技术,比如自动化集成学习、多学习器学习、自动超参数搜索等。本书重点介绍在金融实践中使用的几个自动机器学习前沿框架。

图1-6 机器学习和自动机器学习框架