联系我们

Contact us
电话：400-123-4567
Q Q：1234567890
邮箱：admin@youweb.com
地址：广东省广州市天河区88号

超参数优化完整指南 (超长文）

发布时间：2024-07-01 13:40:30 作者：佚名

【编者按：今天为大家带来的一份超全的超参数调优指南，可谓一文在手，超参数调优无敌手。本文主要介绍了超参数调优的基本概念、常用方法和算法，以及超参数调优的工具推荐。

小编温馨提示，全文阅读预计需要20-30分钟，可以先收藏哦!

话不多说，开启超参数调优之旅吧，Enjoy!】

作者 | Shahul ES, Aayush Bajaj

编译 | 岳扬

为机器学习或深度学习模型选择正确的超参数是从模型中提取精华的最佳方式之一。在本篇文章中，我们将向读者展示一些目前可用的做超参数调优的最佳方法。

首先，让我们了解机器学习中超参数和参数之间的区别。

模型参数：这些是由模型从给定的数据中估计出来的参数。例如，一个深度神经网络的权重。
模型超参数：这些是不能由模型从给定数据中估计的参数，超参数被用来估计模型的参数，例如，深度神经网络的学习率。

模型参数与模型超参数 | 来源：https://www.geeksforgeeks.org/difference-between-model-parameters-vs-hyperparameters/

超参数调优[1]（或超参数优化）是确定使模型性能最大化的超参数正确组合的过程。其在一个训练过程中运行多个试验。每一次试验都是训练程序的完整执行，并在指定的范围内选择超参数设置值。这个过程一旦完成，就会给你一组最适合模型的超参数值，以获得最佳结果。

毫无疑问，这是任何机器学习项目中的一个比较重要的步骤，因为其影响了模型的最佳结果。如果你希望看到超参数调优的作用，这里有一篇研究论文[2]，通过在数据集上的实验，介绍了超参数优化的重要性。

选择正确的超参数组合需要拥有对超参数和业务用例的深刻理解。然而，从技术上讲，有两种方法来找到它们。

手动超参数调优包括通过手动方式来实验不同的超参数集。这种技术将需要一个强大的实验跟踪器，要能够跟踪从图像、日志到系统指标的各种变量。典型的提供试验追踪功能的工具包括Neptune, W&B、Comet或者MLflow。

手动超参数优化的优势

手动调整超参数意味着对这个过程有更多的人为控制。
如果正在研究或学习调优以及它是如何影响网络权重的，那么手动操作将是有意义的。

手动超参数优化的劣势

手动调优是一个繁琐的过程，可能会有很多试验，而且保持跟踪是比较昂贵和耗时的。
当有很多超参数需要考虑时，这并不是一个非常实用的方法。

阅读关于如何手动优化机器学习模型超参数：How to Manually Optimize Machine Learning Model Hyperparameters - http://MachineLearningMastery.com

自动超参数调优是利用已有的算法来实现这一过程的自动化。需要遵循的步骤为：

首先，指定一组超参数和对这些超参数值的限制（注意：每个算法都要求这组参数是一个特定的数据结构，例如，字典）。
然后，该算法运行这些试验，并为你提取最佳的超参数集，以获得最佳的结果。

在本节中，我将介绍当今流行的所有超参数优化方法。

在随机搜索方法[4]中，我们为超参数创建了拥有很多可能值的网格。每次迭代都从这个网格中尝试随机的超参数组合，记录性能，最后得到最佳性能的超参数组合。

在网格搜索法中，我们为超参数创建了一个可能值的网格。每次迭代都以特定的顺序尝试超参数的组合。它在每一个可能的超参数组合上拟合模型并记录模型的性能。最后，它返回具有最佳超参数的最佳模型。

来源：https://nanonets.com/blog/hyperparameter-optimization/

为模型调整和寻找合适的超参数是一种优化问题。我们希望通过改变模型参数来最小化我们模型的损失函数。贝叶斯优化帮助我们通过最少的步骤中找到最小的点。贝叶斯优化还使用了采集函数（Acquisition Funtion），将采样引向有可能比当前最佳观察结果更好的区域。

基于树的帕森优化的理念与贝叶斯优化很相似。TPE不是寻找p(y|x)的值——其中y是要最小化的函数（例如，验证损失），x是超参数的值，而是建立P(x|y)和P(y)的模型。TPE算法的一个很大的缺点是，它们没有对超参数之间的相互作用进行建模。尽管如此，TPE在实践中的效果非常好，并在大多数领域通过了实战检验。

这些是专门为超参数调优而开发的算法。

Hyperband是随机搜索的一个变种，但运用探索与利用理论[5]，以便找到每个配置的最佳时间分配。你可以查看这篇研究论文[6]，以获得进一步的参考。

这种技术是两种最常用的搜索技术的混合，同时将随机搜索和手动调整应用于神经网络模型。

PBT首先用随机超参数并行训练多个神经网络，但是这些网络并不是完全相互独立的。其使用来自其他群体的信息来完善超参数，并确定要尝试的超参数值。你可以查看这篇文章[7]，了解更多关于PBT的信息。

来源：https://deepmind.com/blog/article/population-based-training-neural-networks

BOHB（Bayesian Optimization and HyperBand）混合了Hyperband算法和Bayesian优化。你可以查看这篇文章来进一步参考：https://www.automl.org/blog_bohb/。

Scikit-learn有网格搜索和随机搜索的实现，对于此两种方法，scikit-learn在不同的参数选择上，以K-fold交叉验证的方式训练和评估模型，并返回最佳模型。

具体来说：

随机搜索：用gridsearchcv在一些随机的参数组合上运行搜索。
网格搜索：用gridsearchcv在网格中的所有参数集上运行搜索。

用Scikit-learn调整模型是一个好的开始，但还有更好的选择，而且它们往往拥有随机搜索策略。

Scikit-optimize[8]使用一种基于序列模型的优化算法，在较短的时间内找到超参数搜索问题的最优解。

Scikit-optimize提供了除超参数优化之外的许多功能，例如:

存储和加载优化结果。
收敛图
比较代理模型

Optuna使用过往记录的轨迹细节来确定有希望的区域来搜索优化超参数，从而在最短的时间内找到最佳超参数。

它具有修剪功能，可以在训练的早期阶段自动停止没有希望的轨迹。optuna提供的一些关键功能是：

轻量级的、多功能的、与平台无关的架构
Python风格的搜索空间
高效的优化算法
易于并行化
快速可视化

在IDP中，可以快速开始使用Optuna。

Hyperopt允许用户创建一个搜索空间，在该空间中，用户期望得到最好的结果，使Hyperopt中的算法能够更有效地搜索。

目前，Hyperopt中实现了三种算法:

随机搜索
Tree of Parzen Estimators（TPE）
自适应的TPE

要使用hyperopt，首先应该确定：

要最小化的目标函数
搜索的空间
用于存储所有搜索点评估的数据库
要使用的搜索算法

教程（https://github.com/hyperopt/hyperopt/wiki/FMin）将指导你如何构建代码并使用hyperopt包来获得最佳的超参数。你也可以阅读这篇文章（https://mlwhiz.com/blog/2019/10/10/hyperopt2/）以了解更多关于如何使用Hyperopt的信息。

Ray Tune是在任何规模下进行实验和超参数调优的一个比较流行的选择。Ray利用分布式计算来加速超参数的优化，并为几种最先进的优化算法提供了规模化的实现。

Ray Tune提供的核心功能：