KureiSersen site

导论

· Edwin.Liang

为什么机器学习被深度学习取代

只需一个包含足够多神经元的隐层,和多层前馈网络就能够以任意精度逼近任意复杂度的连续函数,既能作回归,也能做分类,而且不需要复杂的特征工程

独立同分布

  1. 独立(Independent):这意味着每个样本的获取不受其他样本的影响。换句话说,每个数据点是独立抽取的,一个数据点的特征或结果不会影响其他数据点。
  2. 同分布(Identically Distributed):这表明所有样本都来自同一个概率分布。无论样本是在数据集的哪个位置(例如,数据集的开始、中间或结束),它们都应该具有相同的分布特性。

例子说明:

假设我们有一个用于预测房价的机器学习模型,我们从多个城市收集了数据作为训练集。在这个例子中:

  • 独立性:每一个房屋数据(例如,面积、位置、卧室数量等)都是独立收集的,不受其他房屋数据的影响。即一个房屋的特征和价格不会影响或决定另一个房屋的特征和价格。
  • 同分布性:我们假设所有的数据都来自同一个“房价分布”。这意味着无论这些数据是从纽约还是洛杉矶收集的,它们都遵循相同的分布规律。例如,面积和房价之间的关系在整个数据集中是一致的。

现实世界的挑战:

在实际应用中,$i.i.d.$假设往往不完全成立。例如,如果我们的训练数据主要来自小城市,但我们的模型被用来预测大城市的房价,那么这个假设可能被违反。大城市的房价可能受到不同的影响因素,或者这些影响因素与小城市的影响因素不同。这种情况下,模型可能无法准确预测大城市的房价,因为训练数据和预测数据不是同分布的。

因此,在实践中,重要的是要识别和理解何时这个假设可能不成立,并考虑如何调整模型或数据以应对这种情况。

确定合适的假设空间

  1. 假设空间(支持向量机、线性回归、决策树、神经网络都是假设空间)

  2. 在机器学习中,确定最适合的假设空间是一个关键步骤,因为它直接影响模型的性能和适用性。假设空间指的是模型可以考虑的所有可能的假设或函数集合。选择适当的假设空间需要考虑以下几个关键因素:

    1. 问题的性质:您的问题是分类、回归还是其他类型的问题?不同类型的问题可能需要不同的假设空间。例如,分类问题常用的假设空间包括决策树、神经网络等,而回归问题可能会使用线性回归、支持向量机等。

    2. 数据的特性:数据的量、质和类型(如连续、分类、时间序列等)会影响适合的假设空间。大数据集可能需要更复杂的模型来捕捉细微的模式,而小数据集则可能更适合简单模型以避免过拟合。

    3. 可解释性:某些应用场景需要模型具有较高的可解释性。例如,在医疗或金融领域,理解模型的决策过程很重要。在这些情况下,可能会偏向于选择更简单、更透明的模型。

    4. 计算资源:一些模型(如深度学习模型)需要大量的计算资源。如果资源有限,您可能需要选择更节省资源的模型。

    5. 性能要求:对于性能要求极高的应用,可能需要选择更复杂、计算密集的模型来达到最佳性能。

    6. 历史数据和先验知识:如果有关于问题的历史数据或领域专家的先验知识,可以利用这些信息来指导假设空间的选择。

    7. 实验和验证:最后,通过实验和交叉验证等技术,您可以比较不同假设空间下的模型性能,以找到最适合的选择。

      在实践中,选择假设空间通常需要权衡这些因素,并可能需要通过实验和迭代来找到最佳解决方案。此外,可以通过特征工程、超参数调整等方法来进一步优化选定的假设空间。

机器学习三要素

  1. 模型:根据具体问题,确定假设空间(线性模型、深度模型等)
  2. 策略:根据评价标准,确定选取最有模型的策略,这一步骤要确定$LOSS$函数
  3. 算法:求解损失函数,确定最优模型