解决现实世界问题的四大机器学习策略-白红宇

有的在线学习算法还会“适应”，即随时调整模型，跟随或追踪数据的变化。具体而言，它们会逐渐“遗忘”过时数据，从而适用于环境/模型随时变动的应用程序。

原文翻译：

机器学习有四种广受认可的形式：监督式、无监督式、半监督式和强化式。在研究文献中，这些形式得到了深入的探讨。它们也被纳入了大多数机器学习算法的入门课程。下表对这四种形式作了总结。

Style of Learning	Definition	Characteristic	Examples
Supervised	Supervised learning algorithms make predictions based on a set of examples.	Data has known labels.	Insurance underwriting and fraud
Unsupervised	With unsupervised learning, there is a focus on finding patterns and gaining insight from data.	Labels or output are unknown.	Customer clustering and market basket analysis
Semi-supervised	With semi-supervised learning, you use unlabeled examples with a small amount of labeled data to improve the learning accuracy.	Labels or output are known for a subset of data.	Medical predictions where tests and expert diagnoses are expensive and only part of the population receives them.
Reinforcement	Reinforcement learning analyzes and optimizes the behavior of an agent based on the feedback from the environment.	Focus on making decisions based on previous experience.	Robotics, gaming, navigation, complex decision problems and reward systems.

但一个并不广为人知的概念是机器学习策略，即以创造性的方式，运用基本的机器学习算法，解决现实世界问题。我对这些策略产生了浓厚的兴趣。在这篇文章中，我将探讨四种策略：在线学习、迁移学习、集成学习和深度学习。好在，这四项策略适用于表格中任意一种机器学习形式。

一、在线学习

在线学习使用瞬息万变的数据。这类模型跟着数据及时更新，并不存储先前的数据。有的在线学习算法还会“适应”，即随时调整模型，跟随或追踪数据的变化。具体而言，它们会逐渐“遗忘”过时数据，从而适用于环境/模型随时变动的应用程序。批量（或离线）学习使用静态的数据，可以充当在线学习的热身。在批量学习中，模型一次性完成所有数据的学习。很多在线学习算法使用一个批量/离线算法（以一小批数据为基础），为模型作启动前的热身。这种做法可以显著加快算法的收敛（convergence）速度。

二、迁移学习

迁移学习将一个领域的知识应用到另一个领域。它将旧的数据、模型和参数用于新问题的解决，对于机器学习模型的终身学习而言至关重要。迁移学习是人与生俱来的能力。举个例子，我们会将已经掌握的语言知识（词汇、语法等），应用到新语言的学习中。两种语言越是接近，知识迁移就越简单。

三、集成学习

单学习器模型只用一个学习器（算法），而集成学习使用多个学习器。一般的集成算法包含梯度提升、引导聚集、决策森林、堆栈集成和超级学习器。集成学习可以结合相对较弱（很多情况下，预测精度只略高于随机猜测）的学习器，产生强大、准确的模型。

四、深度学习

深度学习包含多个层，可以学习数据的层级化或多尺度特征。与之相对的是“浅层学习”，即简单地运用普通的机器学习建模算法。通常，浅层学习离不开特征工程（feature engineering），以保障输入以适当的形式呈现给模型，而深度学习在训练时，就自然而然地学会了这些特征。

在用机器学习算法解决日常业务难题时，机器学习策略是我们要考虑的又一个方面。

原文发布时间为：2018-11-6

本文作者：品觉

本文来自云栖社区合作伙伴“”，了解相关信息可以关注“”。