2025年05月23日

一文搞懂“预测模型”:建模思路、模型分类、应用场景

在数据分析领域，预测模型扮演着至关重要的角色。本文旨在为读者提供一份简明扼要的指南，从建模的基本思路到模型的分类，再到具体的应用场景，全方位解读预测模型的构建与运用。通过这篇文章，无论是数据新手还是有经验的分析师，都能获得宝贵的洞见，提升数据分析的准确性和效率。

“建个模型预测一下！”一听到要建模预测，很多同学都会菊花一紧。可以用来做预测模型很多，但是往往领导们喊着“建个模型”的时候，他丢给你的就孤零零的一行数，形如下图：

2025年05月23日

如何使用 TensorFlow 构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

TensorFlow 是一个由谷歌开发的库，并在 2015 年开源，它能使构建和训练机器学习模型变得简单。

2025年05月23日

上节课我们谈到了机器学习的一些实战技巧，比如如何处理数据、选择模型以及调整参数。今天，我们将更深入地探讨机器学习的两大类：监督学习和非监督学习。

监督学习就像是有老师的教学过程。在这个过程中，我们给算法提供带有标签的数据，让算法学习如何根据输入数据预测输出结果。想象一下，如果你是一名学生，老师给了你很多例题和答案，然后让你自己解题，这就是监督学习。

2025年05月23日

在机器学习中，有一项很重要的概念，那就是：过拟合（Overfitting）和欠拟合（Underfitting）。

2025年05月23日

在上一节我们介绍了分类模型的评估，本节我们介绍一下回归模型的评估，对于回归模型的评估指标，常用的指标有：

第一个是均方误差，英文是Mean Squared Error，简写是MSE，它是对每个预测值减去实际值的平均数然后取平方的和再除以总数。

第二个是决定系数，英文是Coefficient of Determination，简写是R^2，它衡量的是回归模型的拟合优度

2025年05月23日

准确预测Fitbit的睡眠得分

在本文的前两部分中，我获取了Fitbit的睡眠数据并对其进行预处理，将这些数据分为训练集、验证集和测试集，除此之外，我还训练了三种不同的机器学习模型并比较了它们的性能。

在第2部分中，我们看到使用随机森林和xgboost默认超参数，并在验证集上评估模型性能会导致多元线性回归表现最佳，而随机森林和xgboost回归的表现稍差一些。

2025年05月23日

欠拟合（Underfitting），过拟合（Overfitting）