一. 机器学习的流程
- 收集数据
- 准备输入数据
2025年09月05日
训练大模型时,有时让它“记性差一点”,反而更聪明!
大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)。
顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。
由此,模型不再逐字记住训练集内容,但仍能学会语言规律。
2025年09月05日
Google DeepMind团队开发的DataRater可以全自动评估数据质量,通过元学习自动筛选有价值的数据,提升模型训练效率。DataRater使用元梯度优化,能有效减少训练计算量,提高模型性能,尤其在低质量数据集上效果显著,且能跨不同模型规模进行泛化。
机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。
大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。
2025年09月05日
在实际的机器学习应用中,数据集规模有限且类别分布不均衡是一个普遍存在的问题。以医学影像分析为例,正类样本通常仅占总样本的5%左右。基于此类数据训练的分类模型往往会倾向于预测多数类别,虽然能够达到95%的整体准确率,但在识别关键的少数类样本方面表现不佳。
这种现象会引发过拟合、预测偏差以及关键类别召回率偏低等问题,严重影响模型在实际场景中的应用效果。
针对不平衡数据集的挑战,研究界通常采用数据增强技术与损失函数优化相结合的策略。本文将深入分析三种主流解决方案:MixUp数据混合技术、CutMix区域替换增强方法以及Focal Loss焦点损失函数。这些方法从不同维度解决不平衡问题,协同使用时能够显著提升小规模不平衡数据集上的模型性能。
2025年09月05日
一句话总结
损失函数(Loss Function)是衡量模型预测误差的数学工具。其输入为预测值(模型输出)和真实值(标注数据),输出为一个非负数(Loss值),值越小表示预测越准.
2025年09月05日
一句话总结
交叉熵(Cross Entropy)是一种常用的损失函数,用来衡量模型预测的概率分布与真实分布之间的差距,广泛应用于分类问题。