醋醋百科网

Good Luck To You!

机器学习之常用算法基础概念_机器学习算法的5种基本算子

一. 机器学习的流程

  • 收集数据
  • 准备输入数据

融合概率推理和状态空间实现高精度预测和可解释性

来源:DeepHub IMBA

NC | 基于碱基对基序能量的RNA二级结构预测方法

01 背景和动机

大模型“记性差一点”反而更聪明,金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,有时让它“记性差一点”,反而更聪明!

大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)

顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。

由此,模型不再逐字记住训练集内容,但仍能学会语言规律。

75%预训练数据都能删,Jeff Dean新作:全自动筛除低质量数据

Google DeepMind团队开发的DataRater可以全自动评估数据质量,通过元学习自动筛选有价值的数据,提升模型训练效率。DataRater使用元梯度优化,能有效减少训练计算量,提高模型性能,尤其在低质量数据集上效果显著,且能跨不同模型规模进行泛化。

机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。

大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。

MixUp、CutMix、Focal Loss三种技术解决数据不平衡问题

在实际的机器学习应用中,数据集规模有限且类别分布不均衡是一个普遍存在的问题。以医学影像分析为例,正类样本通常仅占总样本的5%左右。基于此类数据训练的分类模型往往会倾向于预测多数类别,虽然能够达到95%的整体准确率,但在识别关键的少数类样本方面表现不佳。

这种现象会引发过拟合、预测偏差以及关键类别召回率偏低等问题,严重影响模型在实际场景中的应用效果。

针对不平衡数据集的挑战,研究界通常采用数据增强技术与损失函数优化相结合的策略。本文将深入分析三种主流解决方案:MixUp数据混合技术、CutMix区域替换增强方法以及Focal Loss焦点损失函数。这些方法从不同维度解决不平衡问题,协同使用时能够显著提升小规模不平衡数据集上的模型性能。

金鱼损失随机剔除token,让AI不再死记硬背

henry 发自 凹非寺

量子位 | 公众号 QbitAI

什么是损失函数(Loss)_损失函数是什么意思

一句话总结

损失函数(Loss Function)是衡量模型预测误差的数学工具。其输入为预测值(模型输出)和真实值(标注数据),输出为一个非负数(Loss值),值越小表示预测越准.

什么是交叉熵(Cross Entropy)_交叉熵的定义

一句话总结

交叉熵(Cross Entropy)是一种常用的损失函数,用来衡量模型预测的概率分布与真实分布之间的差距,广泛应用于分类问题。

非标机械设计方法和基本思路_非标机械设计方法和基本思路有哪些


控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言