1. Dropout
如果模型参数过多,而训练样本过少,容易陷入过拟合。过拟合的表现主要是:在训练数据集上 loss 比较小,准确率比较高,但是在测试数据上 loss 比较大,准确率比较低。Dropout 可以比较有效地缓解模型的过拟合问题,起到正则化的作用。Dropout,中文是随机失活,是一个简单又机器有效的正则化方法,可以和 L1 正则化、L2 正则化和最大范数约束等方法互为补充。在训练过程中,Dropout 的实现是让神经元以超参数 pp 的概率停止工作或者激活被置为 0,
2025年03月27日
如果模型参数过多,而训练样本过少,容易陷入过拟合。过拟合的表现主要是:在训练数据集上 loss 比较小,准确率比较高,但是在测试数据上 loss 比较大,准确率比较低。Dropout 可以比较有效地缓解模型的过拟合问题,起到正则化的作用。Dropout,中文是随机失活,是一个简单又机器有效的正则化方法,可以和 L1 正则化、L2 正则化和最大范数约束等方法互为补充。在训练过程中,Dropout 的实现是让神经元以超参数 pp 的概率停止工作或者激活被置为 0,
2025年03月27日
今天抽空听完了《Maunus 产品合伙人张涛 - 手把手带你解读 DeepSeek R1 技术创新》,直接路转粉,产品同学能把技术讲的非常通透,非常不易,受到启发我也决定用通俗的语言介绍下Deepseek,再次读了一遍DeepSeek_R1/DeepSeek_V3摘录核心要点跟大家分享,本文重点涵盖训练范式、MOE、MLA、FP8混合训练,在下一篇中将介绍MTP、All2All通信、EP策略分析等偏工程架构的优化
2025年03月27日
智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影
当下,计算机视觉领域最热议的方向,莫过于近两年越来越火的视觉Transformer(ViT)和传统的卷积神经网络(ConvNet),谁才能主宰计算机视觉的未来?
2025年03月27日
机器之心报道
机器之心编辑部
自动机器学习效果能有多好?比如让 MobileNet1.0 backbone 的 YOLO3 超过 ResNet-50 backbone 的 faster-rcnn 六个点?AutoGluon 的问世说明,人类炼丹师可能越来越不重要了。
2025年03月27日
ImageAI是一套Python的电脑视觉编程库,主要提供三大功能:Image prediction、Object detection、Video object Detection and tracking。
作者是两个住在奈及利亚拉哥斯的黑人兄弟Moses Olafenwa和John Olafenwa,强调编程设计皆是自学而来,除了ImageAI,他们还另外开发了一套基于PyTorch的开源Deep learning framework,这些套件展现了他们非凡的编程功力和AI学养。
2025年03月27日
文章来源:公众号【机器学习炼丹术】
本文主要是回顾一下一些经典的CNN网络的主要贡献。
本文强烈建议收藏
【google团队】