2025年03月27日

神经网络中的随机失活方法

1. Dropout

如果模型参数过多，而训练样本过少，容易陷入过拟合。过拟合的表现主要是：在训练数据集上 loss 比较小，准确率比较高，但是在测试数据上 loss 比较大，准确率比较低。Dropout 可以比较有效地缓解模型的过拟合问题，起到正则化的作用。Dropout，中文是随机失活，是一个简单又机器有效的正则化方法，可以和 L1 正则化、L2 正则化和最大范数约束等方法互为补充。在训练过程中，Dropout 的实现是让神经元以超参数 pp 的概率停止工作或者激活被置为 0，

2025年03月27日

白话文讲大模型(一):DeepSeek V3/R1的技术创新之 MOE、MLA、FP8

一、导读

今天抽空听完了《Maunus 产品合伙人张涛 - 手把手带你解读 DeepSeek R1 技术创新》，直接路转粉，产品同学能把技术讲的非常通透，非常不易，受到启发我也决定用通俗的语言介绍下Deepseek，再次读了一遍DeepSeek_R1/DeepSeek_V3摘录核心要点跟大家分享，本文重点涵盖训练范式、MOE、MLA、FP8混合训练，在下一篇中将介绍MTP、All2All通信、EP策略分析等偏工程架构的优化

2025年03月27日

ECCV 2022丨力压苹果MobileViT，这个轻量级视觉模型新架构火了

智东西（公众号：zhidxcom）

作者 | 心缘

编辑 | 漠影

当下，计算机视觉领域最热议的方向，莫过于近两年越来越火的视觉Transformer（ViT）和传统的卷积神经网络（ConvNet），谁才能主宰计算机视觉的未来？

2025年03月27日

性能超过人类炼丹师，AutoGluon 低调开源

机器之心报道

机器之心编辑部

自动机器学习效果能有多好？比如让 MobileNet1.0 backbone 的 YOLO3 超过 ResNet-50 backbone 的 faster-rcnn 六个点？AutoGluon 的问世说明，人类炼丹师可能越来越不重要了。

2025年03月27日

人工智能3分钟入门到精通!计算机AI视觉简单易上手!

ImageAI是一套Python的电脑视觉编程库，主要提供三大功能：Image prediction、Object detection、Video object Detection and tracking。

作者是两个住在奈及利亚拉哥斯的黑人兄弟Moses Olafenwa和John Olafenwa，强调编程设计皆是自学而来，除了ImageAI，他们还另外开发了一套基于PyTorch的开源Deep learning framework，这些套件展现了他们非凡的编程功力和AI学养。

2025年03月27日

大汇总 | 一文学会八篇经典CNN论文

文章来源：公众号【机器学习炼丹术】

本文主要是回顾一下一些经典的CNN网络的主要贡献。

本文强烈建议收藏

论文传送门

【google团队】

[2014.09]inception v1: https://arxiv.org/pdf/1409.4842.pdf

醋醋百科网

Good Luck To You!

神经网络中的随机失活方法

1. Dropout

白话文讲大模型(一):DeepSeek V3/R1的技术创新之 MOE、MLA、FP8

一、导读

ECCV 2022丨力压苹果MobileViT，这个轻量级视觉模型新架构火了

性能超过人类炼丹师，AutoGluon 低调开源

人工智能3分钟入门到精通!计算机AI视觉简单易上手!

大汇总 | 一文学会八篇经典CNN论文

论文传送门

醋醋百科网

Good Luck To You!

神经网络中的随机失活方法

1. Dropout

白话文讲大模型(一):DeepSeek V3/R1的技术创新 之 MOE、MLA、FP8

一、导读

ECCV 2022丨力压苹果MobileViT，这个轻量级视觉模型新架构火了

性能超过人类炼丹师，AutoGluon 低调开源

人工智能3分钟入门到精通!计算机AI视觉简单易上手!

大汇总 | 一文学会八篇经典CNN论文

论文传送门

白话文讲大模型(一):DeepSeek V3/R1的技术创新之 MOE、MLA、FP8