本文原文来自DataLearnerAI官方博客:什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型? | 数据学习者官方网站(Datalearner)
2025年06月29日
本文原文来自DataLearnerAI官方博客:什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型? | 数据学习者官方网站(Datalearner)
2025年06月29日
并行运行 70B 大模型
我们已经看到,量化已经成为在低端 GPU(比如 Colab、Kaggle 等)上加载大型语言模型(LLMs)的最常见方法了,但这会降低准确性并增加幻觉现象。
那如果你和你的朋友们把一个大型语言模型分着用呢?
2025年06月29日
1. 线性回归和高斯分布关系
2. 先验概率、贝叶斯概率、极大似然估计
3. HMM 隐马尔可夫模型 jieba 分词原理,拒绝采样、重要性采样、langevin采样
4. CNN 卷积计算与维度变化
5. ResNet 残差结构、SeNet 结构
6. 自回归序列 RNN、LSTM、GRU,手写 LSTM 自回归训练
2025年06月29日
作者 | 瑞溪
编辑 | Vincent
AI 前线导读:AI 前线本周带来第 35 篇论文解读,本期要解读的论文来自阿里巴巴,主题是:电商搜索全局排序方法。一个好的排序算法可以为电商带来销量的巨大提升,如果你也是这一领域的开发者,希望阿里巴巴的这篇论文解读对你能有所启发。
更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
2025年06月29日
文末送一门【类ChatGPT微调实战特训】含32次课及课件、答疑+13本电子书