2025年05月15日

推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025

豆包大模型团队投稿
量子位 | 公众号 QbitAI

字节

2025年05月15日

【新智元导读】近日，DeepMind提出了一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

2025年05月15日

UT-Austin提出新型端到端深度学习编解码器，用图像插值压缩视频

图源：unsplash

原文来源：arXiv

作者：Chao-Yuan Wu、Nayan Singhal、Philipp Kr"ahenbühl

「雷克世界」编译：嗯~是阿童木呀、KABUDA、EVA

我们的数字通信、媒介消费和内容创作越来越多地围绕着视频展开。我们通过这些视频分享、观察和存档我们生活的许多方面，而所有这些都是由强大的视频压缩驱动的。传统的视频压缩是通过费力的手工设计和手工优化进行的。本文提出了一种端到端深度学习编解码器的可选方案。我们的编解码器建立在一个简单的想法上：视频压缩是重复的图像插值。因此，它得益于在深度图像插值和生成方面的最新研究进展。我们的深度视频编解码器性能优于当今流行的编解码器，比如H.261、MPEG-4 Part 2，并且与H.264的性能相媲美。

2025年05月15日

太原科技大学:基于图像处理的泡沫金属孔结构分析

【研究背景】

2025年05月15日

自回归模型 - PixelCNN

介绍

生成模型是近年来受到广泛关注的无监督学习中的一类重要模型。可以将它们定义为一类模型，其目标是学习如何生成与训练数据来自同一数据集的新样本。在训练阶段，生成模型试图解决密度估计的核心任务。在密度估计中，我们的模型学习构建一个估计——pmodel(x)——尽可能类似于不可观察的概率密度函数——pdata(x)。需要说明的是，生成模型应该能够从分布中生成新样本，而不仅仅是复制和粘贴现有样本。一旦我们成功地训练了我们的模型，它就可以用于各种各样的应用，从各种形式的重建，如图像填充、着色和超分辨率到生成艺术品。

2025年05月15日

PyTorch 深度学习实战(39):归一化技术对比(BN/LN/IN/GN)

在上一篇文章中，我们全面解析了注意力机制的发展历程。本文将深入探讨深度学习中的归一化技术

2025年05月15日

如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型

编者按：你是否有过图像检索的烦恼？或是难以在海量化的图像中准确地找到所需图像，或是在基于文本的检索中得到差强人意的结果。对于这个难题，微软亚洲研究院和微软云计算与人工智能事业部的研究人员对轻量化视觉模型进行了深入研究，并提出了一系列视觉预训练模型的设计和压缩方法，实现了视觉 Transformer 的轻量化部署需求。目前该方法和模型已成功应用于微软必应搜索引擎，实现了百亿图片的精准、快速推理和检索。本文将深入讲解轻量化视觉预训练模型的发展、关键技术、应用和潜力，以及未来的机遇和挑战，希望大家可以更好地了解轻量化视觉预训练领域，共同推进相关技术的发展。

醋醋百科网

Good Luck To You!

推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025

给我1张图，生成30秒视频!|DeepMind新作

【新智元导读】近日，DeepMind提出了一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

视频编解码学习之二:编解码框架

UT-Austin提出新型端到端深度学习编解码器，用图像插值压缩视频

太原科技大学:基于图像处理的泡沫金属孔结构分析

自回归模型 - PixelCNN

介绍

PyTorch 深度学习实战(39):归一化技术对比(BN/LN/IN/GN)

如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型