作者的系统环境是:
- 笔记本:ThindPad P520
2025年05月11日
昨天,Ultralytics团队正式推出YOLOv8.3.102版本,此次更新聚焦于模型架构优化与开发效率提升,通过引入全新模块、重构代码结构及增强工业级部署能力,为计算机视觉领域的研究者与开发者带来更高效、灵活的目标检测解决方案。以下是本次更新的核心亮点与功能详解:
2025年05月11日
传统的标注,需要使用标注软件人工一个一个的标注,太耗费时间和精力,如果我们有个基础的、通用的模型,但是效果一般,然后想要重新标注,我们就可以使用现有的模型,生成VOC格式的标签文件。
2025年05月11日
布局检测是文档解析领域的核心任务之一,目标是精准定位文档中不同类型的元素(正文、标题、表格、图片等)。尽管布局检测已经研究很多年,但现有的布局检测算法多关注在论文类型的文档,当面对多样性的文档(如教材、考题、研报等)时,其检测效果还是不及预期。
2025年05月11日
近期搞智能体应用,需要使用各种工具模型的服务,包括图像识别,OCR等。于是用FastAPI构建了一系列的工具服务,这是其中之一。
2025年05月11日
Pine 发自 凹非寺
量子位 | 公众号 QbitAI
前脚美团刚发布YOLOv6, YOLO官方团队又放出新版本。
曾参与YOLO项目维护的大神Alexey Bochkovskiy在推特上声称:
2025年05月11日
通过捕获long-range dependency提取全局信息,对各种视觉任务都是很有帮助的,典型的方法是Non-local Network自注意力机制。对于每个查询位置(query position),Non-local network首先计算该位置和所有位置之间一个两两成对的关系,得到一个attention map。然后对attention map所有位置的权重加权求和得到汇总特征,每一个查询位置都得到一个汇总特征,将汇总特征与原始特征相加得到最终输出。对于某个query position,nNon-local network计算的另一个位置与该位置的关系即一个权重值表示这个位置对query位置的重要程度。但现有研究发现不同的query位置其对应的attention map几乎一样,如下图所示