计算机视觉应用方向

news/2025/2/24 17:36:39

计算机视觉可以大致有以下几个方向(更详细的可以参考papers with code):

  • 图像分类
  • 目标检测
  • 图像分割
  • 图像生成
  • 风格迁移
  • 超分辨率

1. 图像分类

图像分类是是视觉识别中的一项基本任务,目的是分辨整个图像并将其分类

请添加图片描述

1.1 常用数据集

  • MNIST:手写数字数据集,包含 60000 张训练集和 10000 张测试集
  • CIFAR-10:包含飞机、汽车、鸟、猫等10个类别,每个类别包含 5000 张训练图像和 1000 张测试图像
  • CIFAR-100:包含 100 个类,每个类别有 500 张训练图像和 100 张测试图像

2. 目标检测

目标检测的目的是找到并识别图像中的物体。如下图所示,一张图中包含多个物体,目标检测的任务是识别图像中不同物体的位置和边界,并将对象分类为各自的类别。

请添加图片描述

2.1 常用数据集

  • COCO
  • VOC

2.2 常用方法

  • one-state(优先考虑速度):YOLO、SSD、Retina Net……
  • two-state(优先考虑精度):R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN……

3.图像分割

基于目标检测,不仅需要检测出图像中存在的物体,还需要将图像中检测到的物体分割出来
主要有以下三种:

  • 语义分割:在像素级别上的分类,将属于同一类的像素归为一类
  • 实例分割:分割出每个实例物体,将属于同一个体的像素归为一类,比如对图片中的多只狗都分割出来,并识别出来它们是不同的个体,而不仅仅是简单的对其进行分类为狗
  • 全景分割:可以表示为语义分割和实例分割的组合,其中图像中每个实例都被分割并预测其身份

请添加图片描述

3.1 常用数据集

  • COCO
  • VOC

3.2 常用方法

  • 语义分割:FCN、U-Net、Mask R-CNN……
  • 实例分割:R-CNN、Faster R-CNN、Mask R-CNN

注:

  • 图像分类重在分类,解决“是什么”的问题;

  • 检测解决“在哪里,是什么”的问题;

  • 分割解决“每一个像素属于哪个类别或物体”的问题。

4. 图像生成

根据已有图片生成新的图片。

请添加图片描述

5. 风格迁移

将图像A的图像风格作用到图像B上,生成新的图片即符合A的风格又保留了B的内容。

请添加图片描述

6. 超分辨率

提高原始图像的分辨率,从低分辨率图片中生成丢失的高频细节来提高图像或视频的分辨率。目标是生成比输入图像分辨率更高的输出图像,同时保留原始内容和结构。

请添加图片描述


http://www.niftyadmin.cn/n/4924498.html

相关文章

MySQL DCL 数据控制

文章目录 1.新建用户2.删除用户3.用户授权4.撤销用户权限5.查看用户权限6.修改用户密码7.权限类型参考文献 1.新建用户 连接到 MySQL 服务器后,管理员或特权用户可以使用 CREATE USER 语句创建新用户。 CREATE USER usernamehost IDENTIFIED BY password;# 示例 C…

《Python入门到精通》os模块详解,Python os标准库

「作者主页」:士别三日wyx 「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:小白零基础《Python入门到精通》 os模块详解 1、文件目录操作os.stat() 获取文件状态os.utime() 修改文件时间os.r…

【构建卷积神经网络】

构建卷积神经网络 卷积网络中的输入和层与传统神经网络有些区别,需重新设计,训练模块基本一致 全连接层:batch784,各个像素点之间都是没有联系的。 卷积层:batch12828,各个像素点之间是有联系的。 impor…

ffplay数据结构分析(一)

本文为相关课程的学习记录,相关分析均来源于课程的讲解,主要学习音视频相关的操作,对字幕的处理不做分析 下面我们对ffplay的相关数据结构进行分析,本章主要是对PacketQueue的讲解 struct MyAVPacketList和PacketQueue队列 ffp…

STM32基于CubeIDE和HAL库 基础入门学习笔记:基础知识理论 开发环境建立

文章目录: 一:开发板和基础知识理论 1.开发板 2.基础知识理论* 二:CubeMX图形化编程 1.设置时钟(心脏) 1.1 开启RCC功能 1.2 开启RTC功能 1.3 配置时钟树 2.设置端口(五官四肢) 3.工…

Java GUI——网页浏览器开发

Java GUI——网页浏览器开发 前言:为了做java课设,学了一手Java GUI。感觉蛮有意思的,写写文章,做个视频记录一下。欢迎大家友善指出我的不足 网页浏览器开发录制视频,从头敲到尾 任务需求 界面需求 菜单栏 文件 【…

ReadableStream流的js处理

需求 今天接了一个gpt的项目。需要对接接口。后端返回的数据是ReadableStream类型的。记录下如何处理ReadableStream类型的数据 代码 const response ... // response 是服务端返回的数据// 创建了一个数据读取器 const reader response.getReader(); // 创建了一个文本解…

uniapp之当你问起“tab方法触发时eventchange也跟着触发了咋办”时

我相信没有大佬会在这个问题上卡两个小时吧,记下来大家就当看个乐子了。 当时问题就是,点击tab头切换的时候,作为tab滑动事件的eventchange同时触发了,使得接口请求了两次 大概是没睡好,我当时脑子老想着怎么阻止它冒…