Skip to content

Latest commit

 

History

History
193 lines (103 loc) · 13.4 KB

chapter0.1_概述.md

File metadata and controls

193 lines (103 loc) · 13.4 KB

GitHub 微信公众号 知乎 B站 CSDN

第 0 章 计算机视觉概述

作者: 张伟 (Charmve)

日期: 2021/06/12


0.1 概述

「机器能够模拟人类视觉系统」的幻想已经过时了。自 1960 年代第一批学术论文出现以来,计算机视觉已经走了很远,现代系统已经出现,且它们可以集成到移动应用中。

今天,由于其广泛应用和巨大潜力,计算机视觉成为最热的人工智能和机器学习子领域之一。其目标是:复制人类视觉的强大能力。

但是,到底什么是计算机视觉?它在不同行业中的应用现状如何?知名的商业用例有哪些?典型的计算机视觉任务是什么?

本文将介绍计算机视觉的基础概念和现实应用,对任何听说过计算机视觉但不确定它是什么以及如何应用的人,本文是了解计算机视觉这一复杂问题的便捷途径。

0.1.1 什么是计算机视觉

0.1.2 计算机视觉解决什么问题

人类能够理解和描述图像中的场景。以下图0.1为例,人类能做到的不仅仅是检测到图像前景中有四个人、一条街道和几辆车。

image

图0.1 披头士专辑《艾比路》的封面。

(图源:https://liveforlivemusic.com/news/beatles-abbey-road/)

除了这些基本信息,人类还能够看出图像前景中的人正在走路,其中一人赤脚,我们甚至知道他们是谁。我们可以理性地推断出图中人物没有被车撞击的危险,白色的大众汽车没有停好。人类还可以描述图中人物的穿着,不止是衣服颜色,还有材质与纹理。

这也是计算机视觉系统需要的技能。简单来说,计算机视觉解决的主要问题是:

给出一张二维图像,计算机视觉系统必须识别出图像中的对象及其特征,如形状、纹理、颜色、大小、空间排列等,从而尽可能完整地描述该图像。

0.1.3 计算机视觉解决什么问题

计算机视觉完成的任务远超其他领域,如图像处理、机器视觉,尽管它们存在一些共同点。接下来,我们就来了解一下这些领域之间的差异。

  • 图像处理

图像处理旨在处理原始图像以应用某种变换。其目标通常是改进图像或将其作为某项特定任务的输入,而计算机视觉的目标是描述和解释图像。例如,降噪、对比度或旋转操作这些典型的图像处理组件可以在像素层面执行,无需对图像整体具备全面的了解。

  • 机器视觉

机器视觉是计算机视觉用于执行某些(生产线)动作的特例。在化工行业中,机器视觉系统可以检查生产线上的容器(是否干净、空置、无损)或检查成品是否恰当封装,从而帮助产品制造。

  • 计算机视觉

计算机视觉可以解决更复杂的问题,如人脸识别、详细的图像分析(可帮助实现视觉搜索,如 Google Images),或者生物识别方法。

0.1.4 行业应用

人类不仅能够理解图像中的场景,稍加训练,还能解释书法、印象派画家、抽象画,以及胎儿的二维超声图像。

从这个角度来看,计算机视觉领域尤其复杂,它拥有大量的实际应用。

从电商到传统行业,各种类型和规模的公司现在都可以利用计算机视觉的强大能力,这是依赖于人工智能和机器学习(更具体地说是计算机视觉)的创新所带来的利好。

下面我们就来看看,近年来受计算机视觉影响最大的行业应用。

零售业

近年来,计算机视觉在零售业的应用已成为最重要的技术趋势之一。下文将介绍一些常见的用例。如果你想对计算机视觉在零售业的潜在应用有更详细的了解,请参考:https://tryolabs.com/resources/retail-innovations-machine-learning/。

行为追踪

实体零售店利用计算机视觉算法和摄像头,了解顾客及其行为。

计算机视觉算法能够识别人脸,确定人物特征,如性别或年龄范围。此外,零售店还可以利用计算机视觉技术追踪顾客在店内的移动轨迹,分析其移动路线,检测行走模式,并统计零售店店面受到行人注意的次数。

image

图0.2 行为追踪

添加视线方向检测后,零售店能够回答这一重要问题:将店内商品放在哪个位置可以提升消费者体验,最大化销售额。

计算机视觉还是开发防盗窃机制的强大工具。人脸识别算法可用于识别已知的商店扒手,或检测出某位顾客将商品放入自己的背包。

库存管理

计算机视觉在库存管理方面有两个主要的应用。

通过安防摄像头图像分析,计算机视觉算法可以对店内剩余商品生成非常准确的估计。对于店铺管理者来说,这是非常宝贵的信息,它可以帮助管理者立即察觉不寻常的货物需求,并及早作出反应。

另一个常见应用是:分析货架空间利用情况,识别次优配置。除了发现被浪费的空间以外,此类算法还可以提供更好的货品摆放方案。

制造业

生产线上的主要问题是机器中断或残次品,这些问题会导致生产延迟和利润损失。

计算机视觉算法被证实是实施预测性维护的好方法。算法通过分析(来自机器人身上摄像头等的)视觉信息,预先发现机器的潜在问题。此类系统可以预测包装或汽车装配机器人是否会中断,这是一项巨大的贡献。

这同样可用于降低不良率,系统可以检测出整个生产线上各个组件中的缺陷。这使得制造商实时响应,采取解决办法。缺陷可能不那么严重,生产流程可以继续,但是产品以某种方式被标记,或者被指向特定的生产路径。但是,有时停止生产线是必要的。为了进一步的利益,此类系统可以针对每个用例进行训练,按类型和严重程度对缺陷进行分类。

医疗行业

在医疗行业中,现有计算机视觉应用的数量非常庞大。

毫无疑问,医疗图像分析是最著名的例子,它可以显著提升医疗诊断流程。此类系统对 MRI 图像、CT 扫描图像和 X 光图像进行分析,找出肿瘤等异常,或者搜索神经系统疾病的症状。

在很多情况下,图像分析技术从图像中提取特征,从而训练能够检测异常的分类器。但是,一些特定应用需要更细化的图像处理。例如,对结肠镜检查图像进行分析时,分割图像是必要的,这样才能找出肠息肉,防止结直肠癌。

图0.3 胸腔 3D 渲染 CT 扫描图像的体分割。

(图源:https://en.wikipedia.org/wiki/Image_segmentation)

上图是观察胸腔元素所需的图像分割结果。该系统分割每个重要部分并着色:肺动脉(蓝色)、肺静脉(红色)、纵膈(黄色)和横膈(紫色)。

目前大量此类应用已经投入使用,如估计产后出血量、量化冠状动脉钙化情况、在没有 MRI 的情况下测定人体内的血流量。

但是,医疗图像并非计算机视觉在医疗行业中唯一的用武之地。比如,计算机视觉技术为视障人士提供室内导航帮助。这些系统可以在楼层平面图中定位行人和周围事物等,以便实时提供视觉体验。视线追踪和眼部分析可用于检测早期认知障碍,如儿童自闭症或阅读障碍,这些疾病与异常注视行为高度相关。

自动驾驶

你是否思考过,自动驾驶汽车如何「看」路?计算机视觉在其中扮演核心角色,它帮助自动驾驶汽车感知和了解周围环境,进而恰当运行。

计算机视觉最令人兴奋的挑战之一是图像和视频目标检测。这包括对不同数量的对象进行定位和分类,以便区分某个对象是交通信号灯、汽车还是行人,如下图所示:

自动驾驶汽车目标检测

图0.4 自动驾驶汽车目标检测。

(图源:https://cdn-images-1.medium.com/max/1600/1*q1uVc-MU-tC-WwFp2yXJow.gif)

此类技术,加上对来自传感器和/或雷达等来源的数据进行分析,使得汽车能够「看见」。

图像目标检测是一项复杂的强大任务,之前我们曾经讨论过,参见:https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。

另一篇文章从人类-图像交互的角度探讨这一主题,参见:https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。

保险业

计算机视觉在保险业中的应用影响很大,尤其是在理赔处理中。

计算机视觉应用可以指导客户以视觉形式进行理赔文件处理。它可以实时分析图像并发送至适合的保险经纪人。同时,它可以估计和调整维护费用,确定是否在保险覆盖范围内,甚至检测是否存在保险欺诈。所有这些最大程度上缩短了索赔流程,为客户提供更好的体验。

从预防的角度来看,计算机视觉在避免意外事故方面用处极大。大量可用于阻止碰撞的计算机视觉应用被整合到工业机械、汽车和无人机中。这是风险管理的新时代,可能改变整个保险业。

农业

计算机视觉对农业有极大影响,尤其是精准农业。

在粮食生产这一全球经济活动中,存在一系列宝贵的计算机视觉应用。粮食生产面临一些反复出现的问题,之前这些问题通常由人类监控。而现在,计算机视觉算法可以检测或合理预测病虫害。此类早期诊断可帮助农民快速采取合适措施,减少损失,保证生产质量。

另一项长期挑战是除草,因为杂草对除草剂产生抗药性,可能给农民带来严重损失。现在出现了配备有计算机视觉技术的机器人,它们可以监控整片农田,精准喷洒除草剂。这极大地节约了使用农药量,为地球环境和生产成本均带来了极大的益处。

土壤质量也是农业中的一大主要因素。一些计算机视觉应用可以从手机拍摄的照片中识别出土壤的潜在缺陷和营养缺乏问题。分析之后,这些应用会针对检测出的土壤问题,提供土壤恢复技术和可能的解决方案。

计算机视觉还可用于分类。一些算法通过识别水果、蔬菜甚至花卉的主要特性(如大小、质量、重量、颜色、纹理等),对其进行分类。这些算法还能够检测缺陷,估计出哪些农产品保鲜期较长、哪些应该放置在本地市场售卖。这极大延长了农产品的保鲜期,减少了农产品上市前所需时间。

安防

与零售业类似,对安全具备高要求的企业(如银行或赌场)可从计算机视觉应用中获益,这些应用对安防摄像头拍摄的图像进行分析,从而识别顾客。

而从另一个层面上来讲,计算机视觉是国土安全任务中的强大工具。它可用于改进港口货物检验,或者监控敏感场所,如大使馆、发电站、医院、铁路和体育场。这里,计算机视觉不仅能够分析和分类图像,还能对场景提供详细且有意义的描述,为决策实时提供关键因素。

通常,计算机视觉广泛应用于国防任务,如侦察敌军地形、自动确认图像中的敌军、自动化车辆和机器移动,以及搜索援救。