IDPT技術前沿 | 何為圖像分割？ | IDPT集萃感知官網 - 廣域雷達|雷視一體機|全息路口|車路協同

IDPT技術前沿 | 何為圖像分割？

2022-08-23 | admin

作者：IDPT大臉貓

圖像（語義）分割作為一種pixel-level的視覺任務，近年來在智慧醫療、生物信息、自動駕駛、工業工程等方面取得了不錯的成效。

（圖像分割的三個層次）
一般的圖像分割可分為3個層次：
· 分類：將圖片中的目標分為“人”、“動物”、“背景”等類別
· 目標檢測：檢測圖中的目標并生成相對應的proposal或者說region of interest（ROI）
· 分割：識別目標檢測框中的目標，基于目標像素和目標邊緣梯度信息進行分割，并理解它們都屬于什么對象。

在分割過程中，有兩個粒度級別：
· 語義分割（semantic segmentation）：將圖像中的所有像素劃分為有意義的對象類。這些類是“語義上可解釋的”，并對應于現實世界的類別。例如，你可以將與貓相關的所有像素分離出來，并將它們涂成綠色。這也被稱為dense預測，因為它預測了每個像素的含義。
· 實例分割（instance segmentation）：標識圖像中每個對象的每個實例。

實例分割與語義分割的不同之處：實例分割不是對每個像素進行分類。如果一幅圖像中有三輛車，語義分割將所有的車分類為一個實例，而實例分割則識別每一輛車。

傳統的圖像分割法
傳統的圖像分割方法使用了比較嚴格的人工干預算法和專業知識，效率不如深度學習技術，包括：
1.閾值 - 將圖像分割為前景和背景。指定的閾值將像素分為兩個級別之一，以隔離對象。閾值化將灰度圖像轉換為二值圖像或將彩色圖像的較亮和較暗像素進行區分。
2.K-means聚類 - 算法識別數據中的組，變量K表示組的數量。該算法根據特征相似性將每個數據點(或像素)分配到其中一組。聚類不是分析預定義的組，而是迭代地工作，從而有機地形成組。
3.基于直方圖的圖像分割 - 使用直方圖根據“灰度”對像素進行分組。簡單的圖像由一個對象和一個背景組成。背景通常是一個灰度級，是較大的實體。因此，一個較大的峰值代表了直方圖中的背景灰度。一個較小的峰值代表這個物體，這是另一個灰色級別。
4.邊緣檢測 - 識別亮度的急劇變化或不連續的地方。邊緣檢測通常包括將不連續點排列成曲線線段或邊緣。例如，一塊紅色和一塊藍色之間的邊界

基于深度學習的圖像分割
既然是圖像任務，那么自然想到的就是基于CNN架構的神經網絡。的確，使用CNN進行圖像分割，是將圖像Patch作為CNN的輸入并進行pixel-level標記，通過掃描圖像，每次看一個或幾個像素組成的小“濾鏡”，直到映射出整個圖像。
傳統CNN有全連接層，不能處理不同的輸入大小，因此在圖像分割領域中，更多是使用FCN全卷積網絡（Fully Convolutional Network）。FCN使得，你可以輸入任意尺寸的圖片，而且輸出也是圖片，所以這是一個端到端的網絡。再者，FCN具有更少的參數和更快的計算速度，且最終的輸出層具有更大的感受野，對應于圖像的高度和寬度，而通道數量對應于類的數量。卷積層對每個像素進行分類，以確定圖像的上下文包括目標的位置。

集成學習
將兩個或兩個以上相關分析模型的結果合成為單個。集成學習可以提高預測精度，減少泛化誤差。這樣就可以對圖像進行精確的分類和分割。通過集成學習嘗試生成一組弱的基礎學習器，對圖像的部分進行分類，并組合它們的輸出，而不是試圖創建一個單一的最優學習者。

模型1 SegNet
一種基于深度編碼器和解碼器的架構，也稱為語義像素分割。它包括對輸入圖像進行低維編碼，然后在解碼器中利用方向不變性能力恢復圖像。然后在解碼器端生成一個分割圖像。

模型2 DeepLab
使用DeepLab的一個主要動機是在幫助控制圖像信號抽取的同時執行圖像分割 —— 減少樣本的數量和網絡必須處理的數據量。另一個動機是啟用多尺度上下文特征學習 —— 從不同尺度的圖像中聚合特征。DeepLab使用ImageNet預訓練的ResNet進行特征提取。DeepLab使用空洞卷積而不是規則的卷積。每個卷積的不同擴張率使ResNet塊能夠捕獲多尺度的上下文信息。DeepLab由三個部分組成：
· Atrous convolutions：空洞卷積，可以擴展或收縮卷積濾波器的感受野。
· ResNet：常用backbone。
· Atrous spatial pyramid pooling (ASPP)：提供多尺度信息。它使用一組具有不同擴展率的復雜函數來捕獲大范圍的上下文。ASPP還使用全局平均池化(GAP)來合并圖像級特征并添加全局上下文信息。

模型3 U-Net

(U-Net)

醫學上常用的圖像分割模型。

模型4 Mask R-CNN
基于Faster R-CNN，添加了一條分支用于圖像分割，其中使用了RoIAlign改進了RolPooling丟失像素信息過于嚴重的問題。

模型5 Gated SCNN
別出心裁地在網絡中使用了圖像分類+輪廓預測兩個stream，以及使用了gated的思想，總之想法十分hack，我們會在后續文章中詳解次模型。

模型6 Lawin Transformer
vision transformer用于圖像分割初嘗試，SOTA二哥。我們會在后續文章中詳解此模型。

模型7 Segmentation Transformer
vision transformer用于圖像分割初嘗試，SOTA大哥。我們會在后續文章中詳解此模型。

圖像分割的應用

圖像分割有助于確定目標之間的關系，以及目標在圖像中的上下文。應用包括人臉識別、車牌識別和衛星圖像分析。例如，零售和時尚等行業在基于圖像的搜索中使用了圖像分割。自動駕駛汽車用它來了解周圍的環境。

目標檢測和人臉檢測

這些應用包括識別數字圖像中特定類的目標實例。語義對象可以分類成類，如人臉、汽車、建筑物或貓。
· 人臉檢測 - 一種用于許多應用的目標檢測，包括數字相機的生物識別和自動對焦功能。算法檢測和驗證面部特征的存在。例如，眼睛在灰度圖像中顯示為谷地。
· 醫學影像 - 從醫學影像中提取臨床相關信息。例如，放射學家可以使用機器學習來增強分析，通過將圖像分割成不同的器官、組織類型或疾病癥狀。這可以減少運行診斷測試所需的時間。
· 機器視覺 - 捕捉和處理圖像，為設備提供操作指導的應用。這包括工業和非工業的應用。機器視覺系統使用專用攝像機中的數字傳感器，使計算機硬件和軟件能夠測量、處理和分析圖像。例如，檢測系統為汽水瓶拍照，然后根據合格 - 不合格標準分析圖像，以確定瓶子是否被正確地填充。

視頻監控 - 視頻跟蹤和運動目標跟蹤
這涉及到在視頻中定位移動物體。其用途包括安全和監視、交通控制、人機交互和視頻編輯。
· 自動駕駛 - 自動駕駛汽車必須能夠感知和理解他們的環境，以便安全駕駛。相關類別的對象包括其他車輛、建筑物和行人。語義分割使自動駕駛汽車能夠識別圖像中的哪些區域可以安全駕駛。
· 虹膜識別 - 一種能識別復雜虹膜圖案的生物特征識別技術。它使用自動模式識別來分析人眼的視頻圖像。
· 人臉識別 - 從視頻中識別個體。這項技術將從輸入圖像中選擇的面部特征與數據庫中的人臉進行比較。

零售圖像識別

這個應用讓零售商了解貨架上商品的布局。算法實時處理產品數據，檢測貨架上是否有商品。如果有產品缺貨，他們可以找出原因，通知跟單員，并為供應鏈的相應部分推薦解決方案。

集萃感知的人工智能雷達視覺融合一體機是一款集毫米波雷達、智能視覺攝像機于一體的智能交通路側感知產品，該產品將融合毫米波雷達和攝像頭的感知優勢，通過雷達電磁調控、信號深度學習、雷視數據級融合等人工智能雷達技術，實現未來新一代智慧交通中——智能化交通信息全息采集及管理功能。

新聞中心

你所關心的是我們走過的每一步