讀古今文學網 > 刷臉背後:人臉檢測 人臉識別 人臉檢索 > 5.4 數據集的預處理 >

5.4 數據集的預處理

Fast R-CNN是一個針對多類檢測的目標框架,而人臉檢測是2類檢測,即人臉和背景。因此,本實驗所用的數據集標注格式和VOC不同,並且提取預選框的方法也不同。本節詳細介紹一下該實驗在訓練和測試時所需要提供的數據集格式。

訓練時需要提供3種文件。

文件1:待訓練的圖片名稱列表文件,通常是.txt類型,如下所示。

文件2:待訓練的圖片名稱和對應的真實人臉邊界框文件,通常是.txt類型。人臉邊界框的坐標格式為:x1, y1, x2, y2,如下所示。

文件3:待訓練的圖片名稱和對應的object proposal,通常是.mat類型。目前有許多算法可以提取圖片的object proposal,如selective search、EdgeBoxes、GOP和LPO、MCG及RIGOR等。Ross提供的源代碼中使用的是selective search算法,但本書使用EdgeBoxes算法提取object proposal。

測試時需要提供待測試的圖片和對應的object proposal矩陣,比如person1.jpg和person1_boxes.mat。下面重點介紹一下如何利用EdgeBoxes[7]提取訓練和測試需要的object proposal。