讀古今文學網 > 刷臉背後:人臉檢測 人臉識別 人臉檢索 > 1.2 人臉檢測、人臉識別與人臉檢索常用的數據集 >

1.2 人臉檢測、人臉識別與人臉檢索常用的數據集

人臉檢測和人臉識別算法都需要在大量的人臉數據集上驗證、測試,當前比較經典和常用的人臉數據集有LFW和FDDB。本書還收集了另外兩個數據集,分別命名為Wanwan1和Wanwan2。本節分別對這四個數據集進行介紹。

1.2.1 LFW數據集

LFW(Labeled Faces in the Wild)數據集[1]是由美國馬薩諸塞大學阿姆特分校收集整理並維護的,是為了在不受限制的環境下研究人臉識別問題而設計的[2]。該數據集中有13 233張圖片,這些圖片均從網上收集而來,得到這些原始圖像後,經過處理,最後數據集中每張圖片的尺寸都是250×250像素的,並且每張圖片都以圖像中人物的名字命名,不同人的圖片被放在不同的文件夾中。一共有5749個文件夾,即5749個人。其中,4069個人只有一張圖片,而1680個人有多張圖片。如lfw\Aaron_Peirsol中有四張圖片,命名形式如圖1-2所示。

LFW數據集可用於人臉檢測、人臉識別和人臉檢索。

圖1-2 LFW中Aaron_Peirsol文件夾下的圖片

1.2.2 FDDB數據集

FDDB(Face Detection Data Set and Benchmark)數據集[3]由Vidit等人[4]收集整理,現由美國馬薩諸塞大學阿姆特分校維護。設計該數據集的目的是為人臉檢測算法提供一個數據集,並且在該平台上公平地比較和評估不同人臉檢測算法的效果。該數據集中共有28 736張人臉圖片,其中包含5171張個人臉的2845張圖片來自數據集Faces in the Wild[5]。此外,該數據集還對圖片中的人臉區域提供了準確的橢圓形的註解框。FDDB數據集中包含的人臉圖片有不同姿勢的、遮擋的、低分辨率的,甚至有失焦的,有彩色圖像,也有灰度圖像。如圖1-3所示,呈現了一些FDDB數據集中的圖片。FDDB數據集是世界上權威的人臉檢測評估平台之一,它公佈了大量算法評估結果的ROC曲線,如圖1-4所示。

FDDB數據集主要用於人臉檢測和人臉檢索。

圖1-3 FDDB數據集中的圖像示例

圖1-4 不同人臉檢測算法在FDDB數據集上檢測準確度的ROC曲線[3]

1.2.3 Wanwan1數據集

Wanwan1數據集中包含100張側臉圖片,這些圖片均來自網上。這些圖片尺寸大小不一,場景也不一致。最重要的是,這些圖像中的人臉均為側臉。如圖1-5所示,呈現了Wanwan1數據集中的一些圖片。

圖1-5 Wanwan1數據集中的圖片

1.2.4 Wanwan2數據集

Wanwan2數據集中包含了100張多角度(甚至是360°)的人臉圖片,下面呈現了Wanwan2中的一些圖像,有360°人臉,如圖1-6(a)所示;有90°人臉,如圖1-6(b)所示。

圖1-6 Wanwan2數據集中的圖片