當前位置: 首頁 >  科技 > 正文

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

2021-06-21     來源:百家號:

原創 Synced 機器之心

機器之心分析師網絡

作者:Jiying

編輯:Joni

在這篇文章中以兩篇文章為基礎,分別討論了聲音、相機陷阱(camera traps)是如何實現野生動物監測的。此外,最后一篇文章還討論了如何利用人工智能技術輔助解決野生動物偷獵(wildlife poaching)的問題,即對偷獵者軌跡的預測問題。

0 引言

近年來,生物多樣性危機,即世界范圍內的物種損失和生態系統的破壞問題,正在全球范圍內持續加速,生物多樣性正在迅速減少。例如,許多物種如老虎和犀牛,由于非法采伐(即偷獵)而面臨滅絕的危險。研究動物的分布、運動和行為對解決環境挑戰至關重要,如疾病的傳播、入侵物種、氣候和土地使用的變化等等。因此,迫切需要部署可擴展和具有成本效益的監測技術,以更好地模擬和了解野生動物及其居住的環境。

隨著人工智能的快速發展,人工智能技術也被引入到野生動物研究和保護中。哈佛大學、谷歌、英特爾、DeepMind,以及國內的快手、阿里等等眾多研究機構、企業,甚至包括一些政府機構,都已經投入到了這項工作中,且研發和部署了相應的產品。我們在這篇文章中以兩篇文章為基礎,分別討論了聲音、相機陷阱(camera traps)是如何實現野生動物監測的。此外,最后一篇文章還討論了如何利用人工智能技術輔助解決野生動物偷獵(wildlife poaching)的問題,即對偷獵者軌跡的預測問題。

1 利用深度信息進行野生動物監測 [8]

相機陷阱(Camera traps)是生物學特別是生物多樣性研究中的一個成熟工具。不過,盡管相機陷阱能夠提供關于場景的豐富的信息,同時促進了傳統人工生態學方法的自動化,但是包含深度估計信息(Depth estimation)的相機陷阱并沒有得到廣泛的部署和應用。本文提出了一種基于深度相機陷阱的自動方法,利用深度估計來探測和識別動物。為了檢測和識別單個動物,作者提出了一種新的方法 D-Mask R-CNN 用于實例分割。D-Mask R-CNN 是一種基于深度學習的技術,用于檢測和劃分圖像或視頻片段中出現的每個不同的興趣對象。

1.1 關于 Camera traps 的背景知識

相機陷阱是一項連續監測動物的技術。具體指使用動作傳感器、紅外探測器或其他光束作為觸發機關的遙控相機。它常被用來拍攝攝影師不容易直接拍得的畫面。相機陷阱能夠提供可用于探測動物的線索信息(參見圖 1(頂部)),以實現在動物群中區分單個動物(參見圖 1(底部)),在觀察環境中定位動物以及促進生態學研究的自動化發展,如估計種群密度等。不過 Camera traps 并沒有在野外廣泛部署[1]。

在計算機視覺中,距離測量由圖像或視頻片段中的深度通道來表示。給定一個灰度圖像作為相機陷阱的視覺輸出,例如,在夜間或黃昏使用紅外攝像機監測野生動物(參見圖 1(左上)),深度通道捕獲距離信息(參見圖 1(右上))。深度通道通常以熱圖的形式呈現,其中藍色表征的距離最高,紅色表征的距離最低。帶有深度通道的彩色圖像被稱為 RGB-D 圖像,其中圖像的顏色成分由紅、綠、藍三條通道編碼,而第四條通道顯示深度信息(參見圖 1(底部))。

圖 1. 深度信息支持對動物進行更可靠的檢測,也支持區分成群結隊的單個動物。深度信息使用熱圖進行編碼,其中表征距離最高的是藍色,最低的是紅色

立體視覺是獲取深度信息的主要方法之一。給定兩臺相機,在水平方向上相互移動,觀察到的場景的兩個不同的視角被用來生成觀察到的場景物體的深度,其方式類似于人類的立體視覺。本文提出了一種基于深度相機陷阱的自動動物探測方法,利用深度估計來探測和識別動物。為了檢測和識別單個動物,作者提出了一種新的方法即所謂的實例分割,這是一種基于深度學習的技術,用于檢測和劃分圖像或視頻片段中出現的興趣對象。

1.2 方法介紹

從人工智能的角度分析,本文是使用的方法是一個基于 Mask R-CNN 的架構[2],將實例分割應用于 RGB-D 圖像,作者稱之為深度掩碼 R-CNN(Depth Mask R-CNN)或簡稱 D-Mask R-CNN,它利用額外的深度信息來改進邊界框和分割掩碼的預測,以檢測和定位物體實例以及識別它們。D-Mask R-CNN 的具體架構見圖 2。

圖 2. D-Mask R-CNN 的具體架構

深度骨干網(Depth backbone)。本文所使用的完整的架構是建立在 detectron2 框架中的 Mask R-CNN 實現之上的 [3]。除了傳統的彩色圖像骨干網(color image backbone),即在 ImageNet[4] 上預訓練的 ResNet-50 模型 [5] 之外,作者還采用了幾乎相同的 backbone 來處理深度通道,即一個深度骨干網。

初始化深度骨干網(Initialization of depth backbone)。深度骨干網的初始化參數與彩色骨干網相同,即網絡權重,但第一層除外。在這一層中,權重預計是三通道的 RGB 彩色圖像,而深度通道只是一維的。作者在圖像骨干網的第一個權重維度上取平均值,以獲得深度骨干網第一層的初始權重。在訓練過程中,深度骨干網的權重一定會出現與彩色骨干網的權重相背離的現象,也就是說,在兩個骨干網之間不采用權重共享的處理方式。另外,也可以隨機地初始化深度骨干網的權重。

彩色和深度特征融合(Fusion of color and depth features)。當輸入通過兩個骨干網傳播時,在不同的尺度上提取深度為 256 的中間特征圖,與在標準 Mask R-CNN 的單一骨干網的情況下一樣。然后,將兩個骨干網的特征圖在每個層次(深度 512)上串聯起來,并通過一個內核大小為 33 的單一卷積層(每層有一個專門的卷積層),將串聯的特征圖的深度從 512 降到 256。作者稱這種操作為特征融合(feature fusion),因為它融合了所有三個彩色通道和深度通道的特征信息。雖然本文使用的 D-Mask R-CNN 架構與 [6] 中的方法類似,都是采用兩個獨立的骨干來處理彩色和深度通道,但作者在選擇從兩個骨干網獲得特征的處理過程并沒有對網絡架構施加事先的限制。

綜合彩色和深度特征的處理(Processing of consolidated color and depth features)。將上一步融合處理后得到的特征圖輸入區域建議網絡(region proposal network,RPN),以得到可能的實例邊界。然后,通過興趣區域(ROI)對齊,將特征圖與每個邊界對齊。然后將這些對齊的特征圖交給掩碼頭和分類器,分別計算出實例掩碼和類別預測。

1.3 所使用的數據情況

正如在前文中提到的,由于 Camera traps 并沒有廣泛部署,作者使用一個合成數據庫評估了本文提出的 D-Mask R-CNN。該數據庫包括了通過渲染合成野生動物場景產生的 RGB-D 視頻片段。為了提供一個概念驗證的應用,作者在一個動物園里安裝了一個 RGB-D Camera traps,并在捕獲的 RGB-D 視頻片段上評估了 D-Mask R-CNN。

1.3.1 合成數據

在實驗數據生成過程中,每只動物都有一個相關的運行動畫,使用該運行動畫并在時間上隨機化,以從所有可能的運動狀態中取樣。作者還對攝像機和照明的角度、高度和視野進行隨機化處理,同時保持兩者大致指向同一方向和同一地點。然后使用 Blender 軟件包 [7] 渲染灰度、深度、類和實例圖像。作者渲染灰度圖像而不是彩色圖像,以模擬夜間或黎明時分紅外傳感器產生灰度圖像的 Camera traps 結果。作者最終生成了描述四個動物類別的 RGB-D 視頻片段:鹿、野豬、野兔和狐貍。圖 3 給出了合成數據庫的視頻片段中的兩幀。表 1 給出了合成數據庫的概況。

圖 3. 合成數據庫的視頻片段的兩幀。左:強度,右:深度

表 1. 合成數據庫的統計數據

1.3.2 Camera traps 數據庫

作者采用低成本、現成的組件設計并建造了一個 RGB-D Camera traps,特別強調了在不同照明條件下的多功能性,具體使用了 Intel® RealSense? D435。作為一個主動紅外立體相機(即兩臺相機與一個額外的照明源配對),它比純結構光相機能在更廣泛的照明條件下發揮作用,因為純結構光相機在明亮的場景中往往無法找到對應的數據。圖 4 給出了 RGB-D Camera traps 的示例。作者對 RGB-D Camera traps 的組件進行了詳細介紹,我們在這里不再贅述。

圖 4. 構建 RGB-D Camera traps。(A): Intel®RealSense? D435, (B): NVIDIA® Jetson Nano? Developer Kit, (C): 被動紅外傳感器(PIR,在此圖片中不直接可見),(D): 用于控制的 L298N,(E): 紅外線燈用于夜間照明,(F): tp-link Archer T4U 無線網絡適配器

1.4 實驗分析

作者使用合成數據庫評估了 D-Mask R-CNN,該數據庫包括了通過渲染合成野生動物場景產生的 RGB-D 視頻片段。作者采用 COCO 評價指標的一個子集作為評估指標:10 IoU(intersection over union)水平的平均精度(Average Precision,AP),IoU 閾值為 50% 時的 AP(AP_50%),IoU 閾值為 75% 時的 AP(AP_75%)以及觀察到的四個不同動物類別的 AP 得分。作者將 D-Mask R-CNN 的結果得分與文獻 [2] 中的經典 Mask R-CNN 方法(即表 4 中使用和不使用深度信息的 Mask R-CNN)進行比較。D-Mask R-CNN 在所有指標上明顯優于經典的 Mask R-CNN。

表 2. D-Mask R-CNN 在合成數據庫上對 bounding box 預測和 segmentation mask 預測的動物檢測任務的 AP 分數

為了提供一個概念驗證的應用,作者還將 D-Mask R-CNN 應用于安裝在 Lindenthal Zoo 的 RGB-D camera trap 所拍攝的 RGB-D 視頻片段上,并對其進行了評估,評估只考慮到了觀察到的鹿。圖 5 給出了兩個示范性結果。

圖 5. RGB-D camera trap 數據庫的兩幀視頻片段與邊界框預測和 D-Mask R-CNN 的分割掩碼預測相疊加。左:強度,右:深度

2 利用聲學監測和深度學習建立動物生物多樣性模型[9]

2.1 背景知識

在監測野生動物和棲息地健康時,聲音訊號也被認為是一種重要的途徑。聲學傳感器為野生動物保護主義者和研究人員提供了不受干擾地接觸大自然的機會。這些傳感器提供了重要的生態學數據,使生態系統內的豐富度、分布和動物行為信息能夠被用于建立保護戰略模型。典型的分析類型包括占用或分布模型、密度估計和數量趨勢分析。我們在上一篇文章中提到的 camera traps 一直是此類分析的首選技術,不過,近年來聲音監測已被用于擴展生物多樣性研究。音頻提供了一個與圖像不同的感官維度,它還有一個額外的好處,那就是可以穿越更大的地理邊界,并且在許多難以到達的環境中較少受到視野和植被限制的影響。

聲學傳感器的地理覆蓋范圍很大,對人口稠密環境的影響較小,因此,在生態學和保護中越來越多應用聲學監測,現在已經認為它是了解動物對環境變化反應的一個關鍵組成部分。camera traps 對檢測大型動物非常有用,當它們與被動聲學監測相結合時,可以識別更廣泛的動物物種,包括不容易被 camera traps 發現的非常小的動物。當單獨使用聲學傳感器時,它們可以被長期部署(通常是幾個月)以模擬一個特定的生態系統。

聲學傳感器產生連續的時間序列數據,通常包括與不同信號發生器有關的頻率組合。不同的動物物種使用不同的聲學特征和頻率產生聲音。因此,為了獲得所需的信息,有必要將信號與噪音分開。最常見的提取頻率特征的方法是快速傅里葉變換(FFT)。本文在聲學監測管道中實施 FFT 以生成頻譜圖,這些頻譜圖以前被用來對動物叫聲進行視覺分類和標記。探測包括在錄音中定位感興趣的特定聲音,同時將每個聲音歸入一個特定的類別,如物種類型。這種形式的分析是勞動密集型的,而且往往會因保護者的經驗而產生偏差。圖 6 給出了本文所使用的數據庫中的一個頻譜圖實例(家雀)。

圖 6. 一只家雀的頻譜圖

本文提出了一個自動聲音分類方法,適用于大規模的聲學調查和被動監測項目。在本文給出的分析和實驗中,該方法能夠對不同的鳥類聲音進行分類,同時,作者提出在生成特定物種的聲學分類模型后,也可以將其應用到其他類型的動物分類中。作者選擇鳥類是因為鳥類被認為是評估棲息地健康和建立生物多樣性模型時的重要物種。

2.2 數據分析和方法介紹

2.2.1 數據分析

本文使用的音頻數據集包含了在英國發現的五種不同的鳥類(小斑啄木鳥、歐亞斑鳩、大山雀、家雀和普通木鴿),可以通過 Xeno-Canto 網站訪問(https://www.xeno-canto.org/ )。音頻文件的長度是可變的。為了使輸入標準化,音頻文件被修剪到重新編碼的前 15 秒。圖 7 給出了數據集的類別分布。其中,存在一個輕微的類別不平衡,但這并不會影響模型的整體性能。

圖 7. 鳥類物種的分類計數

數據集中的每個音頻文件的采樣頻率為 44.1kHz。圖 8 給出了數據集中每個類別的波形示例。

圖 8. 波形示例

如圖 7 所示,該數據集包含每個鳥類物種的有限數量的音頻文件。此外,獲得的數據由目標類別的前景和背景噪聲組成,反映了真實世界的棲息地情況。所有獲得的數據都是眾包的(crowd source),并通過 Xeno-Canto 網站申請。

數據集擁有寬泛的比特深度(-24440 到 21707),作者使用 Librosa 負載函數對其進行了歸一化處理。這是通過在給定的比特深度下取最小和最大的振幅值來實現的,最終得到一個在 - 1 和 1 之間的標準化范圍(-0.7461247 到 0.66244507)。由于數據集包含以立體聲和單聲道錄制的音頻文件,作者將它們進行合并處理以使其統一,具體是通過對兩個通道的數值進行平均來實現的。下圖9給出了頂部的原始音頻文件(立體聲)和底部的轉換(單聲道)文件。

圖 9. 立體聲到單聲道的轉換

然后,作者使用 MFCC 從原始音頻信號中提取特征。人類的聽覺系統并不遵循線性尺度。因此,對于每一個實際頻率為 f 的音,以赫茲為單位,主觀的音調被映射到 Mel scale 上。該過程首先將音頻樣本分割成 40 毫秒的小幀,然后使用快速傅里葉變換(FFT)將 N 個樣本從時域轉換到頻域,定義為下式(2.1):

其中,X(w)、H(w)和 Y(w)分別是 X(t)、H(t)和 Y(t)的傅里葉變換。將輸入信號分離成多個分量的 bank filters 以計算濾波器分量的加權和,從而確保輸出接近于 Mel scale。每個濾波器的輸出是其濾波后的譜成分的總和。Mel-frequency scale 定義由以下公式(2.2)給出,其中 f 是頻率,單位為 Hz:

使用離散余弦變換(DCT)將對數 Mel 譜(log Mel spectrum)轉換為時域。MFCC 窗口大小被設定為 80,以捕捉更多的頻率和時間特征。一旦提取了 MFCC 特征,就可以繼續使用 90/10 的比例對數據集進行分割(訓練、測試)。

在這項研究中,作者使用多層感知器(MLP)來完成分類任務。該網絡使用 ReLu 激活函數構建。MLP 的過濾器大小為 2,使用 Back propagation 作為學習算法,Adam 作為優化器。前三層 dropout 值為 50%,以提高概括性和減少過擬合。前三層由 256 個節點組成,而最后一層等于數據集中的類別的數量。模型概要見圖 10。

圖 10. 模型概要

MLP 訓練超過 100 個 epochs,作者通過實驗驗證 100 個 epochs 可以令模型收斂而不過度擬合。本文使用敏感性、特異性、精確性和準確率來衡量模型質量。靈敏度描述的是真正的陽性率,而特異性描述的是真正的陰性率。精度用于顯示正確分類的物種數量。訓練好的模型使用 TensorFlow 2.2 托管,并通過作者開發的面向公眾的網站提供服務(www.conservationai.co.uk )。作者使用 CUDA 11 和 cuDNN 7.6.5 提高學習速度。使用一臺三星 S10 來記錄花園鳥類,并使用 SMTP 將獲取到的音頻自動上傳到平臺進行分類。圖 11 給出了整個工作過程,從傳感器開始,最終展示在面向公眾的動物保護人工智能網站中(如圖 12 所示)。

圖 11. 端到端的工作過程

圖 12. 動物保護人工智能網站

2.3 實驗介紹

圖 13 給出了模型訓練期間使用測試和驗證數據的損失。該圖顯示,在訓練過程中沒有出現過擬合現象,而且 dropout 有助于模型的正則化。盡管模型在訓練的早期就實現了收斂,但在整個 100 個 epochs 過程中,損失顯示出持續的下降趨勢。

圖 13. 訓練和驗證損失

該模型對訓練數據的準確率達到 0.83,對測試數據的準確率為 0.74。圖 14 給出了訓練和驗證數據在 100 個 epochs 中的準確性。結果表明,模型的準確性在訓練結束時趨于平緩,并表明模型收斂所需的 epoch 數是足夠的。通過增加 epoch 數量能夠改進的準確度很小,并可能導致過度擬合。

圖 14. 訓練階段的訓練和驗證準確度

此外,作者使用一臺三星 S10 手機在一棵有筑巢的普通林鴿的樹下記錄現實環境中的鳥類音頻。音頻共記錄了三分鐘,并上傳到平臺進行分類。在部署過程中,作者最終檢測到了 8 個單獨的鳥鳴聲。8 個分類中的每一個都返回了對普通林鴿的預測,平均置信值為 0.71。

2.4 關于引入聲音信號的討論

最后,作者對本文提出的方法進行了討論,并強調了該方法的優勢。首先,通過本文的方法減少了訓練和推理模型所需的計算量,這使得動物保護者可以在低成本的前提下應用該方法,這就與傳統的方法形成了鮮明的對比。經典的用于鳥類音頻的分類的 CNN 方法,一般都對數據進行處理后才能應用,例如只包括前景噪聲,這種音頻不能夠真實反映動物在其自然棲息地的情況。在本文方法中,使用 MFCC 可以在包含目標物種的背景和前景噪聲的更現實的數據集上訓練模型。這使得該方法能夠利用更廣泛的數據集。原文中給出的初步結果是非常好的,在此基礎上,作者設想,如果能夠收集更大的數據集,該方法可能會有更好的表現。

此外,通過對模型部署過程的分析我們可知,該系統可以以實用的方式用于對鳥類自然棲息地內聲音的自動分類。在本文的部署過程中使用的是三星 S10,不過更廣泛和普遍的聲學傳感器都可以被集成到系統中以達到同樣的效果。

聲學數據是量化生物多樣性和物種密度的重要工具,也是對它們所處環境的整體聲學健康狀況的評估。直到近些年,獲取數據、處理和對數據進行分類仍然主要依靠手工過程來實現。盡管在保護領域內的音頻自動分類方面已經取得了一些進展,但仍然存在很多挑戰,阻礙了其廣泛采用。本文提出的解決方案克服了許多現有方法中存在的計算和數據集的限制。這有助于為自動聲學分類提供一個可擴展的、具有較好成本效益的解決方案。

3 用于保護野生動物的反盜獵預測工具[10]

野生動物保護是一個全球性的問題。許多物種,如老虎和犀牛,由于非法采伐(即偷獵)正在面臨滅絕的危險,已經威脅到自然生態系統的運作,損害了當地和國家的經濟,甚至由于偷獵者的利潤流向恐怖組織,演變成為一個國際安全問題。為了防止偷獵野生動物,保護組織試圖用訓練有素的護林員來保護野生動物園。在每個時間段(如一個月內),護林員在野生動物園范圍內進行巡邏,通過抓捕偷獵者或清除偷獵者布置的陷阱的方式來防止偷獵者捕獲動物。例如,可以利用護林員在巡邏過程中收集到的偷獵跡象信息和其他域特征來預測偷獵者的行為。學習偷獵者的行為以及預測偷獵者經常去的偷獵地點 / 位置,對于護林員完成有效的巡邏至關重要。

保護野生動物的安全機構非常需要能夠分析、模擬和預測偷獵者行為的模型。這種模型能夠幫助安全機構對形勢進行判斷,并制定巡邏計劃。此外,研究機構還發現利用這種模型生成的巡邏規劃工具也是非常有效的。受到 “防御者 - 攻擊者 Stackelberg Security Game(SSG)” 在基礎設施安全領域中的應用啟發,前期已有工作將 SSG 引入野生動物保護中。在東南亞地區部署了一種基于 SSG 的巡邏決策輔助工具,稱為 PAWS[11]。盡管 PAWS 的應用很成功,但眾所周知它還存在幾個局限性。首先,PAWS 依賴于現有的反面行為模型,即主觀效用定量反應(Subjective Utility Quantal Response,SUQR)[8],它有幾個限制性假設:(a) 所有偷獵的跡象都是護林員完全可以觀察到的;(b) 偷獵者在一個時間段的活動與他們在以前或未來時間段的活動無關;(c)偷獵者的數量是已知的。其次,由于 SUQR 在建模時只依賴三或四個域的屬性,它無法詳細分析環境和地形特征對偷獵者行為的影響,因此文獻中一直缺乏對真實世界數據的分析。第三,針對新的復雜攻擊模型需要得到新的巡邏生成算法,以改進目前 PAWS 中使用的算法。

本文提出一種 CAPTURE 工具,目的是解決 PAWS 存在的上述問題。第一 ,CAPTURE 能夠解決 SUQR 在模擬對手行為方面的局限性。具體來說,CAPTURE 引入了一個新的行為模型,該模型考慮了護林員對偷獵軌跡的檢測存在不完美檢測的情況。此外,作者將偷獵者的行為對其過去活動的依賴性納入預測偷獵者行為的考慮范疇。然后,作者采用邏輯模型來制定新模型的兩個組成部分。這使得我們能夠捕捉到攻擊者的總體行為,而不需要已知的偷獵者的數量。最后,CAPTURE 在分析偷獵者的行為時,除了 SUQR 中使用的三 / 四個特征外,還考慮了更豐富的域特征。第二,作者提供了兩個新的啟發式方法來降低 CAPTURE 中學習對手模型的計算成本,即參數分離和目標抽象。第一種啟發式方法將模型參數集分成獨立的子集,然后在固定其他子集的值的同時,迭代學習這些子集的參數。這種啟發式方法將學習過程分解為不太復雜的學習組件,這有助于在不損失準確性的情況下加快學習過程。目標抽象的第二種啟發式方法是利用野生動物領域的連續空間結構,從森林面積的粗離散化開始學習,逐漸使用更細的離散化而不是直接從最詳細的表示開始,進而改善整體運行時間。CAPTURE 的第三個貢獻是在新的行為模型下計算護林員的最佳巡邏計劃。具體來說,作者為單步 / 多步巡邏計劃提供了一種新的博弈論算法,實現在多個時間步驟中遞歸探索偷獵者的行動(遵循 CAPTURE 模型)。

3.1 行為學習方法

目前,世界各地的野生動物保護區域內設置的安全機構已經收集了大量與保衛者(巡邏者)和對手(偷獵者)之間的互動有關的數據。本文工作聚焦于 QENP[12],通過與野生動物保護協會(the Wildlife Conservation Society,WCS)和烏干達野生動物管理局(Uganda Wildlife Authority,UWA)合作,作者已經獲得了 12 年間護林員收集的數據。在 CAPTURE 中,作者引入了一個新的分層行為模型來預測野生動物領域的偷獵者的行為,同時考慮到了護林員不完善的觀察軌跡帶來的挑戰??偟膩碚f,新模型由兩層組成。一層是偷獵者攻擊每個目標的概率模型,其中包括偷獵者行為的時間效應。另一層預測的是,在給定偷獵者攻擊目標的情況下,護林員在該目標處檢測到任何偷獵信號的條件概率。然后,將這兩層整合起來以預測護林員的最終觀察結果。在本文的模型中,作者還引入了護林員巡邏對這兩層的影響,即偷獵者如何根據護林員的巡邏來調整他們的行為,以及護林員的巡邏如何決定護林員對偷獵跡象的可探測性。此外,在推理偷獵者的未來行動時考慮了偷獵者過去的活動,還引入不同的域特征來預測攻擊概率或檢測概率或兩者。

令 T 表示時間步驟數目,N 為目標數量,K 為域特征數量。在每個時間步驟 t,每個目標 i 對應特征集合 x_t,i={(x_t,i)^k}。令 c_t,i 表示護林員在 (t,i) 的覆蓋概率。當護林員在時間步驟 t 巡邏目標 i 時,他們的觀察結果記為 o_t,i,取值范圍為 {-1, 0, 1}。其中,o_t,i=1 表征有偷獵跡象,o_t,i=0 表征護林員沒有觀察到,o_t,i=-1 表征沒有偷獵跡象。此外,定義 a_t,i 表征(t, i) 處的實際行動,而這一值是不為護林員所知的。其中,a_t,i=1 表征有偷獵,a_t,i=0 表征沒有偷獵。此外,作者做了一個合理性假設,即不存在假陽性觀察,也就是說,如果護林員在某個目標處發現了任何偷獵的跡象,那么偷獵者確實襲擊了該目標,下式(3.1)、(3.2)。

圖 15 給出了模型的圖形化展示,其中的有向邊表示模型中各元素之間的依賴關系。其中的灰色節點指的是護林員的已知要素,如域特征、護林員的覆蓋范圍和觀察結果,而白色節點代表未知要素,如偷獵者的實際行動。(λ,w)為模型中的參數。

圖 15.CAPTURE 建模元素之間的依賴關系

CAPTURE 圖形化模型與以前的行為博弈理論模型(如 QR/SUQR)以及類似的保護生物學模型相比,都有很大的進步。首先,與 SUQR/QR 不同(SUQR/QR 認為偷獵者的行為在不同的時間步驟之間是獨立的),本文假設偷獵者在 a_t,i 的行動取決于偷獵者在 a_t-1,i 的行動和護林員的巡邏策略 c_t,i。這是因為偷獵者可能傾向于回到他們以前偷襲過的地區。第二,CAPTURE 考慮了更豐富的域特征 x_t,i={(x_t,i)^k},這些特征在早期沒有被考慮但在本文模型中與我們的域是相關的,例如,坡度和棲息地。第三,CAPTURE 對域的觀測不確定性進行建模。最后,本文采用 logistic 模型來預測偷獵者的行為,與 SUQR/QR 相比,這個模型的一個優點是它不假設已知的攻擊者數量,而是獨立地模擬每個目標的攻擊概率。給定時間步驟 (t-1,i) 的偷襲者的真實行動 a_t-1,i、護林員的覆蓋概率 c_t,i、域特征 x_t,i,目標是預測偷襲者的攻擊概率,式(3.3):

其中λ為(K+3)x1 的參數向量,其衡量所有因素對偷獵者決定影響的重要性。

如果攻擊者在 (t,i) 進行攻擊,我們預測護林員能發現任何偷獵跡象的概率如式(3.4):

其中第一項是護林員在 (t, i) 出現的概率,第二項表示護林員在 (t,i) 巡邏時能發現偷獵跡象的概率。權重 w 表征域特征在影響護林員發現偷獵跡象的概率方面的重要性。后續討論中為了便于介紹,作者在公式中省略了域特征 x_t,i。

考慮到未觀察到的變量 a = {a_t,i},作者使用標準的期望最大化(EM)方法來估計(λ,w)。具體參數估計過程我們不再贅述,感興趣的讀者可以閱讀原文。

3.2 巡邏計劃

生成 (λ,w) 后,CAPTURE 的下一個任務是計算護林員在接下來的時間步驟中的最佳巡邏路徑策略。作者考慮了兩種情況:1)單步巡邏計劃,在這種情況下,護林員只關注下一個時間段的巡邏計劃。2)多步巡邏計劃,考慮到護林員的巡邏和觀察歷史以及域特征,多步巡邏計劃用于生成后續ΔT>1 時間步驟的巡邏計劃。前者提供了一個具有即時性的短期效益的單步巡邏計劃,而后者則生成了一個具有長期效益的多步策略。在使用過程中,由護林員來選擇使用哪種計劃方案。對于本文提出的 CAPTURE 模型來說,為護林員設計巡邏計劃的關鍵挑戰是,我們需要考慮到對手(偷獵者)的建模。這包括護林員的檢測不確定性和偷獵者活動的時間依賴性。這一挑戰導致了一個復雜的非凸優化問題,以計算護林員的最佳巡邏策略。本文作者提供了一種游戲理論算法來解決這一問題。

假定護林員的觀測歷史為 o={o_t’,i}。與標準 SSG 類似,作者假設如果偷獵者在 (t,i) 處成功攻擊,護林員會得到一個懲罰 (P_t,i)^d。相對應的,如果偷獵者沒有成功攻擊,則護林員得到獎勵(R_t,i)^d。因此,如果偷獵者在(t,i) 攻擊,護林員在 (t,i) 的預期效用計算如下式(3.5):

其中,p 表示 (t,i) 處護林員的探測概率。

3.2.1 單步巡邏計劃

給定護林員的觀測歷史 o、模型參數(λ,w),生成后續 T+1 個步驟的最優計劃的公式如(3.6)-(3.8):

其中,B 為護林員資源總和,p 為偷獵者在 (T+1,i) 處偷獵者的攻擊概率。由于偷獵者的行為取決于他們過去的活動(對陌生人來說是隱藏的),我們需要檢查偷獵者在以前的時間步驟中所有可能的行動,以預測偷獵者在 (T+1,i) 的攻擊概率。作者提出,通過下式計算偷獵者在 (T,i) 處的攻擊概率如式(3.9):

式 (3.6)-(3.8) 是一個護林員覆蓋概率 {c_T+1,i} 的非凸優化問題。式 (3.6) 中護林員效用的每個加法項都是護林員在 (T+1,i) 的覆蓋率 c_T+1,i 的單獨子效用函數,下式為(3.10):

因此,我們可以對 f_i(c_T+1,i)進行分片線性近似,并將式 (3.6)-(3.8) 表示為混合整數規劃(Mixed Integer Program),可以用 CPLEX 解決[13]。

3.2.2 多步巡邏計劃

作者分析,在為護林員設計多步巡邏計劃時,結合 CAPTURE 模型面臨兩個關鍵挑戰:1)偷獵者行為的時間依賴性。2)偷獵者向護林員隱藏其實際行動(unobserved)。具體的,針對多步問題,后續ΔT 個時間步驟,即 T+1,...,T+ΔR 的最優巡邏計劃可以表示為式(3.11)-(3.13):

由于存在上述兩個挑戰,我們需要檢查偷獵者在以前的時間步驟中所有可能的行動,以計算其在 (t,i) 的攻擊概率。作者的想法是通過以前的時間步驟的攻擊概率遞歸計算這個攻擊概率,如下(3.14)-(3.16)所示:

初始步驟通過使用 Baum-Welch 方法計算總概率。在這里,由于偷獵者行為的時間依賴性,公式 (3.14) 中的目標不能再劃分為特定 (t, i) 的單一覆蓋概率的獨立子效用函數。因此,我們不能像單步巡邏計劃中那樣應用分片線性近似來快速解決式(3.11)-(3.13)。作者提出使用非凸求解器來解決式(3.11)-(3.13)。

3.3 實驗分析

作者在實驗階段給出了不同場景下的實驗結果,以驗證 CAPTURE 的有效性。為了學習偷獵者的行為,作者使用護林員從 2003 年到 2014 年在 QENP 收集的 12 年的野生動物數據(圖 16 為動物密度)。這項工作是在與野生動物保護協會(WCS)和烏干達野生動物管理局(UWA)的合作下完成的。在巡邏過程中,公園管理員記錄信息,如地點(經度 / 緯度)、時間和觀察結果(例如,人類非法活動的跡象)。作者還將收集到的人類跡象分為六組:商業動物(即指偷獵水牛、河馬和大象等商業動物的人類跡象)、非商業動物、漁業、侵占、商業植物和非商業植物。在這項工作中,我們主要關注兩種類型的人類非法活動:商業動物和非商業動物。其中,非商業性動物主要是指針對大象等關鍵物種的主要威脅。然后根據烏干達的四個季節將偷獵數據分為四個不同的組別:旱季 I(六月、七月和八月),旱季 II(十二月、一月和二月),雨季 I(三月、四月和五月),以及雨季 II(九月、十月和十一月)。我們的目的是學習偷獵者在這四個季節的行為,因為偷獵者的活動通常會隨季節變化。最后,基于上述劃分的兩種偷獵類型和四個季節,我們得到了八個不同類別的野生動物數據。此外,在學習偷獵者的行為時還使用了域特征,包括動物密度、坡度、棲息地、凈初級生產力(net primary productivity,NPP)和村莊 / 河流 / 道路的位置。

將野生動物園區域劃分為 1km×1km 的網格,總共包含 2500 多個網格單元。然后將域特征和護林員的巡邏和觀察匯總到網格單元中。進一步的,通過刪除所有異常的數據點來完善偷獵數據,如表征護林員在 QENP 野生動物園外進行巡邏的軌跡數據或護林員行動太快的數據點等。由于試圖根據偷獵者過去的活動來預測他們未來的行動,作者采用了一個時間窗口(即 5 年),其中有 1 年的遷移期,將偷獵數據分成 8 對不同的訓練 / 測試集。例如,對于(商業動物,雨季 I)類別,最古老的訓練 / 測試集對應于該類別的四年數據(2003-2006)進行訓練,對應于一年(2007)的數據進行測試。最新的訓練 / 測試集分別指四年(2010-2013)和一年(2014)的數據??偟膩碚f,我們的八個數據類別中的每一個都有八個不同的訓練 / 測試集。

圖 16. QENP 動物密度

在這項工作中,作者比較了六個模型的預測準確性。1)CAPTURE(參數分離的 CAPTURE);2)CAP-Abstract(參數分離和目標抽象的 CAPTURE);3)CAP-NoTime(參數分離的 CAPTURE,沒有時間效應的成分);4)Logit(邏輯回歸);5)SUQR;6)SVM。作者使用 AUC 來衡量這些行為模型的預測準確度。從本質上講,AUC 指的是一個模型在將這些樣本標記為陽性時,隨機的陽性偷獵樣本的權重高于隨機的陰性偷獵樣本的概率(所以,AUC 值越高越好)。此外,作者還給出了所有季節的平均預測準確率。作者使用 bootstrap-t 來衡量結果的統計學意義。最終的統計數據分別見表 3 和表 4。CAPTURE 比最先進的技術(SUQR 和 SVM)的預測準確性還有所提高。表 3 中 CAPTURE 的平均 AUC(基本上是四個季節的八個測試集的 32 個數據點)是 0.7475,而 SUQR 是 0.575,在表 4 中是 0.74 而 SUQR 是 0.57。

表 3. AUC:商業動物

表 4. AUC:非商業動物

最后,作者應用 CAPTURE 規劃算法來生成護林員的最佳巡邏計劃。具體針對解決方案的質量評估是基于現實世界的 QENP 與 SUQR 的比較來完成的(護林員對基于 SUQR 的偷獵者的最佳計劃),Maximin(護林員對最壞情況下偷獵者反應的最大化策略)和護林員的真實世界巡邏計劃。鑒于 CAPTURE 的預測準確率是所有模型中最高的,在本文實驗中,作者假設偷獵者的反應遵循 CAPTURE 模型。根據 QENP 的實驗設置,護林員在每個目標的獎勵被設定為零,而懲罰則與動物密度相反。作者根據護林員資源的不同數量(即護林員在巡邏期間可以覆蓋的目標數量)來評估所有算法的解決方案質量。此外,還考慮了生成巡邏的不同時間步數。

圖 17 中給出的實驗結果是所有年份和季節的平均數。其中,X 軸是護林員的資源數量,Y 軸是護林員在兩個和四個時間步驟(季節)內分別應用 CAPTURE、SUQR、Maximin 和 Real-world 巡邏計劃所獲得的綜合效用。如圖 17 所示,CAPTURE 規劃算法為護林員提供了最高的效用。特別是當護林員的資源數量增加時,CAPTURE 規劃算法明顯提高了護林員巡邏計劃的質量。此外,CAPTURE 提供的巡邏計劃考慮到了對偷獵者行為的時間影響。因此,當時間步數增加時(圖 17(b)),本文算法與其他算法相比提高了其解決方案的質量。

圖 17. CAPTURE 規劃算法生成護林員的最佳巡邏計劃結果比較

CAPTURE 工具可供護林員預測偷獵者的行為并設計最佳的巡邏時間表。不過,在真實情況中并非所有地區對偷獵者都有著相同的吸引力,因此,檢測偷獵者的活動熱點地區并提高對這些地區的保護概率將可能會更加有效??紤]到這一問題的軟件的一般工作流程可以分為以下幾項。1)匯總以前從野生動物園收集的數據,創建一個數據庫,包括域特征、偷獵跡象和護林員保護該地區的努力;2)對數據點進行預處理;3)運行 CAPTURE 工具,預測攻擊概率、護林員對該地區的觀察并生成最佳巡邏計劃;4)對結果進行后期處理并生成相關熱圖。

為了比較 CAPTURE 提供的單步巡邏計劃算法所產生的最佳計劃和當前在該地區部署的實際計劃,作者根據防御者的覆蓋范圍繪制了相關的熱圖,如圖 18(a)和圖 19(a)所示。該地區顏色越深,其被護林員覆蓋的機會就越大。另外,作者用 CAPTURE 預測了基于這些巡邏計劃的攻擊概率。這些熱圖顯示在圖 18(b)和圖 19(b)中。地圖上的深色區域顯示了對偷獵者更有吸引力的區域。根據熱圖,我們可以看到以下關鍵點:(i)最佳巡邏計劃覆蓋了更多動物密度較高的區域。因此,部署最優計劃將會對動物密度較高的地區提供更多的保護。(ii)如圖 18(a)和 18(b)所示,偷獵熱圖顯示在動物密度較高的地區,攻擊者對人類產生的巡邏的預測活動明顯較高。

圖 18. CAPTURE 的熱圖(基于真實的巡邏策略)

圖 19. CAPTURE 的熱圖(基于最佳策略)

4 文章小結

本文討論了人工智能的一個專門應用領域:野生動物保護,具體包括了對野生動物的監測和對偷獵者軌跡預測兩個方面。國內外也有大量的研究學者和研究機構在致力于這項工作,結合不同區域特征、動物特征和生物學需求等開發不同的工具,將不同的人工智能、機器學習方法應用于野生動物保護事業中。人工智能技術需要真正和實際問題結合起來,才能慢慢改變世界,讓勞動力從野外工作的危險和枯燥解脫出來。我們也希望看到越來越多的人工智能技術能夠應用于類似的領域,讓整個世界變得更加美好。

部分參考引用的文獻

[1] Eric J. Howe, Stephen T. Buckland, Marie-Lyne Despres-Einspenner, and Hjalmar S. Kuhl. Distance sampling with camera traps. Methods in Ecology and Evolution, 8(11):1558{1565, 2017. doi: 10.1111/2041-210X.12790. URL https://besjournals.onlinelibrary.wiley.com/doi/abs/10.1111/2041-210X.12790.

[2] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross B. Girshick. Mask R-CNN. CoRR, abs/1703.06870, 2017. URL http://arxiv.org/abs/1703.06870.

[3] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo, and Ross Girshick. Detectron2. https://github.com/facebookresearch/detectron2, 2019.

[4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.

[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. CoRR, abs/1512.03385, 2015. URL http://arxiv.org/abs/1512.03385.

[6] Z. Xu, S. Liu, J. Shi, and C. Lu. Outdoor rgbd instance segmentation with residual regretting learning. IEEE Transactions on Image Processing, 29:5301{5309, 2020. doi: 10.1109/TIP.2020.2975711.

[7] Blender Foundation. Blender - a 3D modelling and rendering package, 2018. URL http://www.blender.org (http://www.blender.org/).

[8] Timm Haucke,Volker Steinhage, Exploiting Depth Information for Wildlife Monitoring, 2021, https://arxiv.org/abs/2102.05607v1

[9] Chalmers, C. , et al. "Modelling Animal Biodiversity Using Acoustic Monitoring and Deep Learning." (2021).https://arxiv.org/abs/2103.07276

[10] Beale, C. M. , et al. "CAPTURE: A New Predictive Anti-Poaching Tool for Wildlife Protection." International Foundation for Autonomous Agents and Multiagent Systems(2016).https://pure.york.ac.uk/portal/en/publications/capture(a5f3ca8c-9a4e-4366-af26-095154c2f7d6).html

[11] F. Fang, T. H. Nguyen, R. Pickles, W. Y. Lam, G. R. Clements, B. An, A. Singh, M. Tambe, and A. Lemieux. Deploying paws: Field optimization of the protection assistant for wildlife security. In IAAI, 2016.

[12] R. Critchlow, A. Plumptre, M. Driciru, A. Rwetsiba, E. Stokes, C. Tumwesigye, F. Wanyama, and C. Beale.

Spatiotemporal trends of illegal activities from ranger-collected data in a ugandan national park. Conservation Biology, 2015.

[13] R. Yang, F. Ordonez, and M. Tambe. Computing optimal strategy against quantal response in security games. AAMAS, 2012.

分析師介紹:

本文作者為仵冀穎,工學博士,畢業于北京交通大學,曾分別于香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關于機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年里,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之余的閑暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目咨詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,并從中獲得了自身的能力成長、經驗積累及職業發展。

原標題:《AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護》

相關閱讀

今日熱點

小編推薦

成人黄色网站小说