傳感器設備和物聯網的廣泛應用使得基于傳感器的人類行為識別成為可能。然而,這個領域仍然存在一些重大挑戰(challenge),可能會影響行為識別系統在實際應用場景中的性能。在這篇論文中,來自新南威爾士大學、西北工業大學、密歇根州立大學的研究人員綜述了近期被用于解決具體行為識別挑戰的深度學習方法,并提出了一種基于挑戰的分類體系。


除此之外,他們還總結了可用于評估不同挑戰任務的公共數據集并討論了尚待解決的問題,同時為未來的方向提供了一些見解。


傳感器,深度識別


本文提出的分類體系可分為以下 11 個方面:


1. 特征提取(Feature Extraction)


特征提取是人類行為識別的關鍵步驟之一,也是得到高識別率的挑戰之一。這在一定程度上是由于人類活動的范圍很廣,而且某一特定行為的表現方式千差萬別。本文將特征提取的方法分為三類:時間特征提取(Temporal Feature Extraction)、多模態特征提取(Multimodal Feature Extraction)和統計特征提取(Statistical Feature Extraction)。


傳感器,物聯網

圖1. 幾種多模態特征提取的方法。


2. 注釋的稀缺性(Annotation Scarcity)


深度學習依賴大量的標記數據,然而,如此大量的可靠標記數據并不總是可獲得的,原因有二:1. 注釋過程是昂貴、耗時且非常繁瑣的;2. 標注過程容易受到各種噪聲源的影響,如傳感器噪聲、分割問題以及不同人之間活動的差異,這使得標注過程容易出錯。本文將解決注釋稀缺性的方法分為兩類:無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)。其中,在沒有任何標記數據給定真值的情況下,無監督學習至今仍然無法獨立完成行為識別。因此,半監督學習的人類行為識別方法是最近的趨勢。


本文列舉了三種常用于行為識別系統的半監督學習方法,分別是:協同訓練(Co-training)、主動學習(Active Learning)和數據增強(Data augmentation)。


3. 類不平衡性(Class Imbalance)


類不平衡性是由于一些特定活動的傳感器數據很難獲取,比如老年人摔倒等等。此外,在不受限制的條件中記錄的原始數據天然地是類不平衡的。當使用不平衡的數據集時,傳統的模型傾向于預測訓練樣本數量較多的類別而忽略訓練樣本數量較少的類別。因此,類別失衡問題的解決迫在眉睫。


4. 數據的異質性(Heterogeneity)


許多最新的人類行為識別方法都假設訓練數據和試驗數據是獨立同分布的。然而,這是不切實際的。這是由于行為識別的傳感器數據是異質的。傳感器數據的異質性可以分為三類。


首先是用戶的異質性(Heterogeneity with Users)。由于生物和環境因素,同樣的行為由不同的人實施可以有不同的表現。例如,有些人走得很慢,有些人走得很快。第二個異質性與時間有關(Heterogeneity with Time)。在動態流環境中,行為的數據分布隨著時間變化(Concept Drift),新的行為也可能出現(Concept Evolution/Open-Set)。第三類異質性與傳感器有關(Heterogeneity with Sensors)。用于人類活動識別的傳感器通常是敏感的。一個小變化會對傳感器數據造成很大的干擾。可能導致傳感器異質性的因素包括傳感器實例(Sensor Instances)、類型(Sensor Types)、位置(Sensor Positions)和布局(Sensor Layouts)。


考慮到以上三種類型產生的數據異質性,且在現實場景中識別系統常常在無約束的情況下布置傳感裝置,我們可以觀察到訓練數據和測試數據兩者之間的分布差異,因此,無縫的深度學習模型對于行為識別是必要的。


傳感器,機器人

圖 2. 三種隨時間變化的異質性的分布情況。


5. 復合行為(Composite Activities)


大多數人類行為識別任務是基于簡單的活動,比如走路和坐著。然而,記錄人類日常活動更有意義的方式是由一系列簡單行為組成的復合行為。例如,「洗手」可以表示為 {打開水龍頭,皂洗,搓手,關掉水龍頭}。由于復合行為不僅僅需要識別人體活動,還需要識別周遭環境的信息,因此比識別簡單行為更有挑戰性。


6. 數據分割(Data Segmentation)


由于原始傳感器數據由連續流信號表示,因此固定大小的窗口通常被用于將原始傳感器數據序列分割成段,作為模型的輸入。這對于克服單一時間步長樣本的限制是至關重要的。理想情況下,一個分區數據段只有一個行為,因此一個模型對于單一窗口內的所有樣本只預測一個標簽。但是,一個窗口中的樣本不一定總是共享相同的標簽,尤其是在行為轉換的過程中。因此,一個好的分割方法是提高行為識別精度的關鍵。


7. 并行行為(Concurrent Activity)


在真實的場景中,除了按順序逐個執行每個行為之外,一個人可以同時進行多個行為,這被稱為并行行為。例如,一個人可以在看電視時打電話。從傳感器的角度來看,一段數據可能對應多個行為。因此,并行行為識別可以抽象為一個多標簽任務(multi-label task)。


8. 多人行為(Multi-occupant Activity)


生活和工作空間通常由多個人居住,因此,設計解決多人行為問題的方案具有重要的現實意義。主要有兩種類型的多人行為:1. 平行行為(Parallel Activity),比如一個人在吃飯,另一個人在看電視。2. 合作行為(Collaborative Activity),多個居住者合作執行相同的活動,如兩個受試者打乒乓球。對于平行行為的識別,當只有可穿戴傳感器時,可將其劃分為多個單人行為識別任務,并采取傳統的解決方案;當使用環境或對象傳感器時,數據關聯映射到多人的感知信號是主要挑戰,并且隨著空間中人數的增加而變得更加困難。合作行為通常包括人與人之間的交互并使用各種器械,因此,上下文和對象使用信息在設計識別解決方案中起著至關重要的作用。


9. 運算成本(Computation Cost)


雖然深度學習模型在基于傳感器的人類行為識別中顯示出了主導作用,它們通常是資源密集型的。例如早期的 DCNN 架構,AlexNet,它有 5 個 CNN 層和 3 個全連接層,處理 61M 參數(249MB 內存),執行 1.5B 高精度操作進行預測。對于不可移植的應用程序,我們通常使用圖形處理單元(GPU)加速計算。然而,GPU 是非常昂貴和耗電的,所以不適合用于移動設備上的實時應用程序。目前的研究已經證明了通過引入額外的層和節點來加深神經網絡是一種關鍵的提高模型性能的方法,但是這樣不可避免地增加了計算復雜度。因此,如何解決計算量大的問題實現實時性是一個非常重要和具有挑戰性的課題。


10. 隱私性(Privacy)


人類行為識別的主要應用是對人類行為的監測,因此傳感器需要不斷地捕捉用戶的活動。由于執行行為的方式因用戶而異,所以對手可以通過時間序列傳感器數據推斷用戶的敏感信息,如年齡。具體來說,對于深度學習技術而言,其黑箱特性可能會在無意中暴露出用戶的鑒別特征。研究表明,即使 CNN 只接受針對行為分類的交叉熵損失訓練,所獲得的 CNN 特征仍然具有很強的用戶識別能力。因此,解決深度學習模型的隱私泄露問題至關重要。


11. 深度學習對于傳感器數據的可解釋性(Interpretability of Deep Learning Models in Sensory Data)


人類行為的傳感器數據是不可讀的。一個數據樣本可能包括在一個時間窗口內從多個位置(如手腕、腳踝)得到的不同數據(如加速度、角速度)。但是,只有少數從具體位置采集的數據有助于確定某些活動。不相關的數據會引入噪聲,影響識別性能。此外,數據的重要性隨時間而變化。例如,在帕金森病檢測系統中,異常只出現在短時間內的步態中,而不是整個時間窗口中。直觀地說,當身體的某個部分在積極地運動時,相關的數據才有更大的意義。本文將用于人類行為識別的可解釋的深度學習方法分為三類:傳統方法,軟注意力方法(Soft Attention)和硬注意力方法(Hard Attention)。


傳感器

表 1. 常用的公共數據集。


來源:機器之心

您的評論
用戶評論
相關文檔推薦
熱門標簽
    澳洲幸运5是国家开奖吗