導語:
人類視覺系統(HVS)的研究發現,人們在觀察視頻圖像時,習慣把大部分注意力集中在視覺聚焦點周圍的小范圍區域內,并賦予這個區域很高的分辨率,而聚焦點外的范圍則以較低分辨率呈現,這種預測視覺關注區域的過程就叫顯著性檢測。北航國際交叉科學研究院、電子信息工程學院徐邁副教授的研究團隊開展了視頻和圖像顯著性檢測模型的研究,成果現已發表至《IEEE Transactions on Image Processing》、《International Conference on Computer Vision (ICCV)》、《Computer Vision and Pattern Recognition (CVPR)》等國際重要期刊與會議上,并在多媒體通信領域內引起廣泛好評。

研究背景:通信道路的“擁堵”
科研是為創造更好的未來,其靈感也源于現實生活的不足。通過智能終端欣賞視頻資源,已經成為人們日常生活中必不可少的環節。用戶對獲取更高清視頻需求在日益增長,使得通信行業的熱點,聚焦在了如何實現海量高清音像視頻數據更高效地傳輸。
視頻通信領域的瓶頸在于隨著超高清視頻與全景視頻的發展,網絡需要傳輸的數據量在不斷膨脹,但是傳輸數據的帶寬卻是有限的。正如空間有限的公路上行駛的車越來越多,容易引發道路擁堵。當下,有限帶寬下的視頻高效傳輸,已成為通信行業亟待解決的問題。
靈感來源:前沿熱點的融合
徐邁老師及其課題組的研究興趣為視頻通信與圖像處理,他們在研究壓縮編碼的過程中受人工智能和機器學習的啟發,通過研究人類觀看視頻的用戶體驗,為視頻壓縮提供了新的解決思路。人類視網膜相當于以億為單位像素級別的高清相機,人在觀察視頻圖像時有一種聚焦“Attention(關注點)” 的機能,能夠發揮“刪繁就簡”的功能能力,對于呈現給視覺的場景,只有我們關注的地方會很清楚,而周圍則會出現相對模糊的情況。
受到啟發的徐邁老師及其課題組大膽提出假設:如果為計算機賦予人的視覺機能,壓縮視頻數據時在人們視覺關注度高的區域分配更多的編碼資源,使得視頻壓縮后仍能夠達成人們視覺體驗上高質量的效果,同時在周圍節省編碼資源。借鑒“Perceptual Video Coding(感知視頻編碼)”的“感知”技術,徐老師推動這一新的研究方向:建立人在視頻圖像中的關注區域預測模型,以預測視頻圖片場景中的視覺關注集中域。
研究拓展:年輕團隊的合作
為了探索出人類視覺關注區域的模型,徐邁老師帶領團隊展開研究。團隊中最小的成員為一名大三年級的本科生,徐老師說:“學生的興趣與個人能力,才是開展科學研究的關鍵因素”。因此在徐邁老師的團隊中,學生年齡呈現年輕化的特點。
研究團隊通力合作,從數據出發,利用機器學習方法挖掘人體視覺認知規律。團隊邀請多位被試者走進實驗室,記錄被試者觀看視頻時關注區域的結果數據,以實際采集到的數據為驅動,運用支持向量機和深度學習方法建立機器學習模型,實現視頻關注區域的預測。
徐邁老師團隊視頻顯著性檢測的研究成果,不但能應用于視頻圖像壓縮,還能夠應用于多種領域,如對網頁和展示排版設計領域提供指導,通過合理安放圖標、文字,調整配圖、配色,可以達到最大程度吸引視覺注意力的目標。而徐邁老師團隊的下一步研究重點,將嘗試拓展至具有“交互性、沉浸式”特點的全景視頻新鮮領域。團隊也將商討與其他科研團隊的合作方案,實現多學科之間相互交叉研究。
策劃/文案:秦煜瑤、張金星
外文編輯:劉昕睿
設計:秦煜瑤 技術:曹嘉輝
鳴謝:國際交叉科學研究院、電子信息工程學院徐邁副教授
編審:門戶網站總編總監工作室
投稿:[email protected]