人工智能時(shí)代,很多朋友已經(jīng)體驗(yàn)過(guò)植物識(shí)別類應(yīng)用帶來(lái)的樂趣。只需一張植物照片,這類應(yīng)用就可以立即識(shí)別出它的種類,有的還會(huì)顯示與之相關(guān)的趣聞、詩(shī)詞、典故等小知識(shí)。自帶的美圖生成和分享功能,更是為這種樂趣的保存與傳播創(chuàng)造了條件。
有了這樣的應(yīng)用,就像有了一位知識(shí)淵博的植物學(xué)老師隨時(shí)隨地在你身旁。無(wú)論是獨(dú)自旅行,還是和朋友家人一起出游,只要有好奇心,眼前的花花草草,藤蔓樹木,都可以不再只是“這朵花”、“這條藤”和“那棵樹”。只需幾秒鐘,你就能知道,它們?cè)瓉?lái)就是瓊花、凌霄和水杉。這些你腦海中美好而模糊的名字,此時(shí)正鮮活地出現(xiàn)在你眼前。
很多人的身邊還有另外一群“熟悉的陌生人”。它們清晨在樹葉間歌唱,黃昏在草地上跳躍。它們可能是你在熟悉的城市里最常遇見的來(lái)訪者,也可能是你在旅途中不期而遇的故鄉(xiāng)人。它們就是天空中的飛鳥。
如果你也對(duì)鳥類好奇,或者是生態(tài)保護(hù)領(lǐng)域的專業(yè)人士,你一定希望有一種簡(jiǎn)單快速的方法能夠?qū)B類進(jìn)行識(shí)別。有了這樣的方法,無(wú)論是外出游玩,還是在保護(hù)區(qū)進(jìn)行科學(xué)研究工作,都可以在短時(shí)間內(nèi)了解周圍鳥類的情況,不僅能夠增添樂趣,更能大幅提高工作效率。在這個(gè)方向上,目前的技術(shù)發(fā)展是否已經(jīng)能夠達(dá)到與植物識(shí)別相似的水平呢?
2018年4月9日,在“自然保護(hù)領(lǐng)域智能科技與大數(shù)據(jù)研討會(huì)”上,來(lái)自昆山杜克大學(xué)大數(shù)據(jù)研究中心的李明博士介紹了其所在的研究團(tuán)隊(duì)在鳥類識(shí)別方向取得的進(jìn)展。
“我們的研究目標(biāo)是通過(guò)一段鳥類的聲音,識(shí)別出它的種類。有的人可能會(huì)問,為什么不像植物一樣,通過(guò)照片來(lái)做判斷?主要是因?yàn)榕臄z鳥類的清晰照片很困難,需要沒有遮擋的環(huán)境、專業(yè)的設(shè)備、高超的攝影水平,而且需要花費(fèi)大量的時(shí)間去主動(dòng)尋找拍攝對(duì)象?!?
“以聲音為基礎(chǔ)的識(shí)別可以繞過(guò)這些障礙。一方面不同鳥類的聲音確實(shí)具有特異性,另一方面安裝特定錄音設(shè)備就可以實(shí)現(xiàn)對(duì)野外聲音數(shù)據(jù)的大量采集。這個(gè)過(guò)程可以在無(wú)人值守的環(huán)境下自動(dòng)完成,不需要人們投入額外的時(shí)間和精力?!?
李明博士在自然保護(hù)領(lǐng)域智能科技與大數(shù)據(jù)研討會(huì)上發(fā)言。其分享的“野外采集鳥類聲音裝置”可應(yīng)用于公園、保護(hù)區(qū)等地監(jiān)測(cè)鳥類數(shù)量、種類及出現(xiàn)范圍。
李博士介紹說(shuō),不同鳥類的聲音具有音調(diào)高低、音域?qū)捳?、間隔長(zhǎng)短、共振模式等方面的差異,因此可以在數(shù)學(xué)上將時(shí)間域波形信號(hào)轉(zhuǎn)化為時(shí)頻域語(yǔ)譜圖,這樣可以更為直觀地反映出不同鳥類聲音的頻譜特征。這些具有鳥類種群標(biāo)注信息的頻譜,經(jīng)過(guò)預(yù)處理,數(shù)據(jù)增強(qiáng)(如頻譜搬移,壓縮解壓縮,加入多種環(huán)境匹配的背景噪聲等)、深度神經(jīng)網(wǎng)絡(luò)分類器等步驟,可以實(shí)現(xiàn)對(duì)其種類的判別。
昆山杜克大學(xué)的研究團(tuán)隊(duì)在BirdCLEF2017數(shù)據(jù)集上針對(duì)1500種鳥類的聲音進(jìn)行了訓(xùn)練和識(shí)別。在有其它鳥類背景音的情況下,對(duì)單一鳥類的識(shí)別正確率為56%,在無(wú)其它鳥類背景音的情況下,正確率為65%。這一水平與目前國(guó)際上的最高水平十分接近(若進(jìn)一步縮小鳥類種群范圍到100種,并引入多系統(tǒng)融合策略,昆山杜克團(tuán)隊(duì)的識(shí)別正確率可達(dá)85%以上)。
基于同樣的1500種鳥類聲音,2017年國(guó)際鳥類識(shí)別競(jìng)賽(BirdCLEF2017)的冠軍團(tuán)隊(duì)在單一系統(tǒng)條件下在這兩項(xiàng)任務(wù)上的MAP正確率分別為58%和67%。
盡管這項(xiàng)研究已經(jīng)取得明顯進(jìn)展,但距離廣泛使用仍有一段路要走。目前這項(xiàng)技術(shù)在應(yīng)用上主要面臨兩大挑戰(zhàn)。第一,如果想在國(guó)家公園、保護(hù)區(qū)這樣的環(huán)境中被動(dòng)式地收集鳥類的聲音信息,工作人員往往會(huì)發(fā)現(xiàn),錄音中背景噪聲很大,同時(shí)有多種鳥類的聲音互相疊加。目前的技術(shù)針對(duì)低噪音背景下的單一物種識(shí)別比較有效,但在遠(yuǎn)距離高噪音背景下對(duì)多物種同時(shí)識(shí)別的技術(shù)仍不成熟。李博士認(rèn)為,通過(guò)進(jìn)一步引入圖像識(shí)別技術(shù),或者通過(guò)麥克風(fēng)陣列技術(shù)對(duì)鳥類聲音出現(xiàn)的方向進(jìn)行指向性增強(qiáng),有可能逐步解決這個(gè)問題。
第二大挑戰(zhàn)是基礎(chǔ)大數(shù)據(jù)的缺失。大數(shù)據(jù)計(jì)算的基礎(chǔ)是大數(shù)據(jù),然而目前國(guó)內(nèi)還沒有一個(gè)具有廣泛影響力的平臺(tái),可以讓鳥類愛好者和研究人員上傳和分享鳥類的聲音數(shù)據(jù)?,F(xiàn)有的研究都是基于國(guó)際鳥類愛好者上傳的聲音數(shù)據(jù),這些數(shù)據(jù)大部分采集于美洲、歐洲等地區(qū),來(lái)自中國(guó)的數(shù)據(jù)很少。由于鳥類的分布具有明顯的地理差異,研究人員無(wú)法基于美洲的鳥類數(shù)據(jù)對(duì)中國(guó)的常見鳥類進(jìn)行識(shí)別。為了早日使技術(shù)服務(wù)于社會(huì),李博士呼吁國(guó)內(nèi)的專業(yè)機(jī)構(gòu)和民間愛好者組織能夠通力合作,盡快搭建起數(shù)據(jù)收集的網(wǎng)絡(luò)和分享的平臺(tái)。
“因?yàn)槿蛴羞@么多的志愿者,這么多的生態(tài)學(xué)家上傳了這些數(shù)據(jù),才使我們今天有這么快的大數(shù)據(jù)分析。但是在中國(guó)目前還是需要進(jìn)一步發(fā)展。我也呼吁有關(guān)的公司、機(jī)構(gòu)搭建起這樣一個(gè)平臺(tái),讓全國(guó)的鳥類愛好者上傳他們的照片,上傳他們的聲音數(shù)據(jù)。將來(lái)每個(gè)人在森林中游玩的時(shí)候都可以通過(guò)聲音對(duì)鳥類進(jìn)行識(shí)別。不僅自己能得到一些樂趣,也能為咱們中國(guó)創(chuàng)造出一個(gè)數(shù)據(jù)庫(kù),支持后續(xù)的研究?!?
來(lái)源于搜狐科技