應用方向:
本研究采用高光譜成像技術和深度森林(DF)模型,對不同程度霜害稻種進行快速無損分類。通過優(yōu)化光譜數據預處理(如多元散射校正MSC)和特征提取算法(如鄰域成分分析NCA),構建了多種分類模型,并對比了傳統(tǒng)機器學習方法(決策樹、KNN、SVM)與DF模型在小樣本數據上的表現。結果顯示,DF模型具有更高的分類精度和魯棒性。研究還通過可視化技術直觀展示了霜害稻種的分類結果,為農業(yè)生產中的種子篩選和質量控制提供了高效、智能化的解決方案。該方法不僅提高了霜害種子檢測精度,也為高光譜成像在精準農業(yè)中的應用提供了重要參考。
背景:
稻種質量直接影響農業(yè)產量,但在生產和儲存過程中易受霜害、熱害、真菌感染等影響,導致活力下降,尤其在中國東北地區(qū),晚熟粳稻種子易受低溫霜害,降低發(fā)芽率和幼苗生長速率,可能引發(fā)農業(yè)減產。因此,快速、非破壞性檢測霜害種子的技術對農業(yè)生產至關重要。
傳統(tǒng)檢測方法如發(fā)芽試驗、四唑染色法雖準確,但操作復雜、成本高且具破壞性,難以大規(guī)模應用。近年來,光譜成像技術因其能同時獲取光譜和圖像信息,被廣泛應用于種子質量檢測,尤其是高光譜成像技術結合化學計量學和機器學習算法,在種子活力和霜害檢測方面取得顯著成果。
然而,深度學習模型通常需要大量樣本和復雜參數設置。為此,本文提出將高光譜成像技術與適用于小樣本數據的深度森林模型(DF)結合,用于霜害稻種分類研究。該方法建模簡單,對小樣本數據具有良好魯棒性,為霜害稻種識別提供了一種高效解決方案。
實驗設計
1.1材料與方法
本實驗使用的水稻種子品種為“艷風”,2018年收獲于遼寧盤錦,初始含水量13%至14%(干種子)。隨機選取1800粒種子,并人工調整含水量至30%,以研究霜凍損傷。種子被隨機分為6組,每組300粒,其中一組為對照組,未冷凍處理,其余5組在不同溫度下冷凍不同時間(見表1)。冷凍后,種子在25°C干燥通風環(huán)境中放置一周,以恢復正常溫度并減少水分干擾。
在本實驗中,選用了江蘇雙利合譜科技有限公司的“GaiaSorter”高光譜成像系統(tǒng)。該系統(tǒng)的核心組件包括均勻光源、光譜相機、計算機以及相關的控制軟件。在光譜成像儀中使用的相機是“Image-λ”系列高光譜相機,其光譜范圍大約為900-1700 nm。系統(tǒng)的工作原理是將待測樣品放置在由軟件控制的電動移動平臺上,并采用推掃法來收集圖像。隨著電動平臺的移動,最終獲得了包含待測樣品光譜信息和圖像信息的高光譜立方體數據。由于原始光譜數據中存在的噪聲會干擾后續(xù)的數據分析,因此本實驗選取SG1、SNV和MSC方法對原始光譜數據進行預處理。
圖1. 提取光譜數據的主要流程圖。
在獲取高光譜圖像之后,從每組中隨機選取50粒水稻種子,并根據國際種子檢測協(xié)會(ISTA)的規(guī)則進行發(fā)芽測試。我們將種子浸泡在蒸餾水中12小時,然后在標準發(fā)芽箱中進行種子發(fā)芽測試,并在種子表面覆蓋濕潤的發(fā)芽紙以在室溫25°C下遮光。發(fā)芽力(GF)和發(fā)芽率(GR)是反映種子質量的主要指標之一。通常情況下,具有高GR和GF的種子活力強,而GR高但GF低的種子也可能活力低下。
原始光譜數據高維且含冗余信息,難以直觀區(qū)分樣本差異。本研究采用t-SNE方法將高維數據映射至低維,實現樣本可視化,并擴大簇間距離以緩解擁擠問題。此外,高光譜數據的冗余和共線性影響模型性能,因此使用PCA、SPA和NCA提取特征波長。PCA將多個指標轉化為少數主成分以降低維度,SPA通過前向變量選擇去除冗余信息,NCA作為度量學習算法,優(yōu)化數據的空間表示,提高模型效果。
本研究利用決策樹(DT)、K最近鄰(KNN)、支持向量機(SVM)和深度森林(DF)四種模型對水稻種子進行分類評價,確保分類的準確性與泛化能力。DT通過構建決策樹確定分類概率,并采用交叉驗證優(yōu)化最小葉節(jié)點(minleaf)值。KNN依據鄰近樣本類別進行分類,并通過自動優(yōu)化程序確定最佳k值。SVM采用RBF核函數處理線性和非線性數據,并利用網格搜索優(yōu)化懲罰系數(c)和核函數半徑。DF通過級聯森林結構進行表示學習,并在驗證集上評估性能,若無顯著提升則終止訓練,以控制模型復雜度。
5.2.結果與討論
(1)發(fā)芽試驗結果分析
表2顯示,不同冷凍條件下水稻種子的發(fā)芽勢(GF)、發(fā)芽率(GR)和平均芽長均下降。正常種子的GF與GR一致,而霜凍傷害種子的GF低于GR。GR高且GF強表明幼苗出土快且整齊,GF弱則出土不均且幼苗弱。在-10°C/4小時下,GR達90%,GF僅82%,且平均芽長較短,表明輕微霜凍傷害。這些種子播種后出苗不足,影響收成,因此快速無損識別霜凍傷害種子對農業(yè)生產至關重要。
(2)原始光譜分析
原始光譜波長范圍為900-1700 nm,但受儀器影響,前后部分噪聲較大。因此,我們選取了949.0-1638.0 nm的210個波長進行分析。圖3顯示不同冷凍條件下水稻種子的平均光譜曲線和標準差。六組種子的光譜曲線趨勢相似,但在特定波長范圍內存在顯著差異。例如,在1000.0-1300.0 nm,光譜反射率依次遞減:-25°C/20 h > -20°C/16 h > -15°C/12 h > -10°C/8 h > -10°C/4 h > 未處理,其中1300 nm處差異*明顯。1000-1100 nm主要對應N/H伸縮的第三泛音,1100-1300 nm對應C/H伸縮的第二泛音。隨著冷凍溫度和時間增加,種子細胞受損,淀粉結構破壞,影響糊粉層和胚的結構,阻礙赤霉素進入,進而影響種子活力。因此,冷凍條件越嚴苛,細胞破壞越嚴重,使得1000-1300 nm的光譜反射率逐漸增加。
圖3. 不同冷凍條件下水稻種子的平均光譜曲線及其標準差
(3)高維光譜數據的可視化分析
本研究采用t-SNE對原始光譜數據及SG1、SNV、MSC三種預處理方法處理后的光譜數據進行可視化,并將其降維至二維進行分析比較。為減少t-SNE的隨機性,采用Matlab R2018b默認參數(歐幾里得距離、Perplexity = 30、LearnRate = 500、Theta = 0.5)。
圖4展示了不同預處理方法的光譜曲線及t-SNE可視化結果。從圖4e可見,原始光譜數據在不同冷凍條件下混合重疊,降維后特征難以區(qū)分。圖4f和4g顯示,SG1和SNV處理后仍存在大量重疊,與原始數據相比無明顯改善。而圖4h表明,經MSC預處理的數據聚類效*顯著,6組水稻種子被清晰分類??傮w而言,MSC處理后的光譜數據優(yōu)于其他方法。
圖4. 不同預處理方法的光譜曲線:(a) 原始光譜曲線;(b) SG1處理后的光譜曲線;(c) SNV處理后的光譜曲線;(d) MSC處理后的光譜曲線。使用t-SNE可視化不同預處理方法處理的光譜數據:(e) 原始光譜數據;(f) SG1處理后的光譜數據;(g) SNV處理后的光譜數據;(h) MSC處理后的光譜數據。
(4)基于全波長的建模分析
在建模前,所有樣本隨機分為校準集和預測集,比例為3:1。為了選擇最佳的預處理方法和模型組合,將原始光譜數據以及經過SG1、SNV和MSC預處理的光譜數據分別輸入到DT、KNN、SVM和DF模型中。圖5顯示了基于全波長的建模分析結果??梢钥闯觯涍^MSC處理的光譜數據具有最高的建模準確率,均高于90%。這與t-SNE可視化的結論一致。
圖5. 基于全波長建模分析的結果
(5)基于PCA、SPA和NCA的特征波長選擇
為降低高維光譜數據維度并保留關鍵信息,本研究采用PCA、SPA和NCA從MSC處理后的光譜數據(210個變量)中提取特征波長。前三個主成分的累積貢獻率達99.52%,因此選取其載荷系數提取特征波長。圖6顯示了提取結果,共選出10個關鍵波長(1003.7、1108.7、1115.4、1192.5、1199.2、1295.4、1302.0、1357.8、1462.0和1471.7 nm)。
圖6. 利用前三個主成分載荷曲線提取的特征波長。
圖7展示了SPA選擇的特征波長結果。最終,選擇了8個特征波長,根據它們相關性的順序排列依次是1139.0、1088.5、1000.3、1195.9、1282.2、1612.6、1367.6和1467.0 nm。這些波長的相關性也顯示了它們在區(qū)分不同霜凍程度水稻種子中的重要性。
圖7. 由SPA提取的特征波長。
NCA算法用于高維數據特征選擇,通過計算變量權重篩選重要特征。圖8顯示,在210個波長中,僅6個波長權重顯著高于0,表明多數波長對區(qū)分霜凍程度貢獻較小。最終選出的六個特征波長依次為1030.9、1529.6、1334.9、1152.4、1047.9和1413.3 nm,它們與水稻種子化學成分密切相關。
圖8. 使用NCA獲得的每個波長的權重值。
表3展示了三個特征提取算法提取的特征波長??梢钥闯觯琍CA和SPA提取的特征波長非常接近,NCA算法提取的特征波長數量最少。
(6)基于特征波長的建模分析
為了評估不同模型的有效性,我們將總樣本集(6類水稻種子,每類300粒,共1800粒)分成不同樣本集,包含每類水稻種子10至300粒不等。模型的準確率通過五折交叉驗證獲得。圖9a至d展示了基于DT、KNN、SVM和DF模型在不同樣本集數量下的結果。整體上,PCA的效果不如NCA和SPA。在比較后發(fā)現,當樣本集較少時,NCA提取的特征波長建模效果優(yōu)于SPA,且隨著樣本集增加,二者的效果趨于接近。此外,NCA提取的特征波長數量少于SPA,有助于提升運算速度。因此,NCA被選為最佳特征提取算法。
圖9. 基于不同特征提取算法在不同樣本集數量下的建模結果。(a) DT模型;(b) KNN模型;(c) SVM模型;(d) DF模型。
圖10展示了基于NCA的DT、KNN、SVM和DF模型在不同樣本集數量下的建模結果。DF模型在樣本數量較少時仍保持了良好的分類效率,顯著高于本其他三個模型。同時,由于DF模型在不同樣本集數量下的分類準確率優(yōu)于其他三個分類模型,因此最終被選為最佳分類模型。
圖10. 基于NCA的不同樣本集數量下DT、KNN、SVM和DF模型的建模結果
(7)不同霜凍程度水稻種子的可視化
高光譜成像技術能夠同時獲取水稻種子的光譜和空間信息,從而通過可視化地圖展示不同霜凍程度的種子分類結果。研究采用逐對象方法進行可視化,并從1500粒種子(每類250粒)中選取樣本進行模型校準和測試,剩余300粒用于可視化?;贛SC-NCA-DF模型,校準時將種子隨機分為校準集和預測集,并通過5折交叉驗證驗證模型效果。通過敏感性和特異性評估模型性能。DF模型能夠高效區(qū)分健康和不同霜凍程度受損的種子,表明其具有較高的敏感性和特異性。視覺分類結果顯示,在300粒種子中,只有2粒被誤分類,分類準確率為99.33%。
圖11. 不同霜凍程度水稻種子分類結果的可視化。
結論
本研究結合DF模型和高光譜成像技術,成功識別不同霜凍程度受損的水稻種子。使用三種光譜預處理方法、三種特征提取算法和三種傳統(tǒng)機器學習模型,以及一個深度學習模型進行對比建模。經過分析,MSC-NCA-DF模型表現最佳,DF模型在小樣本集中依然具備良好分類能力,最終被選為最佳模型?;谠撃P偷姆诸惤Y果可視化,展示了不同霜凍程度的水稻種子,為未來在線檢測系統(tǒng)提供參考。
推薦產品
“GaiaSorter”高光譜成像系統(tǒng)
作者簡介
通訊作者:吉海彥,中國農業(yè)大學,博導
參考文獻
論文引用自一區(qū)文章:Liu Zhang, Heng Sun, Zhenhong Rao, Haiyan Ji. Hyperspectral imaging technology combined with deep forest model to identify frost-damaged rice seeds. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 229 (2020) 117973.
相關產品
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯系,否則視為放棄相關權利。