Бұл бөлімде гиперспектралды деректерді талдау үшін жіктеу моделін құру үдерісі сипатталады. Бұл үдеріс мақсатты санаттарды дұрыс анықтап, оларды оқыту үшін қажетті параметрлерді баптаудан басталады. Дұрыс құрылған жіктеу моделі спектрлік ақпаратты тиімді пайдалана отырып, зерттелетін нысандарды нақты тануға мүмкіндік береді.
Breeze бағдарламалық жасақтамасындағы бұл модель ауыл шаруашылығы дақылдарының ауруларын автоматты түрде жіктеу үшін қолданылады. Жіктеу белгілі бір ауру түрлерінің сипаттамалары немесе белгілері негізінде жүзеге асырылады. Бұл ретте, шешім ағашына негізделген модель өсімдіктің зақымданған бөліктерін сегментациялау арқылы жаңа импортталған деректерді болжауға арналған «база» ретінде қолданылады.
Жаңа жіктеу моделін жасау үшін, бағдарламаның сол жақ панеліндегі «Model» бөліміне өтіп, бұрын құрылған модельдердің мәзірін ашу керек (54-сурет).

54-сурет – Жаңа модельді қосу үшін модельдер мәзіріне өту
Бұл жерден жаңа модель құруға болады. Төменгі сол жақ панельдегі «Add» батырмасын басқаннан кейін, «Жаңа модель құру шебері» ашылады. Мұнда үшінші нұсқа – «Classification» таңдалады, әрі PLS-DA әдісі (категориялық айнымалыларға негізделген ішінара кіші квадраттар әдісі) көрсетіледі (55-сурет).

55-сурет – PLS-DA жіктеу әдісін таңдау
Жіктеу моделін құру келесі кезеңдерді қамтиды:
- 1-кезең: айнымалыларды таңдау (56-сурет);
- 2-кезең: үлгілерді таңдау – зақымданған өсімдік бөліктері (57-сурет);
- 3-кезең: зақымданған аймақтардың бастапқы спектрінен толқын ұзындығының диапазонын (әдетте барлық диапазон әдепкі түрде таңдалады) (58-сурет), негізгі компоненттер бойынша модельдік жүктемелерді (59-сурет) таңдау, салмақ коэффициенттерін бағалау (60-сурет); маңыздылық көрсеткіштерін талдау (61-сурет), таңдалған толқын диапазонында сигнал мен шудың қатынасын бағалау (62-сурет). Алдын ала өңдеу кезеңінде SNV (Standard Normal Variate correction) әдісі қолданылады. Бұл әдіс спектроскопиялық деректерде үлгілердің тығыздығы мен қалыңдығындағы айырмашылықтарды, сондай-ақ жарықтың шашырауынан туындайтын мультипликативтік әсерлерді азайту үшін қажет;
- 4-кезең: PLS-DA моделінің негізгі статистикалық көрсеткіштерін есептеу: PC1-PC5 компоненттерін талдау (63, 64-сурет). «Score variance»диаграммасы – үлгілер арасында мүмкін болатын шығарындыларды анықтайтын нүктелік график. «Overview» графигі – модельдің сапасын көрсететін «R2» және «Q2»сияқты көрсеткіштерді қамтиды. Бұл графикте сонымен қатар компоненттер саны көрсетіледі. «R2» – модельдің оқу деректеріне сәйкестігін, яғни үйренген деректерді қаншалықты жақсы сипаттайтынын көрсетсе, «Q2» – кросс-валидация арқылы модельдің болжау қабілетін бағалайды. Бұл көрсеткіштердің жоғары болуы модельдің сенімділігін көрсетеді. Алынған «R2» және «Q2» көрсеткіштері модель үшін негіз бола алады, себебі одан кейінгі компоненттерде (мысалы, үшінші компонентте) бұл көрсеткіштердің мәні айтарлықтай өсім көрсетпейді (64-сурет). «Distance to model» диаграммасы арқылы әрбір үлгінің модельден ауытқу деңгейін көруге болады. X қашықтығының шектік мәнінен асуы (диаграммадағы қара сызық) үлгінің модельден шығарылуын білдіруі мүмкін;
- 5-кезең: құрылған PLS-DA моделін бағалау үш негізгі кесте бойынша жүзеге асырылады: «Observed vs. Calculated», «Overview» және «Variable Overview». «Observed vs. Calculated» графигінде бір осьте – үлгілердің нақты санаттарға жататын шынайы мәндері, ал екінші осьте – модель болжап берген мәндер бейнеленеді. Бұл график үлгілердің санаттар бойынша бөлінуін көрсететін диаграмма болып табылады. «Variable Overview» графигі «R2» дисперсиясын (яғни, модельді оқыту үшін пайдаланылған деректер санаттар арасындағы айырмашылықтарды қаншалықты жақсы сипаттай алатынын) және әрбір санат үшін «Q2» болжау қабілетін (яғни, модельдің кросс-валидация барысында аурудан зардап шеккен дақылдардың нақты аймақтарын болжай алу мүмкіндігін) көрсетеді. Соңында «Finish» батырмасын басу арқылы жіктеу моделін құру үдерісі аяқталады (65-сурет).

56-сурет – Жіктеу моделін құру: айнымалыларды таңдау

57-сурет – Жіктеу моделін құру: үлгілерді таңдау

58-сурет – Зерттелетін диапазон шегіндегі үлгілердің зақымданған аймақтарының өңделмеген спектрі

59-сурет – Жіктеу моделін құру кезінде негізгі компоненттер бойынша модельдік жүктемелер

60-сурет – Жіктеу моделін құру кезінде негізгі компоненттер бойынша салмақ коэффициенттері

61-сурет – Жіктеу моделін құру кезінде маңыздылық көрсеткіштері

62-сурет – Жіктеу моделін құру кезінде толқын диапазонындағы сигнал-шу қатынасы

63-сурет – PLS-DA моделін есептеу: PC1 және PC2 параметрлерін қарастыру

64-сурет – PLS-DA моделін есептеу: PC4 және PC5 параметрлерін қарастыру

65-сурет – Жасалған PLS-DA моделін бағалау
Құрылған PLS-DA моделі туралы толық ақпаратты «Model» мәзірінен алуға болады. «Overview» бөлімінде үлгілер саны, спектралды арналар, негізгі компоненттер, толқын ұзындығының диапазоны, алдын ала өңдеу параметрлері, кросс-валидация, сегменттеу моделі және басқа маңызды деректер қамтылған (66-сурет).

66-сурет – Жасалған PLS-DA моделі туралы жалпы ақпарат
PLS-DA моделі құрылғаннан кейін «Model» мәзірінің екінші бөлімінде модельге қатысты графикалық статистика ұсынылады. «Score Variance» графигі модельдің әрбір компоненті қанша пайыз дисперсияны (вариацияны) түсіндіретінін айқын көрсетеді. «Observed vs. Calculated» графигінде санаттардың бөлінуі көрініс табады: бір осьте нақты (шынайы) мәндер, ал екінші осьте – модель болжаған мәндер бейнеленеді. «Overview» графигі модель сапасын «R2» және «Q2» көрсеткіштері арқылы сипаттайды. «Variable overview» графигінде зерттеліп жатқан белгілердің әрбір санаты бойынша дисперсия және болжау қабілеті туралы мәлімет беріледі. «DModX» графигі зерттелетін үлгінің модель кеңістігіндегі (X айнымалылар кеңістігі) орналасуына дейінгі қашықтықты көрсетеді. Бұл үлгі модельге проекцияланғаннан кейін есептеледі. Егер бұл мән төмен болса, онда үлгі модельмен жақсы сипатталғанын білдіреді. Ал көрсеткіш сенімділік шегінен (critical distance) асып кетсе, бұл үлгіде шығарындылар бар деген сөз. Сенімділік деңгейі әдетте 95 % деп есептеледі (67-сурет). Модельге қатысты барлық статистикалық көрсеткіштердің нақты мәндері «Model» мәзіріндегі «Table» деп аталатын үшінші бөлімде ұсынылады (68-сурет).

67-сурет – PLS-DA моделі бойынша графикалық статистика

68-сурет – PLS-DA моделі бойынша сандық статистика
Төртінші бөлім – «Classification», қателер матрицасы туралы ақпаратты қамтиды (69-сурет). Бағандарда – ауыл шаруашылығы дақылдарының ауруларын анықтауға арналған болжау санаттары, ал жолдарда – нақты санаттар (үлгілерге алдын ала берілген) көрсетіледі. Мысалы, 69-суретте модель тек бір үлгіні (1,89 %) қате санатқа жатқызған. Зерттелетін зақымданған аймақтарды классификациялау шектерін нақтылау үшін сенімділік аралығы пайдаланылады. Бұл аралық қателік матрицасы мәндерін статистикалық модельдеуге мүмкіндік береді. Аралықтың төменгі шегі жоғары болған сайын, үлгіні бұрын оқытылған модельдің белгілі бір санатына жатқызу үшін модельге көбірек сәйкестік қажет (70-сурет).
Аталған матрица модель болжаған және нақты анықталған ауру санаттарын салыстыруға мүмкіндік береді. Бұл үдеріс үш негізгі метрикамен бағаланады: дәлдік (Precision) – нақты анықталған аурулар ішінен қаншасы дұрыс, толықтық (Recall) – барлық шынайы аурулардың қаншасы дұрыс анықталған, F-өлшемі (F-score) – дәлдік пен толықтықтың үйлесімді орташа мәні. Бұл көрсеткіштер әр ауру түріне жеке есептеледі және модельдің фитопатологияны танудағы тиімділігін нақты сипаттайды.

69-сурет – Қателер матрицасы

70-сурет – Сенімділік аралығы негізінде қате матрицасының мәндерін статистикалық модельдеу
«Model» мәзірінің бесінші бөлімі – «Compare», әртүрлі жіктеу модельдерінің негізгі статистикалық көрсеткіштерін салыстыруға мүмкіндік береді (71-сурет).

71-сурет – Жіктеу модельдерінің негізгі статистикалық метрикаларын салыстыру
Жұмыс аяқталған соң, «Model» мәзірінен шығу үшін оң жақ жоғарғы бұрыштағы «X» белгісін басу жеткілікті.
Көптеген параметрлер бастапқыда әдепкі (default) мәндермен орнатылады, бірақ оларды қажет болған жағдайда өзгертуге болады. Модель зақымдану белгілері алдын ала таңбаланған деректер негізінде оқытылады, бұл өз кезегінде жаңа кескіндердегі зақымданған бөліктерді автоматты түрде анықтауға және жіктеуге мүмкіндік береді.