Геодезия, Картография, Земеустройство GKZ-5-6'2019 (За сайта)

Предимството на равните интервали е, че са най-прости за изчисление и разбиране, тъй като във всеки клас те са еднакви. Такава класификация е подходяща за изобразяване на непрекъснати данни, ако са почти еднакво разпределени във всеки клас.

Главният недостатък на метода е, че не може да се прилага при неравномерно разпределение на данните и особено ако стойностите формират струпвания. Второ, тъй като интервалите са фиксирани, близки стойности могат да бъдат причислени към различни класове, а различни стойности да попаднат в един и същ клас. В нашия първи числен пример няма такъв случай и следователно групирането с равни интервали би било подходящо. Във втория числен пример равните интервали разделят близките стойности 15 и 18 в различни класове, съответно във втори и трети клас, а твърде отдалечените стойности 33 и 45 са в един клас – трети.

Третият недостатък на равните интервали е, че границите на класовете не показват как са разпределени данните по числовата ос. Това важи както за нормално разпределение на данните, така и при неравномерно разпределени данни [2]. Ако разгледаме данните за първия пример (Етнос 1) ще видим, че границите между четвърти и пети клас попадат в поле без данни. Подобен е случаят, при който няма стандартно нормално разпределение на данните (Етнос 2). Тук границата със стойност 64 между четвърти и пети клас също попада в поле без данни. Този проблем е дори по-сериозен, ако в някой клас изобщо липсват данни.

Класифициращият метод „Определени интервали” има същите предимства и недостатъци както при равните интервали. Затова тук няма да ги разглеждаме. Разликата между тези два метода е в изчисляването на горната граница на първи клас. При равните интервали горната граница на първи клас се получава като към най-малката стойност се добавя интервалът. При определените интервали, изчисленият интервал от софтуера става горна граница на първи клас. В двата разгледани примера статистическите редове започват с нулеви стойности, поради неотчетени заболели пациенти в няколко области. По тази причина двата метода, равни и определени интервали в случая са напълно идентични.

Подобно на равните интервали, предимството на квантилите е, че границите на класовете се изчисляват лесно и нагледно са съпоставими. И за двата примера, за да се сравняват, избрахме броя на класовете да бъде 5, а броят на обектите (областите) е 28. Така за броя (N) обекти, които попадат във всеки клас, се получава 5.6, изчислени по формула (2). Тъй като изчислената стойност 5.6 трябва да се закръгли, а броят на класовете е нечетно число, очевидно първите четири класа ще съдържат по 6 обекта (области), а последният клас 4. В първи клас изцяло попадат нулеви стойности.

Поради равния брой обекти във всеки клас методът е подходящ при равномерно разпределение на данните. Ако данните се различават значително, е възможно резултатите в картата да са подвеждащи. Това означава, че обекти с близки стойности могат да попаднат в различни класове, или обратно - далечно разположени стойности да се окажат в един клас. Това може да се забележи в данните на пример 1. Стойностите 5 и 6 са последователни, но попадат съответно в клас 2 и клас 3. Същото важи и за стойностите 11 и 12. В същото време в последния клас 5 попадат отдалечените по числовата ос стойности 20 и 32. Това изкривяване на резултатите може да се намали чрез увеличаване броя на класовете. Най-големият недостатък на метода е, че може да се появи липса на данни в някой клас. Ако разгледаме отново пример 1, най-високата стойност на клас 5 е 32, а най-ниската стойност 20. В резултат на това се получава една единствена стойност в този клас и т.н „дупки” с границите на класа. Този метод има същия недостатък както при равните интервали - границите на класовете не показват как са разпределени данните по числовата ос.

Един добър графичен начин за определяне на естествени групи от сходни стойности е методът „Естествени граници”. Границите на класовете се определят там, където има резки прекъсвания на данните. Така естествените граници разпределят на картата обектите с близки стойности в един клас. Затова този метод е ефективен за картографиране на данни с неравномерно разпределение.

Като недостатък може да се посочи затрудненият избор на класове при равномерно разпределение на данните. Незначителните прекъсвания могат да бъдат подвеждащи и да доведат до лошо дефинирани граници на класа. Както се вижда от двете графики на таблица 1, определените класове са с неравни интервали. За пример 1, макар и да имаме малки изменения в стойностите, по-голямото прекъсване на данните очевидно е между 4-ти и 5-ти клас, а именно между стойностите 20 и 32. За останалите класове, особено където имаме струпване на данни с еднакви стойности, е по-трудно определянето на границите, особено между първи и втори клас. В пример 2 най-голямото прекъсване на данните е между стойностите 50 и 77. Следват по-малки прекъсвания между 5 и 7; 15 и 18; 33 и 45, където са се оформили границите съответно между 1-ви и 2-ри клас; 2-ри и 3-ти клас; 3-ти и 4-ти клас; 4-ти и 5-ти клас. От графиките за двата примера се вижда също, че най-много обекти са попаднали в първи, втори и трети клас.

Какво е по-трудното и за двата вида променливи? В 1-ви пример, стриктното приложение на метода е довел до определяне на един клас с много на брой ниски стойности (8 бр.), а последният клас - само с една най-висока стойност. В останалите класове имаме почти равномерно разпределение на броя на обектите, което пък затруднява определянето на границите (особено между 1 и 2 клас) . При втория пример разпределението на обектите е подобно, но границите на класовете са по-ясно определяеми, тъй като разликите в променливите са по-значителни. Въпреки тези трудности, картографското изображение е добро и визуално контрастно.

Друга класификация, при която се използват променливи интервали е методът „Геометрични интервали”. На табл. 1 се виждат определените от софтуера геометрични интервали за двата набора от данни. Изчисленият геометричен коефициент, с който те са определени, не се визуализира от софтуера. От графиките за двата статистически реда, обаче, се вижда, че там, където имаме струпване на данни, интервалите са по-малки, а в края интервалът е най-голям, който обхваща най-високата стойност. Изследванията на различни автори са показали, че конкретната полза от класификацията на геометричните интервали е, че тя представя доста добре данни, които не се разпространяват нормално, както и че получените резултати визуално се възприемат по-лесно от картографска гледна точка.

За да установим приложението на метода „Стандартно отклонение», по-подробно ще разгледаме как се определят границите на класа и какво се визуализира в графиките за тази класификация. Всеки клас се определя със стойността на стандартното отклонение и средната стойност за набора от данни. При първия пример изчислената средна аритметична стойност и стандартното отклонение също е . Както се вижда от табл. 1 и 2, към стойността 9 чрез добавяне и изваждане на и 2 се получават стандартите за всеки клас или 0, 9, 18, 27 (изчертани с пунктир). Стойностите на границите на класовете (изчертани с непрекъсната синя линия) около средната аритметична стойност 9 се получават на разстояние 0.5 , като изваждаме или добавяме 4.5. Така границите на 2 -ри, 3-ти и 4-ти клас са през еднакви интервали равни на 9, с изключение на крайните два класа. Числените стойности на границите на класовете съответно се получават 5, 14, 23, 31, 32. Аналогични са разсъжденията и за втория пример. В двата примера ArcGIS е закръглил стойностите на границите до цяло число.

Таблица 2. Геометрични интервали за двата набора от данни

ГКЗ 5-6 ' 2019

Геодезия, Картография, Земеустройство GKZ-5-6'2019 (За сайта) | Page 25