Геодезия, Картография, Земеустройство GKZ-5-6'2019 (За сайта) | Page 23

по-сложни изчисления на границите на класовете (групите). Например: квантили и стандартно отклонение. По-нататък споменатите методи са описани накратко, като заключенията за получените резултати са направени въз основа на ArcGIS софтуер. [1]:

Равни (постоянни) интервали (Equal interval): Атрибутните стойности се разделят в еднакви по размер класове. Първо се определя броят на класовете. Интервалът се изчислява, като обхватът на данните (разликата между минималната и максималната стойност от набора от данни) се разделя на броя на класовете, които дават общата разлика между тях. Във формулата:

(1)

I е изчисленият интервал за класовете; H - най-високата стойност в статистическия ред; L - най-ниската стойност; n – брой на класовете.

Границите на класовете започват от най-ниската стойност и се добавя общата разлика, за да се получи границата на втория клас и т.н.

Определени интервали (Defined interval): При тази класификация се определя интервал, чрез който се разделя еднакво обхватът от атрибутни стойности. Предварително се определя броят на класовете, а въз основа на тях алгоритмът изчислява интервалната стойност, която става горна граница на първи клас. Като резултат за останалите класове се получават интервали, чиито стойности са в аритметична прогресия, при която всеки член на редицата се получава от предходния чрез добавяне на една и съща разлика.

Квантил (Quantile): При тази класификация всички класове съдържат еднакъв брой обекти. За да се изчисли броят на обектите, които ще съдържа всеки клас, софтуерът сумира обектите и общата стойност разделя на броя на класовете, които предварително сме определили. Тази зависимост може да се представи чрез формулата:

(2)

където N e брой на обектите в клас; S - брой на всички обекти в статистическия ред, n – брой на класовете.

Естествени граници (Natural breaks): При този метод данните се разпределят в неравни интервали. Нарича се още метод на Jenks. Обектите се разделят в класове, чиито граници се определят от софтуера, там където стойностите рязко се променят или където липсват данни. Затова методът е подходящ за представяне на стойности, които са неравномерно разпределени. По-трудно е определянето на броя на класовете, ако данните са равномерно разпределени. Трябва да се отбележи, че този метод не е подходящ при сравняване на няколко карти, тъй като интервалите, изчислени за всеки клас, са характерни само за тази извадка.

Геометрични интервали (Geometrical interval): Тази класификационна схема е основана на интервали, които са в геометрична прогресия (последователност от числа, в която всеки член на числовата редица се получава чрез умножение на предходния член с определено число, наречено множител). Алгоритъмът определя геометричния множител така, че да се оптимизират класовите интервали, и се гарантира, че всеки клас ще съдържа приблизително еднакъв брой стойности.

Този метод за класификация е добавен за първи път във версия 9.2 на ArcGIS. Проектиран е да работи с данни, които не се разпространяват нормално или са силно изкривени (преобладават дублиращи или нулеви стойности). Затова методът е подходящ за визуализиране на непрекъснати повърхнини, които често нямат нормално разпределение на данните [5].

Стандартно отклонение (Standard deviation): Това е вторият класификационен метод, който използва постоянни интервали. При него софтуерът изчислява средната атрибутна стойност и тогава създава класове чрез добавяне или изваждане на стандартното отклонение от нея. Стандартното отклонение показва разпределението на стойностите спрямо средната стойност. Средната стойност и стандартното отклонение за набора от данни се изчислява чрез формули:

(3)

и

(4)

където (σ) е стандартното отклонение, а е разликата между всяка стойност и средната , а n - брой на обектите.

Последният метод за класифициране на данните е ръчният метод (Manual). Той често се използва, за да се определят точни стойности на променливите. Понякога се налага да се покаже нулевата стойност, за да се отделят положителните от отрицателните стойности в статистическия ред. В разгледаните по-долу примери, фигурират нулеви стойности в статистическия ред за брой заболели пациенти. Затова при съставяне на карта е необходимо ръчно да въведем „нулева” група, тъй като при всички класификационни методи софтуерът сам определя границите след като сме задали броя на групите.

Изборът на класификационен метод е отговорна дейност и изисква богат опит в картографирането и статистиката.

3. ЧИСЛЕНИ ПРИМЕРИ

3.1. Изследване вида на разпределение на данните

Изследването на предимствата и недостатъците на най-често използваните класифициращи методи могат да ни послужат като критерий за избора на един или друг метод. Кой класифициращ метод е подходящ зависи от разпределението на данните [4]. Aко един метод, който дава точна и визуално добра карта за набор от данни, който е равномерно разпределен (например, има приблизително равен брой високи, средни и ниски стойности), то той няма да е подходящ при неравномерно разпределение на данните, т.е. когато има много малки стойности и само няколко много големи стойности. Тези аномални променливи може да нарушат интервала в класовете (групите). Това потвърждава, че автоматизираните методи за класификация, които са предвидени в ГИС софтуерите трябва да бъдат използвани с някаква степен на предпазливост.

За да сравним класифициращите методи, ще приемем пет класа при илюстриране на примерите. Ще разгледаме примери за класификация на две променливи с различни статистически разпределения на данните. Използвани са данни за броя на заболелите пациенти от наследствени невропатии от трите основни етноса в България, разпределени по области.Тук ще сравним числените данни само за два от тях, които представят коренно различно статистическо разпределение. Поради конфиденциалност на данните, условно ще наречем двете променливи „Етнос 1” и „Етнос 2”. Поради характера на данните, при изчисляване на интервалите и границите на класовете и за двата примера се използват цели числа. Ще подчертаем,

21

ГКЗ 5-6 ' 2019