Геодезия, Картография, Земеустройство GKZ-5-6'2019 (За сайта) | Page 24

че за точност на изчисление на границите могат да се приемат различен брой знаци след десетичната запетая, в зависимост от мерната единица на оригиналните данни и изчисления. Първата променлива „Етнос 1” е с нормално разпределение на данните, а втората променлива „Етнос 2” представя неравномерно разпределение. И в двата набора от данни съществуват дублиращи се стойности, както и нерегистрирани данни в някои области, така че техните атрибутни стойности са нула.

При подготовка на данните за класификация, първо, винаги трябва да бъдат изследвани някои статистики и графики за проверка разпределението на данните. На хистограмата по оста х се показва честотата на появяване на всяко наблюдение (стойност), а по оста у се показват данните за стойностите по области (в случая брой пациенти). Естествените прекъсвания между съседни данни могат да се разглеждат като евентуални граници на класовете. При различните класифициращи методи границите попадат на различни места. Друга графика, която представя нагледно вида на разпределение на данните, е Normal QQPlot. Наблюденията (брой пациенти) се представят като точки на графиката. Точките ще се доближават до една права линия, ако данните са нормално разпределени. Обратното, ако данните са далеч от нормалното разпределение, точките ще се отклоняват от линията. В статистиката центърът на разпределение най-често се изчислява чрез средни величини – средна аритметична, средна хармонична, средна квадратична, средна кубична, медиана, мода и други. За двата примера са показани хистограма, QQplot разпределение (фиг.1 и фиг.2) и изчислени средни величини.

• Първи пример (Етнос 1) - нормално разпределение;

Избраният набор от данни представя числените стойности за разпределение на пациентите в 28-те области, отнасящи се до „Етнос 1”. Те са подредени от най-ниската към най-високата стойност в следната числова редица:

0, 0, 0, 0, 0, 0, 1, 2, 3, 4, 4, 5, 6, 9, 9, 10, 11,11, 12, 12, 14, 15, 15, 15, 20, 20, 32, 32.

Фиг.1. Хистограма и QQPlot графика за разпределение на данните по числовата ос за първата променлива

От фиг.1 се вижда, че нулеви стойности се срещат в шест области, след това следва плавно покачване на стойностите от най-ниската стойност 1 до 15 (18 области). В края на числовата редица следва значителен скок на броя заболели пациенти (в 4 области). С други думи, разпределението се характеризира с по-малък брой екстремно ниски и високи стойности и повече наблюдения с по-малки промени в стойностите. Изчислени са също статистиките: Count (брой обекти):28; Minimum:0; Maximum: 32, Sum (Сума на всички стойности): 262, Mean (Средно аритметично): 9.3571, Median(Медиана): 9, Standard Deviation (Стандартно отклонение: 8.9576. Двете статистики Mean – 9.3571 и Median - 9 са с близки стойности и показват близко до нормалното разпределение на данните. Както се вижда от хистограмата на фиг. 1 се оформят пет групи (струпвания) на данните по числовата ос.

• Втори пример (Етнос 2) - неравномерно разпределение;

Вторият набор от данни представя числените стойности за променливата „Етнос 2”. Подредени от най-ниската към най-високата стойност числовата редица е следната:

0, 0, 0, 1,2, 2, 4, 5, 5, 7, 8, 8, 8, 8, 9, 15, 15, 18, 20, 20, 24, 29, 33, 45, 49, 50, 77, 80.

Фиг.2. Хистограма и QQPlot графика за разпределение на данните по числовата ос за втората променлива

Както се вижда от хистограмата (фиг. 2.), има няколко прекъсвания на данните, от които най-голямото е между стойностите 50 и 77. На графиката за разпределение на данните повечето от наблюденията се отклоняват от правата линия, признак, че липсва нормално разпределение.

Изчислените статистики са: Count (брой обекти): 28; Minimum: 0; Maximum: 80, Sum (Сума на всички стойности): 542, Mean (Средно аритметично): 19.357, Median (Медиана) 8.5, Standard Deviation (Стандартно отклонение: 22.198. Двете статистики Mean - 19.357 и Median - 8.5 значително се различават и недвусмислено показват неравномерно разпределение на данните.

3.2. Сравняване на класифициращите методи

За сравнение на класифициращите методи са построени графиките на променливите (Етнос 1 и Етнос 2) в таблица 1. Те представят границите на класовете (непрекъсната синя линия), средната стойност (прекъсната черна линия) и разпределението на стойностите, като по хоризонталната ос са нанесени числените стойности на променливите, а по вертикалната ос броят на появяването им.

22

Таблица 1 Граници на класовете и разпределение на данните при различни класифициращи методи

ГКЗ 5-6 ' 2019