![]() |
||||
|
← |
Д. Шабанов, М. Кравченко. «Статистичний оракул»: аналіз даних в зоології та екології |
→ |
||
|
Фенетичні дистанції |
||||
|
«Статистичний оракул»-15 |
«Статистичний оракул»-16 |
|||
|
15.1 |
||||
15 Фенетичні дистанції
14.1 Як виміряти подібність?
Фенетична дистанція — це міра сумарної морфологічної відмінності. Ми можемо уявити описи різноманітних особин як точки, що розкидані у багатовимірному просторі ознак. Ці точки завжди будуть розкидані не хаотично, вони створюватимуть певні «сузір’я» — групи об’єктів, що розташовані відносно ближче одна до одної. І якщо ми представимо кожну ознаку (довжину тіла, ширину голови тощо) як окрему вісь у багатовимірному просторі, то фенетична дистанція — це фактична відстань між двома точками (описом особин) у цьому просторі. Чим менша дистанція, тим більше порівнювані об’єкти подібні один до одного.
Чи існує певний, завжди «правильний» спосіб розрахунку фенетичних дистанцій? Повернемося до ілюстрації, яка була використана у розділі, що присвячений кластерному аналізу (рис. 12.1.1).
Фенетичні дистанції можуть бути використані як для розрахунку подібності/відмінності між окремими особинами, так і для опису подібностей/відмінностей між групами особин (популяціями тощо). Наприклад, у разі використання виключно морфометричних даних логічно використовувати метрику Евкліда — власне відстань. Втім, ця метрика вимагає стандартизації даних. Стандартизація позбавляє від двох категорій проблем.
Перша група проблем пов’язана з різним масштабом різних змінних. Якщо довжина тіла ропухи вимірюється десятками міліметрів, а розмір п’яткового горбка — міліметрами, різниця між вимірами великої і маленької ропухи за першою ознакою виявиться набагато вагомішою, ніж за другою.
Друга група проблем повʼязана з різною мінливістю ознак. Припустимо висота точки збору ропухи над рівнем моря (для різних оселищ) може змінюватися у сотнях метрах та навіть кілометрах. Висота самої ропухи вимірюється в сантиметрах. Різниця у сантиметр за першою ознакою є дрібницею, за другою — заслуговує на врахування.
Прибирає ці проблеми процедура, яка має назву стандартизація (а також нормалізація, Z-оцінювання тощо). Замість емпіричних даних використовується різниця між емпіричним значенням та середнім значенням ознаки для усієї досліджуваної сукупності, яку слід поділити на стандартне відхилення даної ознаки для усієї сукупності. Ми замінюємо кожне xi на таке xsi , що xsi = (xi — μ)/ σ, де μ — середнє значення даної ознаки для усієї досліджуваної сукупності, а σ — стандартне відхилення даної ознаки для усієї досліджуваної сукупності.
В двовимірному просторі відстань Евкліда — це довжина гіпотенузи прямокутного трикутника, що заданий довжиною двох катетів (ви ж пам’ятаєте, що в евклідовому просторі виміри є взаємно ортогональними, тобто перпендикулярними)? У разі збільшення кількості вимірів у просторі розрахунок залишається саме таким. Для двох точок p з вимірами (p1, p2, p3 … pn) та q з вимірами (q1, q2, q3 … qn) евклідова відстань між ними дорівнює
|p-q| = ( (p1-q1)2 + (p2 - q2)2 + (p3 - q3)2 + … + (pn - qn)2 )0.5.
Чи завжди простір ознак можна вважати таким, де усі виміри є ортогональними? Дуже часто різні виміри мають високу кореляцію. У такому разі слід використовувати відстань Махаланобіса, яка враховує зв'язок у мінливості різних ознак. Цю міру запропонував у 1936 році індійський математик Прасанта Чандра Махаланобіс, який вимірював фенетичні дистанції між людськими черепами (де, як і на багатьох інших зоологічних об'єктах, слід враховувати сильний зв'язок значень одних ознак від значень інших).
Для таких наборів даних, як, припустимо, приклад, що міститься в Bufotis_viridis_database_new.RData, характерна суміш метричних, альтернативних та дискретних ознак. Для таких наборів найадекватнішою часто є дистанція Гауера (Gower distance). Цю дистанцію запропонував у 1971 році Джон Гауер у статті з промовистою назвою «A general coefficient of similarity and some of its properties».
Відстань Гауера у її типовому вигляді лежить у діапазоні від 0 (об’єкти тотожні) до 1 (об’єкти мають максимальний рівень відмінностей для досліджуваної бази даних). При визначенні дистанції Гауера розраховується часткова схожість для кожної ознаки окремо, а потім виводиться середнє арифметичне для всіх використаних ознак. Таким чином, відстань (дистанція) Гауера — це середньозважена відстань по усім використаним ознакам.
