Statistical Oracle — 02. Використання програми Statistica: файл-приклад PelophylaxExamples






       

Д. Шабанов, М. Кравченко. «Статистичний оракул»: аналіз даних в зоології та екології

Тема 1. Основні поняття біостатистики

Тема 2. Статистичні програми та файл-приклад для роботи з ними

Тема 3. Використання мови R

«Статистичний оракул»-01

«Статистичний оракул»-02

«Статистичний оракул»-03

 

Тема 2. Використання програми Statistica: файл-приклад PelophylaxExamples

2.1. Різноманіття програм для статистичного аналізу

Ми приступили до вивчення біологічної статистики. Воно може бути організовано двома різними способами. При першому з них (його можна позначити «ab ovo») студентам пояснюють математичні основи досліджуваних методів, виводять необхідні формули і доводять пояснюють їх теореми. Якщо студент освоїв такий курс, рішення конкретних проблем, пов'язаних з тим чи іншим набором даних в його області досліджень виявляється не такою вже складною задачею. Другий спосіб («роби, як я») полягає в тому, що студентам показують, як вирішувати типові завдання за допомогою того чи іншого інструментарію.

Перший спосіб складніший. Люди, успішно впоралися з навчанням за першим способом, мають більш високу підготовку і більш універсальні. Однак, значною мірою, перший спосіб працює за принципом «все або нічого». Ти або освоїв основні підходи і можеш їх застосовувати, або не знаєш, що робити і губишся при необхідності вирішити найпростіші завдання. Другий спосіб «демократичніший» і дозволяє легко вирішувати типові завдання. На жаль, без розуміння основ методів люди, яких навчили повторювати якісь послідовності дій, але не пояснили їх зміст, часто роблять помилки. Ще одним недоліком другого підходу є звикання до певних програм (інструментам для вирішення типових задач). Природно, що для різних категорій студентів потрібен або перший, або другий спосіб, або їх поєднання. Досвід викладання біометрії студентам-біологам свідчить, що для них, найчастіше, більш корисним є підхід «роби, як я».

Реалізація підходу «роби, як я» вимагає вибору програм, за допомогою яких буде проводитися навчання. Тут доводиться вибирати між п'ятьма категоріями програм:
— безкоштовні аматорські і напівпрофесійні програми; їх чимало, але серед них немає універсальних, і, до того ж, мало не кожна з них вимагає свого підходу (хоча деякі рішення слід визнати вдалими, як, наприклад, цей набір онлайн-калькуляторів);
— ймовірно, найбільш вдала з безкоштовних програм, створена палеонтологами як спрощений і безкоштовний аналог пакету Statistica — програма PAST; завантажити останню версію самої програми і керівництва користувача до неї можна тут;
— вільне програмне забезпечення; лідер в цій області — середовище R: потужна мова для статистичного аналізу; в базовому випадку вимагає роботи з командним рядком, хоча частіше використовується з оболонками на зразок RStudio;
— платне або вільне ПЗ, не призначене для вирішення статистичних завдань спеціально, але здатне надавати широкі можливості для роботи з даними і, в тому числі, і їх статистичного аналізу; до цієї категорії відносяться Excel і Access, компоненти Microsoft Office, а також їх безкоштовні аналоги, як LibreOffice Calc, аналог Excel, що за багатьма ознаками є кращим за нього.

«Тут слід зазначити ще одну річ: ні в якому разі не рекомендовано проводити будь-який статистичний аналіз в програмах електронних таблиць. Не кажучи вже про те, що інтернет просто забитий статтями про помилки в цих програмах і/або в їх статистичних модулях, це ще й вкрай невірно ідеологічно. Інакше кажучи: Використовуйте R!». А. Б. Шипунов, Е. М. Балдин «Анализ данных с R».

— платні професійні спеціальні програми; лідерами ринку в цій галузі є програми SAS, SPSS та Statistica. SAS (Statistical Analysis System) — це мова програмування та відповідна програма від SAS Institute. Цей програмний продукт призначено, перш за все, для серйозного бізнесу. SPSS (Statistical Package for the Social Sciences) програма, що широко використовується в гуманітарних науках. У 2009 році компанію SPSS Inc придбала славнозвісна IBM. Тепер їх продукт має назву PASW Statistics (Predictive Analytics SoftWare). Серед вчених-природничників, особливо на пострадянському просторі, особливу популярність здобув пакет Statistica, який розробляє компанія StatSoft.

Використання програм п'ятої категорії дозволяє найбільшою мірою зосередитися на суті розв'язуваних проблем. На жаль, воно пов'язане з необхідністю вибору між купівлею дорогої (дуже дорогої!) ліцензії або використання зламаних, піратських версій. Втім, зараз компанія StatSoft надає можливість отримати ліцензію на використання її програмного продукту у освітніх цілях. 

Важливою перевагою платних професійних спеціальних програм є те, що саме такі програми дозволяють швидше за все отримати досвід роботи з даними, в тому числі, і з використанням методів багатовимірного аналізу, що вимагають складних обчислень.

Один з авторів цього підручника почав працювати з програмою Statistica фірми StatSoft (в її попередній реінкарнації) близько 1992 року (тоді вона називалася CSS, і вона була призначена для роботи в MS DOS). У той час саме цю програму використовували кваліфіковані зоологи Москви і Києва. Зроблений тоді вибір і визначив ту програму, на яку спочатку було орієнтовано виклад в цьому підручнику. Треба зізнатися, що людині, яка звикла працювати в програмі з віконним інтерфейсом, вибираючи опції з запропонованого списку, надзвичайно важко перейти до роботи в режимі командного рядка, який вимагає пам'ятати імена і синтаксис необхідних програм. Втім, альтернативи засвоєнню середовища R для професійного біолога вже немає.

 

2.2. Файл-приклад PelophylaxExamples

У подальшому викладі особливості роботи програм будуть пояснюватися переважно з використанням файлів, що відбивають результати справжніх досліджень. Одним з таких файлів є таблиця даних PelophylaxExamples. Багато матеріалів у даному підручнику стосуються роботи саме з цим файлом. Його можна отримати одним із трьох способів. По-перше, його можна завантажити (PelophylaxExamples.csv) або отримати у автора даного тексту. Доступний для завантаження файл має формат .csv (Comma-Separated Values); це один з поширених форматів для переносу даних між різними програмами. Фактично це текстовий формат, де наведено табличні дані. Кожне наступне значення відділяється від попереднього розділювачем (у типовому випадку — комами, у пропонованому файлі — крапками з комами). Якщо поля таблиці розділені комами, їх неможливо використовувати у якості десяткових розділювачів (нагадуємо, що у більшості розвинених країн у якості десяткового розділювача використовують коми). При використанні електронної версії конспекту наведені нижче дані можна перенести з вікна браузера, файлу Word чи .pdf в необхідну програму. Нарешті, при використанні друкованого конспекту наведену далі таблицю можна розпізнати, ввести в необхідні програми і потім використовувати її в подальшій роботі.

У файлі використаний фрагмент даних, отриманих О. В. Коршуновим при підготовці дисертації на здобуття наукового ступеня кандидата біологічних наук (автори щиро вдячні О. В. Коршунову за дозвіл використовувати результати його роботи). В оригінальному файлі містився опис кількохсот жаб за 16 морфометричними ознаками; в обраному фрагменті залишено 57 жаб і наведені дані про мінливість у них 7 морфометричних ознак. Структура даних пояснюється на прикладі файлу Statistica, тому що ця програма дозволяє досить просто показати текстово-числові відповідності та специфікації змінних.

Всі описані у файлі-прикладі особини належать до гібридогенного комплексу зелених жаб, Pelophylax esculentus complex. Це два батьківських види, ставкова жаба Pelophylax lessonae (Camerano, 1882) і озерна жаба, P. ridibundus (Pallas, 1771), а також їх диплоїдні і триплоїдні гібриди, звані їстівними жабами, P. esculentus (Linnaeus, 1758). Триплоїдні гібриди P. esculentus представлені двома формами, що відрізняються за складом геномів в генотипі. Відтворення гібридів пов'язано з феноменом геміклональной спадковості. Перелічені форми жаб у різному складі можуть утворювати геміклональні популяційні системи (ГПС), де рід час спільного відтворення передаються як клональні, так і рекомбінантні геноми.

Батьківські види і гібриди мають певні зовнішні особливості, які, однак, не дозволяють чітко відрізняти їх один від одного. Один з методів доказової ідентифікації різних форм зелених жаб полягає у використанні проточні ДНК-цитометрії. Клітини жаб з струмом рідини проходять через ультрафіолетовий детектор. Вони опромінюються ультрафіолетовим випромінюванням на тій довжині хвилі, на який ДНК поглинає випромінення, а потім на тій довжині, на якій збуджена ДНК випромінює енергію, реєструється інтенсивність флуоресценції клітини. Порівнюючи клітини досліджуваних особин з реперними клітинами (наприклад, трав'яної жаби, Rana temporaria), що мають точно відому масу ДНК, що припадає на клітку, можна визначити масу ДНК в досліджуваних клітинах. Ця маса вимірюється в пікограм, пг. Оскільки відомо, що геном P. lessonae має масу близько 7 пг, а геном P. ridibundus — 8 пг. За масою клітинної ДНК можна визначити, які геноми входять в генотип даної особини.

У файлі PelophylaxExamples містяться дані про жаб з 5 різними генотипами. Геном P. lessonae позначено як L, геном P. ridibundus — як R, і ці 5 форм — це LL, LLR, LR, LRR і RR. Всі ці форми зустрічаються в Харківській області.

У файлі PelophylaxExamples рядкам (Cases, спостереженнями) відповідають окремі особини, а стовпцям (Variables, змінним) — їхні ознаки. Характеристика кожної особини включає в себе місце збору, його координати, а також вказівку того, стосується ця точка до водозбірного басейну Дніпра (захід і північний захід Харківської області) або Дона (тобто Сіверського Дінця; більша частина території області). Крім того, для кожної жаби вказується її стать. У файлі наведено дані про статевозрілих жаб. 

Вимірювання морфометричних ознак проводилося на фіксованих жабах за допомогою штангенциркуля; дані вимірювалися з точністю до 0,1 мм. Найістотнішою з цих ознак є довжина тіла. Всі інші ознаки можуть використовуватися як у вигляді абсолютних значень, так і у вигляді пропорцій (відношення даної ознаки до довжини тіла). Крім того, для тих чи інших цілей можуть обчислюватися індекси — комплексні ознаки, які обчислюються як певні комбінації вихідних морфометрических ознак. Строго кажучи, пропорції (відносини промірів до довжини тіла) теж є індексами, але в цілях зручності ці поняття простіше звузити так, як це запропоновано в даному абзаці.

Таблица 2.2.1. Дані, включені в файл PelophylaxExamples: статевозрілі зелені жаби з Харківської області (невипадкова вибірка)

  Place East North Basin Sex DNA Genotyp L Ltc Fm T Dp Ci Cs
LL_f_603 Krasnocuts`k 35,16 50,07 Dnipro female 14,03 LL 603 194 264 255 76 42 119
LL_f_562 Chernetchina 35,13 50,05 Dnipro female 13,95 LL 562 187 266 249 62 41 152
LL_f_592 Chernetchina 35,13 50,05 Dnipro female 13,99 LL 592 195 281 261 79 37 132
LL_m_595 Chernetchina 35,13 50,05 Dnipro male 13,95 LL 595 199 285 286 75 38 114
LL_f_602 Chernetchina 35,13 50,05 Dnipro female 14,02 LL 602 218 287 281 80 45 158
LLR_f_625 Izbickoe 36,73 50,20 Don female 21,83 LLR 625 221 303 292 83 37 145
LLR_m_589 DobritzkiyYar 36,31 49,56 Don male 21,43 LLR 589 216 290 277 77 37 152
LLR_f_658 DobritzkiyYar 36,31 49,56 Don female 21,67 LLR 658 241 306 304 96 34 170
LLR_m_528 KreydyanaDacha 36,80 49,43 Don male 21,62 LLR 528 196 257 246 66 31 127
LLR_f_557 KreydyanaDacha 36,80 49,43 Don female 21,61 LLR 557 200 251 257 67 33 143
LLR_m_529 Verbunivs`kaDacha 36,89 49,42 Don male 21,61 LLR 529 192 258 262 77 35 128
LLR_m_574 Verbunivs`kaDacha 36,89 49,42 Don male 21,64 LLR 574 199 263 267 78 38 146
LLR_f_616 Verbunivs`kaDacha 36,89 49,42 Don female 21,50 LLR 616 230 316 298 91 39 155
LLR_f_767 Zamulivka 36,46 50,08 Don female 21,43 LLR 767 240 349 346 95 44 160
LLR_f_800 Zamulivka 36,46 50,08 Don female 21,60 LLR 800 262 389 376 116 49 196
LLR_f_479 ChervoniyShahtar 37,03 49,18 Don female 22,03 LLR 479 189 238 246 65 27 118
LR_m_659 Sharivka 35,47 50,04 Dnipro male 14,94 LR 659 208 302 300 84 48 166
LR_f_691 Sharivka 35,47 50,04 Dnipro female 14,91 LR 691 227 359 349 98 48 176
LR_m_668 Lipci 36,38 50,21 Don male 14,86 LR 668 226 335 328 86 44 175
LR_f_791 Gaydary 36,33 49,62 Don female 14,88 LR 791 299 381 394 116 47 233
LR_f_707 DobritzkiyYar 36,31 49,56 Don female 14,95 LR 707 229 334 332 97 43 150
LR_m_714 DobritzkiyYar 36,31 49,56 Don male 14,91 LR 714 244 356 341 93 53 181
LR_m_553 VelykaGomol`sha 36,27 49,57 Don male 14,80 LR 553 210 262 280 85 28 144
LR_f_877 SuhaGomol`sha 36,34 49,54 Don female 15,09 LR 877 338 376 423 139 47 227
LR_m_650 KreydyanaDacha 36,80 49,43 Don male 14,79 LR 650 225 320 319 90 38 164
LR_f_543 Verbunivs`kaDacha 36,89 49,42 Don female 14,91 LR 543 190 266 273 79 33 127
LR_m_662 Pechenizhsk`iyRibhoz 36,59 49,52 Don male 14,72 LR 662 252 321 325 92 43 186
LR_m_561 Eschar 36,35 49,47 Don male 14,91 LR 561 209 273 285 77 37 161
LR_f_641 Balakliya 36,48 49,27 Don female 14,85 LR 641 268 317 323 93 41 173
LR_f_569 Gatishe 36,52 50,18 Don female 14,91 LR 569 201 260 281 90 36 156
LRR_m_588 Gaydary 36,33 49,62 Don male 22,97 LRR 588 206 288 289 91 35 137
LRR_m_653 Gaydary 36,33 49,62 Don male 22,64 LRR 653 215 315 319 82 38 151
LRR_m_655 Gaydary 36,33 49,62 Don male 22,98 LRR 655 221 328 345 92 45 159
LRR_f_677 Gaydary 36,33 49,62 Don female 22,80 LRR 677 294 338 364 108 43 181
LRR_m_691 Gaydary 36,33 49,62 Don male 22,81 LRR 691 226 330 334 92 40 167
LRR_f_742 Gaydary 36,33 49,62 Don female 22,79 LRR 742 255 352 356 107 40 174
LRR_f_715 DobritzkiyYar 36,31 49,56 Don female 22,60 LRR 715 220 353 344 103 41 155
LRR_f_504 SuhaGomol`sha 36,34 49,54 Don female 22,79 LRR 504 203 231 248 63 31 117
LRR_m_564 KreydyanaDacha 36,80 49,43 Don male 22,74 LRR 564 192 283 293 77 30 139
LRR_m_755 KreydyanaDacha 36,80 49,43 Don male 22,73 LRR 755 268 411 372 106 42 189
LRR_f_618 Verbunivs`kaDacha 36,89 49,42 Don female 22,81 LRR 618 212 288 302 94 32 145
LRR_f_689 Verbunivs`kaDacha 36,89 49,42 Don female 22,85 LRR 689 248 316 341 104 37 179
LRR_m_721 Balakliya 36,48 49,27 Don male 22,85 LRR 721 278 359 359 104 47 196
RR_m_706 Gorodnee 35,14 50,05 Dnipro male 16,13 RR 706 266 326 362 97 37 187
RR_m_508 Gubarivka 35,35 50,16 Dnipro male 16,27 RR 508 191 259 277 66 27 129
RR_f_701 Lipci 36,38 50,21 Don female 16,00 RR 701 270 360 376 106 30 178
RR_f_825 Martova 36,96 49,93 Don female 16,18 RR 825 315 423 443 124 49 240
RR_f_537 Pechenigy 36,99 49,89 Don female 16,22 RR 537 189 259 273 72 28 119
RR_f_535 SuhaGomol`sha 36,34 49,54 Don female 15,99 RR 535 200 265 281 78 32 145
RR_m_521 ChervonaGusarivka 36,86 49,41 Don male 16,01 RR 521 186 243 267 65 28 124
RR_f_542 ChervonaGusarivka 36,86 49,41 Don female 16,07 RR 542 193 262 282 71 27 129
RR_f_693 Vesele 37,19 49,40 Don female 16,11 RR 693 247 341 362 104 32 174
RR_f_710 Petropillya 37,13 49,09 Don female 16,01 RR 710 256 339 371 99 34 177
RR_m_686 Eschar 36,35 49,47 Don male 16,03 RR 686 268 336 361 103 38 197
RR_m_792 Balakliya 36,48 49,27 Don male 15,92 RR 792 262 340 357 93 32 172
RR_m_930 Zamulivka 36,46 50,08 Don male 16,08 RR 930 265 462 461 138 31 202
RR_m_656 Liman 36,32 49,35 Don male 16,20 RR 656 219 352 337 90 36 154

 

2.3. Змінні в таблиці PelophylaxExamples (на прикладі файлу Statistica)

Для роботи з даними недостатньо розмістити їх у файлі. Щоби зрозуміти дані та спланувати їх аналіз необхідно співставити їх зі специфікаціями змінних. Ми обговоримо їх на прикладі файлу даних, що зроблено у програмі Statistica. Загалом файл даних має виглядати приблизно так, як показано на рис. 2.3.1. Перш за все, слід звернути увагу на важливу відмінність файлів професійних статистичних програм від, припустимо, файлів Excel. В Excel ви можете розташувати свої дані на листі як завгодно. Рядки та стовпчики в Excel або Calc потрібні, перш за все, для зручної адресації кожної комірки. Під текстовим значенням може бути розташоване числове або, припустимо, логічне. В професійних програмах це неприйнятне. Коли програма буде проводити аналіз даних, вона має «розуміти», де які дані та як з ними поводитись. У типовому випадку кожний стовпчик даних має свій тип. Наприклад, в нашому файлі стовпчик Place містить текстові дані, а East — числові (географічні координати, причому, як ви можете побачити, з десятковими частками градусу).

Зверніть увагу: у типовому файлі даних Statistica рядки (Cases) відповідають різним об'єктам, що можуть бути охарактеризовані за різними ознаками, а стовпці (Variables) — окремим ознакам. Це — найпоширеніший тип побудови файлів з даними, і не лише у програмі Statistica.

Рис. 2.3.1. Так має виглядати файл PelophylaxExamples у форматі Statistica. Ми використаємо саме цей формат тому, що на його прикладі зручно показати кодування текстових даних. У даному випадку десятковим розділювачем є точка (це залежить від налаштувань Windows на комп'ютері, на якому працює Statistica)

Для того, щоб працювати з такою таблицею, як на рис. 2.3.1, треба її правильно організувати. Перш за все, слід задати змістовні заголовки стовпчиків. Як це робити, детальніше пояснено дещо далі, у пункті 2.5. За допомогою редактора заголовків стовпчиків (рис. 2.3.2) можна додати детальні пояснення, що за дані наведені у таблиці.

Рис. 2.3.2. Пояснення назв стовпчиків у файлі PelophylaxExamples     

Перший стовпець в цьому файлі містить позначення місця збору, другий і третій — географічні координати цієї точки, четвертий — позначення річки, до водозбірного басейну якої відноситься місце збору. У п'ятому стовпці наведено стать жаб, в шостому — маса ДНК, що припадає на кожну клітину (в пг), в сьомому — встановлений за масою ДНК генотип. Стовпці з восьмого по чотирнадцятий містять результати морфометрії (вказані з точністю до 0,1 мм).

Текстово-числові відповідності з допомогою редактора текстових міток (робота з яким також пояснюється далі у пункті 2.5; див. рис. 2.5.5 - 2.5.8) задані для стовпців 1, 4, 5 і 7; вони показані на рис. 2.3.3 - 2.3.6. Витрачати час на кодування місць збору, скоріше за все — зайве заняття, а ось перекодувати позначення водозбірних басейнів, статі та генотипу, усе ж таки, варто: це буде потрібним для подальшої роботи з файлом.

Рис. 2.3.3. Кодування місць збору в файлі PelophylaxExamples.sta

Оскільки розселення жаб відбувається в основному по водотоках, межа між басейнами Дніпра і Дона, що проходить по території дослідження, є досить істотною з точки зору поширення різних форм жаб (рис. 2.3.4).

Рис. 2.3.4. Коди змінної Basin в файлі PelophylaxExamples

Оскільки в даному файлі наведено дані виключно про статевозрілих жаб, для всіх них можна визначити стать (рис. 2.3.5). У деяких випадках доводиться виділяти ювенільних особин (молодь, стать яких не може бути визначеною) і субадультусов (напівдорослих особин).

Рис. 2.3.5. Коди змінної Sex в файлі PelophylaxExamples

Змінна «генотип» (рис. 2.3.6) розподіляє жаб на 5 досліджуваних форм, кожна з яких представлена самицями і самцями. Форми LL і RR є «хорошими» видами, а форми LLR, LR і LRR є міжвидовими гібридами, які, як ми казали, мають ім'я, подібне до видового. Щоб не вдаватися в складні термінологічні міркування про статус порівнюваних груп жаб, простіше назвати їх «формами», трактуючи це поняття як позначення будь-якої групи особин без прив'язки до їх таксономічного статусу.

Рис. 2.3.6. Коди змінної Genotip в файле PelophylaxExamples

 

2.4. Statistica: корисні посилання, початок роботи та організація файлу даних  

Отже, програма Statistica, який випускає фірма StatSoft, надає чудові можливості для вивчення біологічної статистики. Для знайомства з її можливостями можна рекомендувати електронний підручник, що створено виробником цієї програми. Серед ресурсів в Мережі, що допоможуть у роботі з цією програмою, особливо можна рекомендувати чудовий портал Статосфера.

Допомогу у засвоєнні можуть також надати наступні джерела:

Халафян А.А. Statistica 6. Статистический анализ данных. — М.: ООО «Бином-Пресс», 2007. — 512 с.

Statistica. Том I. Основные соглашения и статистики I. — © StatSoft, 1995. — 883 с. 

Statistica. Том II. Графика. — StatSoft, 1995. — 929 с.

Statistica Том III Статистики II. — StatSoft, 1995. — 783 с.

В даний час доступний ряд версій програми Statistica (на момент написання даного тексту останньою версією є 13-а). Ця програма поширюється комерційно і є достатньо дорогою; в даний час доступні піратські, «зламані» версії. Їх використання є порушенням букви закону, і рішення про використання такої версії є справою совісті людини, який його приймає. Останнім часом з'явилися версії Statictica з ліцензіями на використання в навчальних цілях. Їх існування виправдовує докладний опис використання програми Statictica, що міститься в даному посібнику. Важливо нагадати, що наш посібник можна розглядати як рекламу даної програми.

Зараз поширені як оригінальні, англомовні версії програми Statistica, так і її різні локалізації (переклади на російську мову). Слід запевнити, що непрофесійно переведеним російськомовними варіантами програми користуватися складніше, ніж оригінальним, навіть для людини, яка не знає англійської мови. В даний час існує 10-я версія програми Statistica, перекладена на російську мову російським представництвом виробника, фірми StatSoft. Втім, в цьому посібнику ми будемо орієнтуватися на використання англомовної версії Statistica.

При переході до 10-ї та наступних версій програми Statistica змінився їх інтерфейс: від меню, що розкривається, автори програми перейшли до «стрічок». Більша частина ілюстрацій у нашому посібнику стосується варіантів програми з класичним інтерфейсом. У більш нових версіях до нього легко перейти.

Коментарі по інсталяції (установки) програми тут наведені не будуть: будь-який інсталяційний пакет програми містить вказівки про те, як це слід робити. Слід звернути увагу на важливу обставину, що стосується зручності використання встановленої програми. Statistica може використовуватися не тільки для дослідження, але і в рішенні серйозних виробничих завдань (наприклад, для формалізованої обробки даних про клієнтів в банках). Для таких завдань корисною може бути здатність програми зібрати в єдиний комплекс результати різних способів аналізу якогось об'єкта. Тому Statistica здатна формувати «робочі зошити», Workbooks, що збирають в єдине ціле всі результати дій користувача.

При дослідженні біологічного матеріалу часто генеруються графіки і таблиці, що не зберігати не потрібно, адже робота біолога часто носить пошуковий характер. У такій ситуації простіше виводити результати роботи у вигляді окремих вікон (рис. 2.4.1).

Рис. 2.4.1. Щоб перемикнути програму Statistica на режим виведення результатів в окремих вікнах, слід пройти шляхом Tools / Options / Output Manager (Сервіс / Параметри / Диспетчер виведення) і поставити «галочку» у відповідній комірці

Відразу після інсталяції програма запропонує працювати з інструментом для пошуку даних (DataMiner) або налаштувати режим запуску. Найпростіше — закрити стартове вікно і вікно DataMiner і перейти до роботи з таблицями даних (рис. 2.4.2).

Рис. 2.4.2. Початок роботи з програмою Statistica. Для нашої роботи потрібно вікно з таблицею даних, інші вікна можна закрити

Як ми вже казали, таблиці даних в програмі Statistica організовані досить жорстким чином: вони складаються з рядків, яки мають назву спостереження (Cases) і стовпців, які названі змінними (Variables). Рядки і стовпці можна додавати (Add ...), переміщати (Move ...), копіювати (Copy ...) і видаляти (Delete ...), як це можна побачити на рис. 2.4.3.

Рис. 2.4.3. Для роботи зі змінними і спостереженнями служать відповідні пункти меню (в даному випадку виділено меню для управління наборами змінних Variables, "Vars")

Над заголовками стовпців знаходиться поле, в яке можна записати назву таблиці — заголовок таблиці (рис. 2.4.4).

Рис. 2.4.4. Вставити в заголовок таблиці якісь пояснення того, що вона з себе представляє, буває досить корисно

При редагуванні даних вони вводяться в комірки таблиці. Одноразове клацання мишею на комірці виділить її, подвійне (або натискання клавіші F2 при виділеній комірці) переведе в режим її редагування. Рамочка навколо виділеної комірки стане тонше, і всередині неї з'явиться курсор (рис. 2.4.5). Тепер в клітинку можна вводити дані.

Рис. 2.4.5. Комірка на малюнку зліва виділена (виділити можна одну або декілька комірок). Комірка справа знаходиться в режимі редагування, можна змінити її зміст (наприклад, додати в неї дані)

Натиснувши на ліву кнопку миші і провівши курсором над таблицею даних можна виділити блок — прямокутну область з комірок.

Дані в виділених комірках можна переміщати, а задані в сусідніх комірках арифметичній прогресії — продовжувати. При виконанні цих операцій слід звертати увагу на зміну форми курсору (рис. 2.4.6 - 2.4.9).

Рис. 2.4.6. Група комірок виділена; курсор знаходиться на інших комірках і має вигляд «пустотілого» плюса

Рис. 2.4.7. Курсор знаходиться на краю виділеного блоку; виконавши в цьому положенні подвійне клацання і «потягнувши» мишею, блок даних можна перемістити на потрібне місце

Рис. 2.4.8. Курсор знаходиться в правому нижньому кутку виділеного блоку; виконавши в цьому положенні подвійне клацання і «потягнувши» мишею, можна продовжити арифметичну прогресію, задану в блоці, на сусідні комірки

Якщо при «розтягуванні» арифметичній прогресії область, яка повинна бути заповнена створюваним рядом, вийде за межі таблиці, програма запитає, розширити таблицю до необхідного обсягу або обмежити прогресію наявними комірками.

Рис. 2.4.9. «Розтягування» арифметичній прогресії на кілька комірок

Нарешті, слід зазначити, що при утриманні клавішу Ctrl можна виділити кілька груп комірок, що не обов'язково формують прямокутний блок (рис. 2.4.10).

Рис. 2.4.10. Щоб виділити групу комірок таким чином, необхідно утримувати клавішу Ctrl

З виділеним блоком можна робити різноманітні дії, зокрема, видаляти комірки чи виробляти в них контекстну заміну (рис. 2.4.11).

Рис. 2.4.11. Щоб здійснити контекстну заміну, необхідно пройти шляхом Edit / Replace, натиснути Ctrl + H або натиснути на відповідну кнопку на панелі (на малюнку ця кнопка «натиснута», вона розташована недалеко від правого верхнього куту рисунку)

Контекстна заміна є ефективним методом для роботи з великими файлами даних, дозволяючи уникнути багаторазового повторення рутинних дій.

 

2.5. Робота з рядками та стовпцями в Statictica

Найперший (поза рахунком) стовпець таблиці містить імена спостережень. Подвійне клацання по певному імені включає режим його редагування (рис. 2.5.1).

Рис. 2.5.1. Редагування імен спостережень

Не менш важливий спосіб управління іменами полягає у використанні диспетчера імен спостережень (рис. 2.5.2). Забігаючи вперед, можна сказати, що в графічних результатах багатьох статистичних аналізів доцільно підписувати імена спостережень, що відповідають окремим об'єктам. Тому треба постаратися зробити так, щоб ці імена були досить короткими і досить виразними.

Рис. 2.5.2. Щоб викликати диспетчер імен спостережень, необхідно натиснути правою кнопкою миші на якомусь імені спостереження і пройти по шляху Case Name Management / Case Names Manager. За допомогою цього диспетчера можна перемістити в імена вміст якоїсь змінної, або навпаки, створити змінну, яка буде містити імена спостережень. Для того, щоб викликати список змінних, потрібно двічі клацнути мишею в віконці Variable

Крім іншого, за допомогою диспетчера імен спостережень можна змінювати ширину вікна, в якому розміщуються заголовки. Для зручності роботи з таблицею даних бажано налаштувати ширину стовпців так, щоб в них повністю містилися заголовки стовпців і введені в комірки значення, але при цьому вони не були занадто широкими. Це можна зробити вручну, переміщаючи кордон між стовпцями (між їх заголовками), а можна і виконати автоматично (рис. 2.5.3).

Рис. 2.5.3. Подвійне клацання мишею на межі заголовків стовпців призводить до автоматичної настройки їх ширини. У першому випадку змінитися ширина тільки одного стовпчика (по правому краю якого клацнули), а в другому – всіх виділених стовпців, тобто всієї таблиці

Основні інструменти для роботи з рядками і стовпцями таблиці даних знаходяться в пунктах меню, передбачених за замовчуванням, «Vars» і «Cases». Ті ж функції, які знаходяться в цих меню, доступні через опцію «Data» в основному меню програми.

У міру заповнення таблиці в програмі Statistica даними часто виникає необхідність в додаванні стовпців і рядків.

Рис. 2.5.4. При додаванні змінних програма Statistica за замовчуванням пропонує вставити їх перед тим стовпцем, в якому знаходиться виділена комірка

При додаванні стовпців можна вказати їх кількість, місце (після якого стовпця вони додаються, шаблон назви (за замовчуванням — NewVar) і деякі інші параметри, докладніше розглянуті пізніше. При переміщенні стовпців також можна вказати з якого стовпця починається переміщувана група, яким закінчується і в яке місце ця група стовпців повинна бути переміщена. Крім іншого, додати стовпці можна, клацнувши мишею на сірому тлі, що знаходиться праворуч від останнього стовпця з даними (спробуйте це зробити!).

Аналогічно відбувається додавання рядків.

У ряді випадків буває необхідно перебудувати таблицю даних, зробивши її рядки стовпцями, а стовпці — рядками (ця операція називається транспонуванням). Це робиться за допомогою команди Data / Transpose. У цієї команди є два варіанти — транспонувати виділений блок (він обов'язково повинен мати однакову кількість рядків і стовпців) та транспонувати весь файл (кількість стовпців і рядків в ньому може відрізнятися).

У таблиці даних програми Statistica над кожним стовпчиком знаходиться його заголовок. Заголовки пронумеровані порядковими номерами і за замовчуванням називаються Var 1, Var 2 тощо. Щоб змінити властивості стовпця, потрібно двічі клацнути на його заголовку (рис. 2.5.5).

Рис. 2.5.5. Двічі клацнувши на заголовку стовпця можна перейти в режим специфікації — редагування властивостей змінної. Тут можна задати її назву, тип даних, шрифт, кількість десяткових знаків, що будуть показані (для числового режиму), формулу для її перерахунку а також деякі інші властивості

Від однієї специфікації легко переходити до сусідніх, використовуючи кнопки зі стрілками, розташовані у верхній правій частині діалогового вікна (під кнопкою «Cancel»). Щоб побачити весь список змінних і редагувати будь-яку з них, слід вибрати режим Vars / All Specs... З вікна специфікацій однієї змінної до редактора можна перейти за допомогою кнопки All Specs...

В даному посібнику ми не будемо детально розглядати типи змінних, допустимі в програмі Statistica. За замовчуванням використовується подвійний тип змінних (Double), що дозволяє записувати в них як текстові, так і числові дані (про це буде докладніше розказано пізніше). Крім того, програма надає можливість для вибору формату даних. При вказівці числового формату стає активним вікно, в якому можна вказати, до якої кількості десяткових даних слід округляти дані, які будуть показані на екрані. Не потрібно боятися округляти дані: програма Statistica все одно зберігає і використовує в обчисленнях їх в їх повному обсязі, з високою точністю, але для зорового сприйняття даних простіше надавати їх в округленому вигляді.

Дані, введені в комірки таблиці даних, можуть мати як числовий, так і текстовий вигляд. У режимі, при якому десятковим роздільником є ​​кома, вираз «1,1» буде інтерпретовано як число (одна ціла і одна десята), а «1.1» — як текст.

Дані в програмі Statistica можуть мати різний тип. У подвійному типі даних (що дані мають за замовчуванням), усім текстовим значенням, що вводяться в певний стовпець, надається у відповідність певне число. Перейти з режиму відображення текстових даних в режим відображення числових можна, якщо поставити або зняти «галочку» напроти пункту Display Text Lables в меню View.

Рис. 2.5.6. У програмі Statistica можна переходити від текстового відображення даних до числового і навпаки: View / Display Text Lables. Роздивиться: нажата або отжата виділена кнопка! Ті ж режими можна перемикати за допомогою кнопки на панелі, яку показано червоним

Відповідність між текстовими та числовими значеннями задається в редакторі текстових міток (Text Lables ...), який для кожного конкретного стовпця можна викликати, пройшовши по шляху Vars / Text Lables ... або викликати з вікна специфікацій змінної, як це показано на малюнку.

Рис. 2.5.7. Подвійне клацання на заголовку першої змінної викликало вікно специфікацій змінної. У цьому вікні є кнопка для входу в редактор текстових міток для цієї змінної – Text Lables...

За замовчуванням нове значення, введене в певний стовпець, отримує числове значення 101, наступне — 102 і так далі. Ці відповідності можуть бути змінені; при цьому Statistica «перепитає», чи слід перекодувати наявні дані в нові кодування. 

Рис. 2.5.8. Редактор текстових міток дозволяє задати відповідності між текстовими та числовими даними для змінних типу Double. Зверніть увагу на кнопки зі стрілочками: з їх допомогою можна переходити в режим редагування текстових міток сусідніх змінних

Іноді в процесі набору даних у комірку потрапляють якісь невірні текстові фрагменти. Навіть якщо вони виявляються видалені з файлу даних, вони разом зі своїми чисельними відповідниками залишаються в редакторі текстових міток, накопичуючись там як небажане «сміття». Такі невикористовувані дані слід видаляти (виділити і натиснути кнопку «Delete Row»).

У процесі використання програми можна зіткнутися з проблемами неадекватного відображення кириличних шрифтів. Одним з універсальних порад є рекомендація використовувати латиницю (наприклад, всі назви і позначення писати англійською мовою). Якщо все-таки використовувати російську мову, можуть виникати проблеми (так звані кракозябри або козявушки) з її відображенням. Такі проблеми можна виправити, якщо підібрати шрифт, що правильно відображається.