«Статистичний оракул»: аналіз даних в зоології та екології
Основа природничих наук, і біології у тому числі, — емпіричні (від давньогрецьк. ἐμπειρία — досвід) первинні дані, отримані у спостереженнях та експериментах. Емпіричне дослідження — це спосіб задавати природі питання, отримувати відповіді, а потім робити їх зрозумілими. Отримання даних слід спланувати, а потім представити їх у зручній у для аналізу та інтерпретації формі. На підставі аналізу емпіричних даних роблять обґрунтовані висновки, і на їх підставі перед дослідником відкриваються можливості теоретичних (від грецьк. θεωρία — розгляд) досліджень, вдосконалення наявних моделей дійсності.
Порівняймо сучасне емпіричне дослідження з одним з найдавніших способів отримання відповідей на складні питання. На старій гравюрі угорі — дельфійський оракул. Піфія (жриця) входила в екстатичний стан (можливо, з використанням токсичних газів). У зміненому стані свідомості вона щось бурмотіла чи вигукувала: генерувала «первинні дані». Ці дані записували у щось на кшталт лабораторного журналу, а далі ці записи інтерпретували (перш за все, з натхнення) профети, жерці. Це відбувалося в храмі, який Аполлон заснував там, де вбив Піфона — хтонічного змія, що був втіленням животворних та водночас жахливих сил Землі й природи в цілому.
Ніби-то, зараз все не так! Ми використовуємо процедури, що захищають нас від впливу нашої упередженості, обґрунтовуємо вибір наших методів. Ми оцінюємо статистичну значущість отриманих нами результатів дослідження — ймовірність того, що вони випадково виникли при формуванні вивченої вибірки, а не відбивають причинно-наслідкові зв'язки у природі. Але... І в давнину, і зараз наш аналіз не дозволяє вичерпно встановити всі причини того, що ми спостерігаємо. І тоді, і зараз первинні дані вимагають дбайливого, трепетного ставлення того, хто шукає відповіді на свої питання. Ті, хто з пієтетом зберігає первинні дані, з часом може зрозуміти за їх допомогою щось нове, адже такі дані — загадки, смисл яких відкривається для нас лише частково. Звичайно, статистичний оракул дозволяє отримувати набагато переконливіші відповіді, ніж дельфійський, але, як і раніше, повне розуміння загадкової природи лишається для нас недосяжним...
Цей підручник призначено для студентів IV курсу кафедри зоології та екології тварин Харківського національного університету імені В. Н. Каразіна. Втім, він може бути корисним і для виконання навчально-дослідних робіт студентів II курсу на польовій практиці, при підготовці курсових і дипломних робіт, а також в інших ситуаціях. Поки що цей підручник є неповним і перебуває у стані розробки; його обсяг поступово збільшується, а корисність, як хочеться сподіватися, зростає. З 2020 року автори зупиняють розробку російськомовної версії та починають розвивати українську, де акцент зроблено на мові R. Автори (shabanov(at)karazin.ua, marinakravchenko2106(at)gmail.com) будуть вдячні за конструктивну критику даного тексту або виправлення помилок в ньому.
Д. Шабанов, М. Кравченко; кафедра зоології та екології тварин Харківського національного університету імені В. Н. Каразіна
1 Головні поняття біостатистики
1.1 Що таке біостатистика, і навіщо вона потрібна
1.2 Імовірність
1.3 Генеральна сукупність і вибірка
1.4 Що таке значущість? Приклад-жарт
1.5 Статистична значущість; нульова і альтернативна гіпотези
1.6 Ознаки
1.7 Розподіли, статистики та параметри
1.8 Параметричні й непараметричні статистичні методи та критерії
2 Фундамент: канон збору первинних даних та приклад PelophylaxExamples
2.1 Як має бути організована таблиця з первинними даними дослідження?
Канон побудови таблиці для збору первинних даних
2.2 Файл-приклад PelophylaxExamples
3 Інструмент: мова (середовище) R
3.1 Різноманіття програм для статистичного аналізу
3.2 Мова (середовище) R
3.3. Короткий огляд команд R: Допомога; Оточення; Огляд об'єктів; Ввід та вивід; Створення об'єктів; Індексування; Робота зі змінними; Керування даними; Математика; Матриці; Перебудова даних; Рядки; Графіки; Окремі елементи графіків; Гратчасті графіки (Lattice-графіки); Оптимізація та підгонка параметрів; Статистика; Розподіли; Програмування
3.4 R: корисні посилання
4 Перше знайомство з використанням R
4.1 Як почати роботу з R?
4.2 Перші кроки: вікна в RStudio та прості приклади команд в R
4.3 Нашвидкоруч: приклад простих розрахунків з уведеними просто в R даними
4.4 До початку дослідження: визначення робочої директорії
4.5 До початку дослідження: читання файлів .csv (і використання «ґраток»)
4.6 Ще до початку: датафрейми, фактори, attach(), файли .RData
4.7 І ще до початку: проблеми з десятковими роздільниками та кодуванням в .csv-файлах
4.8 Перед самим початком: завантаження та ввімкнення необхідних пакунків та бібліотек
4.9 Типова логіка і нескладний приклад використання R у біостатистичному дослідженні
5. Робота з даними в R
5.1. Логічні та арифметичні операції в R
5.2. Пропущені значення
5.3. Вектори, їх створення та вибір певних елементів
5.4. Імена рядків та стовпців у матрицях та фреймах
5.5. Індексація даних на прикладі фрейму PelophylaxExample
5.6. Робота зі стовпцями фрейму PelophylaxExample
6 Візуалізація даних штатними засобами R
6.1 Найпоширеніші типи діаграм
6.2 Кольори в R
6.3 Діаграми розсіювання
6.4 Матричні діаграми розсіювання
6.5 Власне графіки (лінійні графіки)
6.6 Стовпчасті діаграми
6.7 Кругові діаграми («пігулки»)
6.8 Гістограми
6.9 Даіграми густини ймовірності та їх поєднання з іншими діаграмами
6.10 Діаграми розмаху
7. Візуалізація даних з пакетом ggplot2
7.1. Граматика графіки ggplot2
8. Описові статистики та розподіли (сторінка створюється)
9. Порівняння вибірок в R
9.1. У яких ситуаціях виникає необхідність у порівнянні вибірок?
9.2. Порівняння вибірок за Стьюдентом
9.3. Тест Стьюдента: порівняння двох вибірок
9.4. Спрямовані й неспрямовані гіпотези та двобічні й однобічні критерії (на прикладі тесту Стьюдента)
9.5. Тест Стьюдента: порівняння двох вибірок, що є частинами одного вектора
9.6. Тест Стьюдента: порівняння середнього з певним значенням
9.7. Тест Стьюдента: парні порівняння (порівняння залежних вибірок)
9.8. Непараметричні аналоги параметричних методів
9.9. Тест Вілкоксона (включно з тестом Манна-Вітні)
9.10. Тест Краскела-Волліса
9.11. Проблема множинних порівнянь
9.12. Поправки на множинні порівняння
10. Зв'язок між ознаками: кореляція, регресія, таблиці спряженості (сторінка створюється)
11. Дісперсійний аналіз (сторінка створюється)
13. Кластерний аналіз (сторінка створюється)
13. Головні компоненти (сторінка створюється)
14. Дискримінантний аналіз (сторінка створюється)
Інтернет-сторінки: перероблені (українські) та старі, що вже не виправляються (російські):