Природничі науки базуються на емпіричному (від грецьк. ἐμπειρία — досвід) дослідженні природи, тобто такому дослідженні, що базується на спостереженні та експерименті. Є в природничих науках і чисто теоретичні (від грецьк. θεωρία — розгляд, дослідження) роботи, пов'язані з внутрішнім розвитком певної моделі, але такі роботи є вторинними, вони — наслідки аналізу емпіричних, первинних даних. Відкіля беруться ці дані? Їх збирають у ході досліджень. Таким чином, збір емпіричних даних є основою усіх природничих наук, у тому числі — біології. Дуже важливо навчитися збирати ці дані таким чином, щоб не обмежити можливості роботи з ними надалі.
Найчастіше за все емпіричні дані збираються або у числовій формі, або у формі, що з часом може бути переведена у числову. Існує точка зору, що там, де нема математики, нема й природничої науки. Скоріше за все, можна уявити собі роботу, в основі якої нема математики, але це, звісно, має бути рідкісний випадок. Головна проблема полягає в тому, що дослідник має впевнитися, що його досвід відбиває загальні закономірності. Ви перегорнули листок і побачили на його нижньому боці гусеницю. Це універсальний досвід чи ні? Перегорнули наступний листок, а під ним — жаба. Скоріше за все, щоб встановити, що ховається під такими листками, слід перегорнути певну їх кількість та зареєструвати, чи було під ними щось, а якщо було — що саме.
Важливіша проблема емпіричного дослідження — наскільки отриманий у ньому досвід є універсальним, наскільки на нього можна спиратися в інших випадках. Інакше кажучи — наскільки достовірним (таким, що заслуговує на довіру, є достойним віри) є отриманий в цьому досвіді результат.
Ви отримали певні емпіричні дані. Що з ними робити? Запам'ятати? Це рішення не є надійним. Наша пам'ять є вибірковою, на наші спогади впливає наше ставлення до того, що ми намагалися запам'ятати. Пам'ять втрачає одне та підмінює інше... Записати на папері? Це вже непогане рішення. Але воно має відповідати певним вимогам. Записувати кожен наступний результат слід відразу, як тільки він отриманий. Записи мають робитися однаково, незалежно від того, якими вони є (наприклад, подобається результат досліднику або ні). Папір (чи інший носій), на якому збережено результати емпіричного дослідження, перетворюється на важливий документ. Він має бути збереженим, і він не має редагуватися з часом! Тому зазвичай первинні записи роблять у лабораторному журналі, де побудована певна таблиця для збереження даних.
Дуже корисно зберігати первинні дані й в інших формах. Це можуть бути фотографії, аудіозаписи, роздруки показників приладів тощо. Це має стати не заміною записів у лабораторному журналі, а їх доповненням! До речі, дуже корисним буває після заповнення сторінки лабораторного журналу сфотографувати її та розмістити таку цифрову фотографію, припустимо, десь у хмарному середовищі...
У сучасному світі досить часто первинні записи роблять не у паперовому журналі, а відразу у цифровому вигляді — у файлі (найчастіше — електронних таблиць, таких як Excel, Calc, Google Sheets). У такому разі з таким файлом слід поводитися як з паперовим лабораторним журналом — зберігати необмежений час, не редагувати наявні записи. Це — носій первинних даних, що зберігає слід важливішого етапу дослідження: дослідник поставив певне питання природі, отримав відповідь та зберіг її! Цей файл і є таблицею для збору емпіричних даних, базою даних, що створюється під час дослідження.
Інший варіант організації роботи — коли первинні дані збираються в лабораторний журнал (або ж на паперові бланки, з якими дослідник працює у польових умовах), а далі переносяться до файлу-таблиці. У такому разі слід зберігати і паперові первинні документи, і первинний файл. Вони мають бути організовані однаково, щоб зменшити ймовірність помилок під час перенесення (і зберігати їх треба для того, щоб такі помилки можна було знайти).
Досвід роботи зі студентами та дослідниками свідчить, що дуже часто великі проблеми у роботі пов'язані з тим, що таблиця для збору первинних даних емпіричного дослідження побудована неправильно. Якщо студенти-першокурсники засвоять певні правила, це позбавить їх від проблем у майбутньому. Детально пояснювати логіку, що зумовлює усі вимоги, тут буде недоречно. Тому ці вимоги можна сприймати як певний канон, зразок. Коли це потрібно внаслідок вагомих причин, від канону можна відступати; у більшості випадків слід просто слідувати канону.
Наведемо один приклад. Канон вимагає, щоб у таблиці з первинними даними рядки відповідали окремим об'єктам, спостереженням, вимірам тощо, а стовпці — ознакам. Можна було зробити навпаки? Можна! У деяких видах аналізу навіть доводиться транспонувати (обмінювати місцями рядки та стовпці) таку таблицю. Але збирають дані саме так. Крім іншого — тому, що усі (хто розуміє) роблять саме так. А роблять вони так тому, що це відповідає логіці роботи з лабораторним журналом. У європейській культурі записи роблять по рядках, а не по стовпцях. Окреме спостереження — окремий рядок, а стовпці задають те, що слід занотувати, щоб далі працювати з цим спостереженням. Файл даних має бути організованим так само, як сторінка лабораторного журналу, щоб зменшити ймовірність помилок під час перенесення даних.
«Заповіді» організації таблиці для збору та збереження первинних даних для біологів та не лише для них:
1. Первинні, емпіричні дані («відповіді природи» досліднику) — база роботи, вони потребують особливої поваги!
2. В емпіричних даних є відповіді на ще не поставлені питання, їх слід зберігати без терміну давності!
3. Структура таблиці для первинних даних має відповідати меті дослідження, організовувати дані для аналізу
4. Первинні дані слід дублювати у різних формах (паперовий лабораторний журнал, бланки, файли, фото записів...)!
5. Типово: на папері та в електронних таблицях — збір даних, створення таблиці; аналіз — у спеціальних програмах!
6. Перенесення, перекодування, реорганізація даних — нові помилки; слід зберігати початковий та кінцевий варіанти!
7. Описуються не усі можливі об'єкти? Продумати, обрати, описати та здійснити рандомізацію (випадковий вибір)!
8. Типово: рядки таблиці — окремі об'єкти чи незалежні спостереження, стовпці — ознаки; у комірці — стан ознаки в об'єкта!
9. Весь масив даних дослідження — в одній таблиці! Не використовувані в аналізі рядки можна позначити в певному стовпці!
10. У кожному стовпці — однотипні дані, в однакових одиницях, одного формату, однаково виміряні!
11. Усі однотипні дані, в однакових одиницях, одного формату, однаково виміряні — в одному стовпці!
12. Група, до якої належить об'єкт чи спостереження, задається як окрема ознака (не положенням запису на листі чи в таблиці)!
13. У кожному рядку — усі ознаки (у певних стовпцях), що задають унікальність спостереження (щоб можна було сортувати)!
14. Для кожної ознаки обрати її тип, спосіб визначення або вимірювання, кодування, формат, точність запису тощо!
15. Кількісні ознаки: або мірні (=безперервні, метричні), або рахункові (=дискретні), або порядкові (=ранги)!
16. Якісні ознаки: або альтернативні («є — нема»), або множинні («так, або сяк, або едак»)!
17. Якщо первинні дані не символьні (фотографії тощо), окремий стовпчик — посилання на них у "хмарному" сховищі!
18. У кожній комірці — одна певна ознака (а не, припустимо, дві різні, як-от місяць та рік для природних спостережень)!
19. «0» — це певне число; відсутність даних — пуста комірка (у програмах може позначатися як NA, «not applicable»)!
20. Порядок стовпців має відбивати порядок їх визначення; після емпіричних даних можна розмістити розрахункові!
21. В електронних таблицях і статистичних програмах розрахунки — формулами (можна повторити або виправити)!
22. Назви ознак та їхні стани — бажано латиницею (менше проблем) + якнайдетальніші пояснення для себе та інших!
23. Назви файлів з первинними даними — наочні, відразу зрозумілі; місця їх збереження — передбачувані, зрозуміло підписані!
24. Життя дослідника спростить журнал або файл, де буде розписана методика, усі етапи роботи та усе незвичне у її ході!
25. Перевірка якості даних — візуалізація їх розподілу; діаграма розсіювання покаже викиди та помилки при наборі!
26. Після отримання першого фрагменту бази даних — провести пробний аналіз і виправити недоліки організації роботи!
Після первинного формулювання цих "заповідей" автор запросив допомоги від колективного розуму. Завдяки порадам від кваліфікованих Facebook-друзів ці тези вдалося покращити. Особливу вдячність автор висловлює професору Олександру Жукову.
Таблиця, що відповідає переліченим вимогам, може виглядати, наприклад, так, як показано нижче. Рядки — окремі спостереження, стовпці — ознаки. У кожній комірці — стан ознаки, що відповідає стовпцю, для певного спостереження.
Одна зі складнощей — що є об'єктом, окремим спостереженням ("заповідь" № 8). Припустимо, ми порівнюємо довжину певної кількості листків з одного дерева... Що є спостереженням: окреме дерево чи довжина окремого листка? Звісно, довжина листка ("заповідь" № 16). А те, з якого дерева цей листок — це вже групова ознака ("заповідь" № 11). А вид дерева, його висота чи його розташування — ще ознаки. Для усіх лістків з одного дерева стан цих ознак буде однаковим (в електронних таблицях такі комірки заповнити неважко, хоча слід уважно спостерігати за тим, щоб не помилитися під час їх заповнення). А, припустимо, висота, на якій був розташований листок — ознака, стан якої може відрізнятися для різних листків з одного дерева. А якщо ми для аналізу використаємо не усі дерева, а лише деякі, ми створимо ще один стопбчик, де укажемо, використовується це дерево у даному аналізі, або ж ні ("заповідь" № 10).
Щоб зрозуміти, як будувати такі таблиці, корисно виконати певні завдання, де розробити форми для збору первинних результатів емпіричного дослідження.
Простий приклад: черепашки живорідок
Ми припустили (можливо, нам просто це здається, а можливо, тут відбивається певна закономірність), що нижче місця впадіння струмка, що тече з поля, у річку, черепашки Viviparus viviparus, звичайної живорідки (поширеного прісноводного черевоногого молюска) стають більш витягненими. Можливо, це вплив добрив або пестицидів, що приносить струмок у річку? У якості першого кроку перевіримо, чи змінюється форма черепашки. Втім, здається, що молюски, які сидять на водній рослинності, відрізняються за формою черепашки від тих, що повзають по дну... Врахуємо і цю обставину.
Виміри черепашки живорідки роблять штангенциркулем таким чином (джерело):
Для кожної черепашки нам треба виміряти та записати ширину раковини (Shell Width) та її висоту (Shell Height). Будемо використовувати латиницю, та оберемо позначення SW та SH. Чи можуть черепашки, що зібрані на дні (у бентосі, B) відрізнятися від тих, що повзають по водній рослинності (зібраних у періфітоні, PF)? Таке можливо; у будь-якому разі, це слід зареєструвати також.
Нас цікавлять пропорції черепашки, але у якості первинних даних ми будемо збирати саме ширину та висоту: вирахувати за цими даними пропорції можна за допомогою одного руху (розтягування формули по стовпчику в електронних таблицях або простої команди в тій чи іншій статистичній програмі), але якщо ми отримаємо ширину і висоту, ці дані слід зберегти. Наприклад, ширина черепашки може змінюватися інакше, ніж висота, чи мати інший розподіл. Після першого етапу нашого дослідження ми можемо перейти до якогось іншого. Може навіть виявитися таке, що, припустимо, співвідношення молюсків у бентосі та періфітоні залежить від того, як розташоване місце збору від впадіння струмку...
Як зробити так, щоб не вибирати "найхарактерніші" черепашки, а отримати їх розмірну характеристику, якій можна довіряти? Наприклад, можна узяти коло з міцного дроту, опускати його на дно на відстані 1 м від урізу води і збирати усіх живорідок, що потрапили в це коло (реєструючи, чи на дні вони були, чи на рослинах). Тепер можна зробити таблицю...
№ |
Distance from the stream |
Benthos or Periphyton |
SW |
SH |
Description of the place |
Comments |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Відстань від струмка (Distance from the stream) будемо відзначати у метрах. Для місць збору вище за течією будемо вважати цю відстань від'ємною (значення "–10" — це на 10 метрів вище гирла струмка, а "20" — на 20 метрів нижче). Плануючи дослідження, можна розташувати ділянки, на яких буде проводитися збір, на рівних відстанях від гирла.
Benthos or Periphyton — альтернативна ознака, що прийматиме значення B або P. SW та SH — мірні ознаки, що вимірюються штангенциркулем з точністю, припустимо, 0,1 мм. У графі Description of the place для усіх черепашок, зібраних з певного місця, зазначимо характер місця, на якому виявилося розташованим дротяне коло. Усі особливості кожної черепашки, що звернуть на себе увагу, можна записувати у стовпчику Comments.
Зверніть увагу: стовпчики будуть заповнені по-різному. У стовпчику № буде просто порядкове число. Для групи черепашок, зібраних з одного місця, значення в стовпчиках Distance from the stream та Description of the place будуть однаковими. У паперовому журналі їх можна написати один раз, а потім показати, що вони стосуються й необхідної кількості наступних рядків; у електронній таблиці ці дані слід повторювати у кожному рядку (це неважко і можна зробити за допомогою нескладних операцій). Альтернативна ознака Benthos or Periphyton може повторюватися, але визначається окремо для кожної черепашки (чи, може, для певної підгрупи, якщо молюсків збирали спочатку з рослин, а потім — зі дна у окремі ємності). Перші 6 стовпчиків мають бути визначені для кожного спостереження (для кожної черепашки), а ось останній, Comments, слід заповнювати лише у тому разі, якщо черепашка має якісь характерні особливості. Поле Comments, скоріше за все, статистично оброблятися не буде, а ось поле Description of the place може якось враховуватися при аналізі. Починаючи роботу, ми ще не знаємо, як будуть відрізнятися ділянки дна; ймовірно, з часом можна буде додати ще один (або не один) стовпчик, де з'явиться якась рангова характеристика ділянки дна (наприклад відкрита — заросла ділянка; рівна — схил; мілина — заглиблення тощо).
Чи поставить описане дослідження крапку у питанні, з якого почалося? Скоріше за все — ні (крім випадку, коли стане ясно, що черепашки усюди однаково різноманітні). Чи однакова форма витків у цих черепашок? Чи однакова товщина стінки та вага? Чи однаковий узор, чи однаково ці черепашки поросли водоростями? До речі, чи однакові кришечки, якими вони закривають свою раковину? Чи однакова їх поведінка? Чи однакову кількість перетравленої їжі викинуть молюски, яких пересадили у чисту воду?...
Можливі помилки у виконанні такої роботи безконечні, але найпоширеніша (і така, яка, ймовірніше, найчастіше наносить шкоду) така. Ні, не можна записувати молюсків з кожного місця на окремому листі Excel, чи записувати ширину бентосних та періфітонних черепашок у різних стовпцях — аналіз усієї сукупності та порівняння її частин суттєво ускладняться (див. заповідь № 16)!
Завдання для самостійного виконання. Побудуйте таблицю для збору первинних даних
Приклад № 1: еритроцити жаб
У межах досліджень складу зелених жаб в околицях біостанції Харківського університету імені В.Н. Каразіна (детальніше — тут) використовують вимірювання розмірів їх еритроцитів.
Міжвидові гібриди, Pelophylax esculentus, тут можуть бути диплоїдними та триплоїдними. В еритроцитах триплоїдів більше ДНК, у них більше ядро і більше розмір клітини. Студенти під час досліджень таких гібридів роблять мазки крові, фотографують ці мазки, обирають 20-30 еритроцитів кожної жаби та вимірюють їх довжину на електронній фотографії за допомогою відповідних програм. Потім фотографують об’єкт-мікрометр, препарат з поділками, відстань між якими є відомою. Перераховують розміри еритроцитів з тих одиниць, які отримані з програми, у мікрометри.
Ті жаби, у яких середній розмір еритроцитів менший за 26-28 мкм, є диплоїдами, більше — триплоїдами. Для різних місцеперебувань розмірна межа між еритроцитами диплоїдів та триплоїдів може бути дещо різною, її уточнюють за результатами досліджень.
Побудуйте таблицю, в яку слід записувати дані вимірів.
Результатом роботи може бути файл, зроблений в електронних таблицях (Excel, Calc, Google Таблиці тощо) або навіть просто у текстовому редакторі. Зробіть систему заголовків, за необхідності додайте коментарі (крім іншого, коментар у більшості програм можна додати, кликнувши правою клавішею миші на комірці...).
Приклад № 2: флуктуюча асиметрія окунів
Для вивчення стійкості розвитку організмів використовують вимірювання флуктуючої асиметрії. На практиці студентів ІІ курсу на біостанції Харківського університету імені В.Н. Каразіна студенти вимірювали флуктуючу асиметрію річкових окунів (детальніше, у тому числі про явище флуктуючої асиметрії, — тут).
Знайдіть в процитованій статті список ознак, які в ній були використані. Побудуйте таблицю, в яку слід записувати дані вимірів.
Приклади № 3, № 4 та усі інші...
Не обмежуйтеся роботами, у яких брав участь автор курсу: біологія безмежна! Оберіть статтю, де є результати статистичного аналізу, дайте посилання на цю статтю (або додайте саму статтю окремим файлом), і зробіть можливу таблицю, в яку правильно було б збирати первинні дані.
Зверніть увагу: далеко не усі таблиці призначені для збору первинних даних. Припустимо, у підручнику чи у визначнику можна зустріти таблицю, де для певних таксонів (припустимо, родин) будуть вказані їх ареали (регіони поширення). Чи є таблиця, де вказуються ареали, таблицею для збору первинних даних? Звісно, ні (як і безліч інших таблиць). Це — таблиця для подання результатів аналізу первинних даних. Десь існують таблиці де для кожного окремого зразка вказано, де він зібраний. До первинних даних належить факт, що певний об'єкт (іноді — невизначений у момент збору) знайдено у певному місці. Комірка з ареалом містить результат аналізу таких даних. Не забувайте — основою науки є саме первинні дані!