BioStatistica — 01. Содержание курса. Тема 1. Основные понятия биометрии

 
 

Онлайн-конспект курса
"Статистическая обработка данных в зоологии и экологии"

Д.А. Шабанов

  Содержание.
Тема 1. Основные понятия биостатистики
Тема 2. Использование программы Statistica
  Биостатистика-01 Биостатистика-02

 

Статистическая обработка данных в зоологии и экологии 

Д.А. Шабанов

 

В этом учебном пособии собрано изложение некоторых вопросов, рассматриваемых в посвященном обработке данных разделе большого практикума для студентов IV курса кафедры зоологии и экологии животных Харьковского национального университета имени В. Н. Каразина. Пособие может быть полезно студентам и в других ситуациях, например, при выполнении учебно-исследовательских работ на полевой практике или при подготовке курсовых и дипломных работ. В настоящее время это пособие неполно и находится в процессе разработки. Автор надеется, что объем этого пособия со временем будет увеличиваться, а его качество и полезность — возрастать. Автор ( shabanov(at)karazin.ua ) будет благодарен за конструктивную критику данного текста или исправление содержащихся в нем ошибок.

Д. А. Шабанов, профессор кафедры зоологии и экологии животных
Харьковского национального университета имени В. Н. Каразина

Содержание

 

Тема 1. Основные понятия биостатистики

1.1. Что такое биостатистика и зачем она нужна
1.2. Вероятность
1.3. Генеральная совокупность и выборка
1.4. Статистическая значимость; нулевая и альтернативная гипотезы
1.6. Признаки
1.7. Распределения, статистики и параметры
1.8. Параметрические и непараметрические статистические методы и критерии

Тема 2. Использование программы Statistica

2.1. Почему именно Statistica?
2.2. Программа Statistica
2.3. Структура таблицы данных Statistica
2.4. Действия с выделенными ячейками
2.5. Работа со строками и столбцами
2.6. Спецификации переменных
2.7. Числовая и текстовая формы данных
2.8. Формулы для пересчета данных

Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)

3.1. Описание файла-примера Pelophylax_example.sta
3.2. Гистограммы: пример построения графиков
3.3. Редактирование графика
3.4. Диаграммы рассеяния и линии регрессии

Тема 4. Сравнение выборок

4.1. В каких ситуациях может понадобиться сравнивать выборки?
4.2. Сравнение выборок по Стьюденту
4.3. Использование критерия Фишера для сравнения выборок
4.4. Диаграммы размаха в модуле t-теста
4.5. Проблема множественных сравнений
4.6. Эксперимент с получением ложно "значимых" отличий при множественных сравнениях
4.7. Поправки на множественные сравнения
4.8. Непараметрические аналоги параметрических методов
4.9. U-критерий Манна-Уитни
4.10. Критерий знаков для парных сравнений
4.11. Ранговый дисперсионный анализ Краскела-Уоллиса

Тема 5. Краткое введение в дисперсионный анализ

5.1. Что такое дисперсионный анализ?
5.2. Тест на нормальность распределения
5.3. Однофакторный дисперсионный анализ: вычисления «вручную»
5.4. Однофакторный дисперсионный анализ (ANOVA) в пакете Statistica
5.5. ANOVA и критерии Стьюдента и Фишера: что лучше?
5.6. Два однофакторных дисперсионных анализа: вычисление «вручную»
5.7. Двухфакторный дисперсионный анализ: вычисление «вручную»
5.8. Двухфакторный анализ с помощью ANOVA в пакете Statistica

Тема 6. Сравнение распределений

6.1. Примеры проблем, требующих сравнения распределений
6.2. Определение связи качественных признаков с помощью кросстабуляции
6.3. Сравнение распределений с помощью модуля непараметрической статистики

Тема 7. Связь между признаками

 

Тема 8. Кластерный анализ

8.1. Сущность кластерного анализа
8.2. Пример выполнения кластерного анализа "на пальцах"
8.3. Принципиальные ограничения и недостатки кластерного анализа

Тема 9. Метод главных компонент

9.1. Сущность метода (на простейшем примере)
9.2. Переход к начальным данным с большим количеством измерений

 

Тема 10. Дискриминантный анализ

10.1. Предназначение и основная логика дискриминантного анализа
10.2. Пример выполнения дисперсионного анализа: морфометрические признаки лягушек
10.3. Поиск более эффективных способов разделения групп

Тема 11. Некоторые методы, характерные для зоологии и экологии

11.1. Анализ флуктуирующей асимметрии
11.2. Пример обработки данных о флуктуирующей асимметрии

 

Программа раздела большого практикума «Статистическая обработка данных в зоологии и экологии»

 

Дополнительные материалы:

Д. Шабанов (2006). Ложь, наглая ложь и… 

Д. Шабанов (2009). Кластеры, клады и химера объективности

К. П. Воробьев (2008). «Формат современной журнальной публикации по результатам клинического исследования. Часть 4. Биостатистика»

 

Перспективные темы для расширения курса:

Использование СУБД Microsoft Access для создания зоологиических баз данных.

 


 

 

Тема 1. Основные понятия биостатистики

1.1. Что такое биостатистика и зачем она нужна

Статистическая обработка результатов биологических исследований позволяет решать несколько типов задач:
1. наглядно представлять результаты описания разнообразия изучаемых объектов;
2. обоснованно (с определенной вероятностью ошибки) принимать или не принимать предположения о наличии закономерностей, отражающихся в варьировании изучаемой величины;
3. обнаруживать неявные закономерности, скрытые в варьировании изучаемых данных.

Не следует думать, что существует какая-то особая биологическая статистика, принципиально отличающаяся от математической статистики вообще. Однако изменчивость биологических объектов обладает определенными особенностями, отличающими их, к примеру, от изменчивости финансовых показателей или результатов технологических процессов на производстве. Это приводит к тому, что набор методов, используемых в биологии, отличается от такового в других областях применения статистики. Кроме того, следует помнить, что статистическое исследование в биологии не является самоцелью: оно подчинено задачам биологического исследования и не может быть полностью интерпретировано вне изучаемой биологической проблемы. Однако не только обработка данных должна быть подчинена логике биологического исследования; оно и само должно строится с учетом будущей обработки. Сбор эмпирических данных и постановка экспериментов должны заранее учитывать, как именно будут обрабатываться эти данные. Итак, хотя применение статистики в биологии невозможно полностью отграничить от математической статистики как таковой или изучаемых с помощью тех или иных методов разделов биологии, оно все равно составляет особую отрасль науки, особый комплекс проблем и способов их решения. Для этой отрасли можно использовать термин, предложенный в 1899 году Френсисом Гальтоном — биометрия. Поскольку термин «биометрия» перехватили специалисты по идентификации личности на основании индивидуальных признаков, во многих случаях проще оказывается использовать термин биостатистика.

Объекты, которые изучает биология, обладают высоким уровнем уникальности. Практически в любом биологическом феномене проявляются как общие закономерности, так и влияние особых обстоятельств, часто связанных с той или иной уникальностью биосистем. Это означает, что для биологических исследований очень важны методы, позволяющие увидеть общие закономерности, проявляющиеся за изменчивостью частных проявлений. Возможно, поэтому биологи внесли большой вклад в развитие статистики в целом. Результаты работ Френсиса Гальтона, Карла Пирсона, Рональда Фишера составляют важную часть не только биометрии, но и математической статистики в целом.

 

1.2. Вероятность

Статистически можно изучать повторяемые события. Например, мы вслепую выбираем кроликов из ящика. Кролики могут быть черными или белыми. Каждый выбор — элементарное событие. Человек засовывает руку в отверстие ящика и хватает там какого-то кролика… Можно ли узнать, какого кролика он схватил? Нет (если нет иных источников получения информации и иных факторов, влияющих на результат). Можем ли мы узнать, каково соотношение черных и белых кроликов в ящике? Тоже нет.

Как только кролик будет извлечен наружу, мы не просто узнаем, какого он цвета. Мы сможем кое-что узнать о составе кроликов в ящике. Например, если вытащен белый кролик, мы можем утверждать, что в ящике был как минимум один белый кролик. Немного... Однако если последовательно вытащить 10 кроликов, по составу группы кроликов, собирающихся у ног вытаскивающего их человека, можно высказать более детальное предположение о составе кроликов в ящике. Эти предсказания основываются на феномене вероятности, проявляющейся в регулярных, повторяющихся событиях. Вероятность – числовая мера возможности события. Вероятность 1 означает, что событие произойдет наверняка, а вероятность 0 – что оно невозможно.

Предположим, в ящике 50 белых и 50 черных кроликов. Какова вероятность случайно выбрать белого кролика при однократном выборе? Из общего количества возможных исходов (100) этому условию соответствует 50, значит вероятность — 50/100 = 1/2 = 0,5. 

А надо ли рассматривать вариант, что, например, в вынутой из ящика руке не было ни одного кролика или, к примеру, два? В реальной жизни — надо, а в ее упрощенной модели, к которой можно применить аппарат основ теории вероятности — нет. Те случаи, когда человек не достал ни одного кролика или достал за раз сразу двух, не соответствуют условиям однократного выбора. Впрочем, если бы читатель этого текста засунул руку в настоящий ящик, заполненный уворачивающимися и лягающимися кроликами, вероятностью, что он ничего не вытащит, пренебрегать было бы нельзя.

А какова вероятность выбрать два кролика одного цвета? Может показаться, что 0,5, хотя на самом деле меньше. После того, как выбран кролик определенного цвета, вероятность выбора второго такого же составляет 49/99 против 50/99. Итак, вероятность выбора двух кроликов одного цвета составляет 49/99 = 0,4949…, а двух белых — 0,24747…

 

1.3. Генеральная совокупность и выборка

Генеральная совокупность — действительная или гипотетическая совокупность всех объектов, относящихся к изучаемой категории. В большинстве случаев изучать генеральную совокупность невозможно, и исследователи работают с выборками (эмпирическими совокупностями, выборочными совокупностями) — группами объектов, полученных из генеральной совокупности.

Объем генеральной совокупности определяется задачей исследования (и может в существенной степени изменяться при ее переформулировании). Сравнение роста юношей и девушек в группе, изучающей биометрию, может быть исследованием именно этой группы (при этом в выборку попадет вся генеральная совокупность), исследованием студентов конкретного университета (генеральная совокупность при этом хотя бы конечна), студентов вообще или людей вообще (в двух последних случаях генеральная совокупность, по крайней мере, гипотетическая, оказывается потенциально бесконечной).

Существенный парадокс статистики заключается в том, что исследователь работает с выборками, а изучает при этом те совокупности, откуда эти выборки получены.

Можно ли по выборке судить о генеральной совокупности, которая существенно шире этой выборки? В определенной степени, да. Впрочем, понятно, что не всякая выборка отражает состав генеральной совокупности, из которой она получена. Можно ли брать выборку, по которой судить о изменчивости роста людей, из числа студентов? Нет, поскольку в эту выборку попадут люди преимущественно молодого возраста, которые захотели получать высшее образование и смогли поступить в соответствующий вуз. Такая выборка является смещенной. Чтобы получить полностью случайную выборку, следовало бы организовать процесс ее формирования таким образом, что любой из объектов в составе генеральной совокупности имел бы одинаковую вероятность попадания в выборку. В большинстве случаев такой отбор практически неосуществим. Тем не менее, для изучения генеральной совокупности следует использовать только репрезентативные (представительные) выборки, при формировании которых отклонения от случайного характера при их формировании не могут привести к существенному смещению выборки.

Неслучайность формирования выборок, с которыми работает биолог, являются одной из постоянных (и полностью неустранимых) проблем при биологическом исследовании. Представьте себе, что нам надо не доставать черных и белых кроликов из ящика, а определить их соотношение в том или ином местообитании. Как это сделать? Например, выйти в поле и посчитать попадающихся на пути исследователя кроликов того и другого цвета. Однако на черной пахоте более заметными окажутся белые кролики, а после выпадения снега — черные. Может, стоит не полагаться на зрение исследователя, и ловить кроликов ловушками? Однако если белые кролики являются альбиносами, они могут иметь худшее зрение, чем черные, и чаще попадаться в ловушки. Выборка кроликов, которые наблюдались во время маршрутного учета и выборка кроликов, которые попались в ловушки, не являются вполне репрезентативными для оценки генеральной совокупности кроликов, населяющих изучаемую территорию. 

Теперь представьте себе, что зоолог пытается оценить состав популяции прытких ящериц. Он посетил местообитание этой популяции в пасмурный ветреный день, перед которым несколько дней подряд шли дожди. В такую погоду вышли на поверхность для поисков корма только молодые особи и беременные (вынашивающие созревающие яйца) самки (те особи, которые испытывают особо сильный голод). Исследователь собрал несколько особей, которые показались ему «типичными», а также еще несколько экземпляров, которые заинтересовали его своей необычностью. В ходе дальнейшей обработки он будет судить о свойствах изучаемой генеральной совокупности (ящериц данной популяции) на основании свойств имеющейся у него выборки. Увы, никакими методами статистической обработки полностью исправить смещение такой выборки будет невозможно.

 

1.4. Статистическая значимость; нулевая и альтернативная гипотезы

Рассмотрим шуточный пример. Мы вслепую вытаскиваем кроликов из ящика, в котором не одно, а два отверстия: для правой и для левой руки. Можем ли мы по составу кроликов, извлеченных каждой рукой, установить, есть ли внутри ящика перегородка, разделяющая пространства, откуда мы достаем кроликов правой и левой рукой? В ряде случаев мы можем высказать обоснованные предположения о наличии такой перегородки.

Если выборки кроликов, полученные правой и левой рукой, сильно отличаются (в правой руке — 10 белых, в левой — 10 черных), почти наверняка правая и левая рука попадают в разные отсеки ящика. Если в обоих выборках у нас, предположим, по 5 белых и по 5 черных кроликов, никаких оснований утверждать, что перегородка есть, мы не получили. Впрочем, важно помнить, что мы не доказали наличие или отсутствие перегородки, а лишь получили или не получили основания обосновано предполагать ее наличие с большой степенью вероятности.

Могло быть так, что в первом случае мы засовывали руки в один и тот же ящик (например, с равным соотношением белых и черных кроликов), и лишь случайность при формировании выборки привела к тому, что в одну из них попали животные одного цвета, а в другую — другого? Может. Какова вероятность такого события? Для простоты предположим, что в ящике скрывается бесконечное количество кроликов, и вытаскивание кроликов одного цвета не изменяет шансы при последующих выборах: соотношение белых и черных все время остается 1:1. В таком случае вероятность того, что при первом засовывании рук в ящик в них попадут животные разного цвета, составляет ½. Что во втором выборе в правую руку попадет кролик того же цвета, что и раньше — снова ½, и для левой руки то же самое. Итак, вероятность исхода, при котором выборки разных рук состоят из кроликов разного цвета, составляет (½)19, что приблизительно равно 0,000002. Итак, лишь в двух случаях из миллиона такая разница между выборками могла получиться вследствие случайности при их формировании! Вероятно, на нее повлияла какая-то иная причина, и, по всей видимости, это различие состава кроликов в отсеках ящика. Если кролики распределяются по ящику случайным образом, мы можем с большой степенью уверенности предполагать, что он перегорожен.

А можем ли мы предполагать, что перегородки нет, если мы получили одинаковые или похожие выборки? Нет! У нас всего лишь не будет достаточного основания утверждать, что перегородка есть, а постулировать ее отсутствие мы не сможем все равно.

Чтобы формализовывать подобные логические выборы, принято формулировать две гипотезы, выбор между которыми нужно сделать в ходе статистического исследования.

Нулевая гипотеза (H0) утверждает, что между совокупностями, из которых взяты выборки, нет отличий (а разница между выборками — следствие случайности в ходе их формирования).

Альтернативная гипотеза (H1) утверждает, что отличия между выборками отражают отличия между совокупностями, откуда они получены.

Однозначно выбрать одну из этих возможностей нельзя, и всегда сохраняется возможность ошибки. Нужно по имеющимся данным о составе выборок оценить вероятность справедливости нулевой и альтернативной гипотез и выбрать оптимальное решение. Для этого выбора используются статистические критерии — правила, позволяющие делать такой выбор.

Нулевая и альтернативная гипотеза могут быть ненаправленными (важен сам факт отличия между совокупностями, откуда взяты выборки), а могут быть и направленными (например, важно, что определенное воздействие повышает значение признака; в совокупности подвергнутых воздействию объектов значение признака выше). К примеру, когда мы определяем, влияет ли пол на длину хвоста, мы можем рассматривать как примеры такого влияния и тот случай, когда хвост у самок длиннее, чем у самцов, и тот, при котором он короче. Когда мы определяем, «работает» ли новое лекарство, случаи, когда оно способствует выздоровлению и когда оно препятствует выздоровлению, представляются совершенно различными. Альтернативная гипотеза должна заключаться именно в том, что лекарство способствует выздоровлению. Итак, в первом случае следует применять ненаправленные критерии, а во втором — направленные.

Уровень статистической значимости — это вероятность того, что мы сочли различие существенным (приняли альтернативную гипотезу), а они на самом деле случайны. Можно определить уровень статистической значимости как вероятность того, что приняв альтернативную гипотезу в ситуации, когда на самом деле верна нулевая гипотеза, мы совершили ошибку I рода. Ошибкой II рода называется принятие нулевой гипотезы, когда верна альтернативная. Обычно ошибки I рода оказываются более опасными. Вероятность ошибки первого рода обозначается как α; а второго рода — как β. В соответствии с этим мощность критерия можно определить как = 1 — β.

Часто приходится наблюдать примеры неправильного употребления слов "достоверность" и "значимость". Понятие "статистическая значимость" (или просто "значимость") имеет четкую математическую трактовку. Статистическая значимость (significance) определенного результата (например, регистрации разницы между группами данных или связи между двумя переменными) — низкая вероятность его случайного возникновения. Утверждение "две выборки отличаются статистически значимо" означает, что вероятность их получения из одной совокупности настолько низка, что можно считать доказанным их получение из разных совокупностей. "Достоверность— намного более широкое понятие, которое может использоваться в самых разных сферах (от юриспруденции до философии) и не имеет математического определения. Его используют для обозначения обоснованного, доказательного знания. Утверждение "выводы диссертации достоверны" означает, что они обоснованы логикой построения и изложения материала. Запомните: достоверные выводы делаются на основании статистически значимых результатов!

Кстати, при неправильной организации эксперимента или при ошибках интерпретации недостоверные выводы могут ссылаться на множество статистически значимых феноменов... 

В подавляющем большинстве источников принято говорить просто об "уровне значимости". Это ни в коем случае не является ошибкой, и такое словоупотребление вполне допустимо. Однако на том основании, что данный текст носит учебный характер, его автор будет стараться во всех случаях использовать полную формулировку: понятие "статистическая значимость"; так проще напоминать о его статистической природе.

 

1.5. Признаки

При описании каких-то объектов исследователи фиксируют значение тех или иных признаков – характеристик, по которым сравниваемые объекты могут отличаться друг от друга. Признаки могут иметь различную природу.

 

Таблица 1.5.1. Категории признаков

Категории признаков

Выражается

Пример

Количественные

Метрические
(континуальные, мерные)

Число из непрерывного ряда

Длина тела лягушки

Меристические
(дискретные, счетные)

Целое число

Количество полос на голени

Ранговые
(порядковые)

Целое число (ранг), причем разница между рангами не является мерой отличия между самими объектами

Ранг длины пальцев передней конечности (1 – самый длинный, 2 – следующий по длине и т.д.)

Качественные (атрибутивные)

Множественные
(номинальные,
политомические)

Определенное качество из некоего набора

Цвет спины

Альтернативные
(дихотомические)

Одно состояние из двух возможных (есть – нет)

Наличие дорзомедиальной полосы

 

Признаки из разных групп отличаются по своим свойствам. Например, особь, у которой 4 полосы на голени на столько же полос отличается от особи, у которой их 3, насколько эта особь отличается от той, у которой их 2. В то же время относительно особей, которые отличаются по рангу длины первого пальца на передних конечностях, невозможно сказать, на какую величину палец у особи со рангом 4 короче, чем у особи с рангом 3, а разницу между особями с рангом 4 и 3 невозможно сравнить с разницей между особями с рангами 3 и 2.

Итак, признаки – это характеристики, по которым объекты можно сравнивать друг с другом. Результат описания особи по какому-то признаку называется значением этого признака или просто значением. При работе с компьютерной программой то, что записывается в отдельную ячейку таблицы данных, проще всего называть термином «значение» (хотя существуют и иные варианты, например, «дата»).    

 

1.6. Распределения, статистики и параметры 

Распределение — функция, описывающая вероятность тех или иных значений случайно варьирующей величины. То, что монета может с равной вероятностью упасть орлом или решкой, задает распределение исходов падения монет. 

Случайные величины (и их распределения) могут быть дискретными и непрерывными. Количественные и счетные признаки имеют дискретные распределения, метрические — непрерывные.

Выборки можно описывать, предполагая, что распределение величин в них подчинено какому-то закону, характерному для генеральной совокупности, из которой она получена. 

Предположим, изученная выборка охарактеризована результатами каких-то измерений. Для выборки можно вычислить ее среднее значение. Если выборка полностью описана, ее среднее можно определить вполне точно. На основании выборочного среднего можно с определенной точностью судить о среднем значении генеральной совокупности, откуда эта выборка получена.  

Математические величины, характеризующие выборку, называются статистиками и обозначаются латинскими буквами; характеризующие генеральную совокупность — называются параметрами и обозначаются греческими буквами.

В типичном случае в ходе биометрического исследования по статистикам выборки судят о математических величинах, характеризующих генеральную совокупность — ее параметрах. 

 

Таблица 1.6.1. Наиболее распространенные статистики и соответствующие им параметры генеральной совокупности

Статистики

Параметры

Численность выборки — n.

 

Среднее арифметическое — 

Генеральное среднее — 

Стандартное отклонение — s;  

Генеральное стандартное отклонение — 

 

Среднее арифметическое (Mean)  , где   — среднее арифметическое изучаемой величины x ;  n — число элементов в выборке; xi  — отдельные значения величины x, от x1 до xn. Отдельные , полученные для разных выборок, можно рассматривать как выборочные оценки генеральной средней  (среднего арифметического генеральной совокупности, включающей всю совокупность объектов, представленных изучаемой выборкой).

Варианса, среднеквадратичное отклонение (Variance). Среднеквадратичное отклонение генеральной совокупности могло бы быть вычислено как  , но для такой оценки нужно было бы перебрать все элементы генеральной совокупности. В действительности этот параметр всегда определяется для определенной выборки, в которую, скорее всего, не попадут самые редкие и самые отклоняющиеся от среднего значения. Значит, выборочное среднеквадратичное отклонение, которое обозначается как s2, надо высчитывать с поправкой. Для этого используется формула  . Величина df=n-1  получила название числа степеней свободы. Можно считать, что при известном  изменять можно значения все элементов выборки, кроме последнего (т.е. их количества, равного n-1): когда определены все остальные значения и среднее, последнее из значений выборки однозначно определяется этими величинами.

По-русски вариансу часто называют дисперсией (от лат. dispersio — рассеяние; отсюда и происходит название дисперсионного анализа). Иногда указывают, что термин дисперсия стоит применять только для обозначения самого факта рассеяния отдельных значений вокруг среднего, а описанную меру называть, по аналогии с английским языком, вариансой. Варианса является квадратом стандартного отклонения (Standard Deviation), которое обозначается s  и вычисляется, естественно,  .

Иногда используются и иные статистики, характеризующие выборки. К их числу можно отнести размах (разницу между минимальным и максимальным значением), медиану (значение, которое находится ровно в середине упорядоченного ряда элементов выборки, так, что половина элементов выборки оказывается меньше этого значения, а половина – больше), моду (самый многочисленный класс значений в выборке), среднее линейное отклонение, среднее геометрическое и т.д. Хороший анализ этих и иных статистик находится здесь

В соответствии с законом больших чисел, восходящем к Я. Бернулли (1713) и доказанному П.Л. Чебышевым в XIX в., по мере увеличения выборки выборочные статистики стремятся к параметрам генеральной совокупности. Чем меньше выборка, тем вероятнее отклонение выборочных статистик от параметров генеральной совокупности.

Если на метрический признак оказывает влияние множество случайных воздействий, он приобретает нормальное распределение. Графически это распределение описывается нормальной кривой, которая однозначно задается всего двумя параметрами:  и .

В нормальном распределении совпадают среднее, медиана и мода. 99,7% наблюдаемых значений при нормальном распределении находится в пределах   (правило трех сигм).

Эмпирические распределения могут напоминать нормальные, тем не менее отличаясь от них. Самые распространенные отличия — асимметрия и эксцесс. 

 

1.7. Параметрические и непараметрические статистические методы и критерии

Статистические критерии (правила, позволяющие сделать выбор между нулевой и альтернативной гипотезой) можно разделить на параметрические (те, в процедуре которых предусматривается, что сравниваемые выборки получены из генеральных совокупностей с определенным, чаще всего нормальным, распределением) и непараметрические, свободные от параметров (не требующие никаких предположений о характере распределения исследуемых совокупностей). Итак, если мы не знаем, как распределены сравниваемые нами величины, "по умолчанию" можно использовать непараметрические методы. Однако большинство непараметрических методов обладают меньшей мощностью (1 — β, где β — вероятность "упустить" различие, принять нулевую гипотезу в то время, когда верна альтернативная), чем параметрические (и это естественно, ведь параметрические методы уже кое-что "знают" о распределениях сравниваемых величин).