BioStatistica — 03. Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)

 

Онлайн-конспект курса
"Биометрическая обработка данных в зоологии и экологии"

Д.А. Шабанов

Тема 2. Использование программы Statistica Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек) Тема 3 (продолжение). Работа с графиками
Биометрия-02 Биометрия-03 Биометрия-04

 

Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)

3.1. Описание файла-примера Pelophylax_example.sta

Мощными инструментами программы Statistica являются средства для построения графиков. Зачастую именно тот или иной способ визуализации собранных данных позволяет понять, какие статистические гипотезы следует проверять в ходе биометрической обработки данных, увидеть интересные или непонятные особенности собранных данных.

Если в предыдущей теме особенности работы программы Statistica пояснялись на условных примерах, состоящих из бессмысленных данных, для освоения специализированных функций данной программы лучше использовать файлы, отражающие результаты настоящих исследований. Одним из таких файлов является таблица данных Pelophylax_example.sta, которая будет описана далее. Для работы с данным конспектом желательно обрабатывать именно этот файл. Его можно получить одним из трех способов. Во-первых, его можно получить у автора данного текста. При использовании электронной версии конспекта приведенные ниже данные можно перенести из файла Word в программу Statistica, задать для переменных необходимые текстово-числовые соответствия и получить таким образом необходимую таблицу данных. Наконец, при использовании печатного конспекта приведенную далее таблицу можно распознать, ввести в Statistica и также использовать ее в дальнейшей работе.

В файле Pelophylax_example.sta (по ссылке его можно скачать) использован фрагмент данных, полученных А.В. Коршуновым при подготовке диссертации на соискание степени кандидата биологических наук (автор искренне благодарен А. В. Коршунову за разрешение использовать результаты его работы). В оригинальном файле содержалось описание нескольких сот лягушек по 16 морфометрическим признакам; в выбранном фрагменте оставлено 57 лягушек и приведены данные об изменчивости у них 7 морфометрических признаков.

Все описанные в файле-примере особи принадлежат к гибридогенному комплексу зеленых лягушек, Pelophylax esculentus complex. Это два родительских вида, прудовая лягушка Pelophylax lessonae (Camerano, 1882) и озерная лягушка, P. ridibundus (Pallas, 1771), а также их диплоидные и триплоидные гибриды, называемые съедобными лягушками, P. esculentus (Linnaeus, 1758). Триплоидные гибриды P. esculentus представлены двумя формами, отличающимися по составу геномов в генотипе. Воспроизводство гибридов связано с феноменом гемиклональной наследственности. Все названные формы лягушек могут образовывать гемиклональные популяционные системы (ГПС), где в ходе совместного размножения передаются как клональные, так и рекомбинантные геномы.

Родительские виды и гибриды обладают определенными внешними особенностями, которые, однако, не позволяют отчетливо отличать их друг от друга. Один из методов доказательной идентификации различных форм зеленых лягушек состоит в использовании проточной ДНК-цитометрии. Взвешенные клетки лягушек с током жидкости проходят через ультрафиолетовый детектор. Они облучаются ультрафиолетовым излучением на длине поглощения ДНК, а затем на той длине, на которой возбужденная ДНК излучает энергию, регистрируется интенсивность флуоресценции (вторичного излучения) клетки. Сравнивая клетки изучаемых особей с реперными клетками (например, трявяной лягушки, Rana temporaria), имеющими точно известную массу ДНК, приходящуюся на клетку, можно определить массу ДНК в изучаемых клетках. Эта масса измеряется в пикограммах, пг. Поскольку известно, что геном P. lessonae имеет массу около 7 пг, а геном P. ridibundus — 8 пг., по массе клеточной ДНК можно определить, какие геномы входят в генотип данной особи.

В файле Pelophylax_example.sta содержатся данные о лягушках с 5 разными генотипами. Обозначая геном P. lessonae как L, а геном P. ridibundus — как R, эти 5 форм можно обозначить как LL, LLR, LR, LRR и RR. Все эти формы встречаются в Харьковской области.

В файле Pelophylax_example.sta строкам (Cases, наблюдениям) соответствуют отдельные особи, а столбцам (Variables, переменным) — их признаки. Характеристика каждой особи включает в себя место сбора, его координаты, а также указание того, относится данная точка к водосборному бассейну Днепра (запад и северо-запад Харьковской области) или Дона (т.е. Северского Донца; большая часть территории области). Кроме того, для каждой лягушки указывается ее пол.

В файле приведены данные о половозрелых лягушках. При возможности выбора, они отбирались так, чтобы для каждой формы лягушек включенные в файл данных особи происходили из разных точек.

Измерение морфометрических признаков проводилось на фиксированных лягушках с помощью штангенциркуля; данные измерялись с точностью до 0,1 мм. Самым существенным из этих признаков является длина тела. Все прочие признаки могут использоваться как в виде абсолютных значений, так и в виде пропорций (отношения данного признака к длине тела). Кроме того, для тех или иных целей могут вычисляться индексы — комплексные признаки, которые вычисляются как некие комбинации исходных морфометрических признаков. Строго говоря, пропорции (отношения промеров к длине тела) тоже являются индексами, но в целях удобства эти понятия проще сузить так, как это предложено в данном абзаце.

Таблица 3.1.1. Данные, включенные в файл Pelophylax_example.sta
Половозрелые зеленые лягушки из Харьковской области (неслучайная выборка)

 

Place

East

North

Basin

Sex

DNA

Genotyp

L

Ltc

Fm

T

Dp

Ci

Cs

1

Chernetchina

35,13

50,05

Dnieper

female

13,95

LL

562

187

266

249

62

41

152

2

Chernetchina

35,13

50,05

Dnieper

female

13,99

LL

592

195

281

261

79

37

132

3

Chernetchina

35,13

50,05

Dnieper

female

14,02

LL

603

218

287

281

80

45

158

4

Chernetchina

35,13

50,05

Dnieper

male

13,95

LL

595

199

285

286

75

38

114

5

Gorodnee

35,14

50,05

Dnieper

male

16,13

RR

706

266

326

362

97

37

187

6

Krasnocutsk

35,16

50,07

Dnieper

female

14,03

LL

603

194

264

255

76

42

119

7

Gubarevk

35,35

50,16

Dnieper

male

16,27

RR

508

191

259

277

66

27

129

8

Sharovka

35,47

50,04

Dnieper

female

14,91

LR

691

227

359

349

98

48

176

9

Sharovka

35,47

50,04

Dnieper

male

14,94

LR

659

208

302

300

84

48

166

10

V.Gomols

36,27

49,57

Don

male

14,80

LR

553

210

262

280

85

28

144

11

Dobr.yar

36,31

49,56

Don

female

22,60

LRR

715

220

353

344

103

41

155

12

Dobr.yar

36,31

49,56

Don

female

14,95

LR

707

229

334

332

97

43

150

13

Dobr.yar

36,31

49,56

Don

male

14,91

LR

714

244

356

341

93

53

181

14

Dobr.yar

36,31

49,56

Don

female

21,67

LLR

658

241

306

304

96

34

170

15

Dobr.yar

36,31

49,56

Don

male

21,43

LLR

589

216

290

277

77

37

152

16

Liman

36,32

49,35

Don

male

16,20

RR

656

219

352

337

90

36

154

17

Gaydary

36,33

49,62

Don

female

22,79

LRR

742

255

352

356

107

40

174

18

Gaydary

36,33

49,62

Don

female

22,80

LRR

677

294

338

364

108

43

181

19

Gaydary

36,33

49,62

Don

male

22,64

LRR

653

215

315

319

82

38

151

20

Gaydary

36,33

49,62

Don

male

22,81

LRR

691

226

330

334

92

40

167

21

Gaydary

36,33

49,62

Don

male

22,97

LRR

588

206

288

389

91

35

137

22

Gaydary

36,33

49,62

Don

male

22,98

LRR

655

221

328

345

92

45

159

23

Gaydary

36,33

49,62

Don

female

14,88

LR

791

299

381

394

116

47

233

24

S.Gomols

36,34

49,54

Don

female

15,99

RR

535

200

265

281

78

32

145

25

S.Gomols

36,34

49,54

Don

female

22,79

LRR

504

203

231

248

63

31

117

26

S.Gomols

36,34

49,54

Don

female

15,09

LR

877

338

376

423

139

47

227

27

Eschar

36,35

49,47

Don

male

16,03

RR

686

268

336

361

103

38

197

28

Eschar

36,35

49,47

Don

male

14,91

LR

561

209

273

285

77

37

161

29

Lipci

36,38

50,21

Don

female

16,00

RR

701

270

360

376

106

30

178

30

Lipci

36,38

50,21

Don

male

14,86

LR

668

226

335

328

86

44

175

31

Zhovtneve

36,46

50,08

Don

male

16,08

RR

930

265

462

461

138

31

202

32

Zhovtneve

36,46

50,08

Don

female

21,43

LLR

767

240

349

346

95

44

160

33

Zhovtneve

36,46

50,08

Don

female

21,60

LLR

800

262

389

376

116

49

196

34

Balakleya

36,48

49,27

Don

male

15,92

RR

792

262

340

357

93

32

172

35

Balakleya

36,48

49,27

Don

male

22,85

LRR

721

278

359

359

104

47

196

36

Balakleya

36,48

49,27

Don

female

14,85

LR

641

268

317

323

93

41

173

37

Gatishe

36,52

50,18

Don

female

14,91

LR

569

201

260

281

90

36

156

38

PechRibhoz

36,59

49,52

Don

male

14,72

LR

662

252

321

325

92

43

186

39

Izbickoe

36,73

50,20

Don

female

21,83

LLR

625

221

303

292

83

37

145

40

Kreyd.da

36,80

49,43

Don

male

22,73

LRR

755

268

411

372

106

42

189

41

Kreyd.da

36,80

49,43

Don

male

22,74

LRR

564

192

283

293

77

30

139

42

Kreyd.da

36,80

49,43

Don

male

14,79

LR

650

225

320

319

90

38

164

43

Kreyd.da

36,80

49,43

Don

female

21,61

LLR

557

200

251

257

67

33

143

44

Kreyd.da

36,80

49,43

Don

male

21,62

LLR

528

196

257

246

66

31

127

45

Ch.Gusar

36,86

49,41

Don

female

16,07

RR

542

193

262

282

71

27

129

46

Ch.Gusar

36,86

49,41

Don

male

16,01

RR

521

186

243

267

65

28

124

47

Verbun.d

36,89

49,42

Don

female

22,81

LRR

618

212

288

302

94

32

145

48

Verbun.d

36,89

49,42

Don

female

22,85

LRR

689

248

316

341

104

37

179

49

Verbun.d

36,89

49,42

Don

female

14,91

LR

543

190

266

273

79

33

127

50

Verbun.d

36,89

49,42

Don

female

21,50

LLR

616

230

316

298

91

39

155

51

Verbun.d

36,89

49,42

Don

male

21,61

LLR

528

192

258

262

77

35

128

52

Verbun.d

36,89

49,42

Don

male

21,64

LLR

574

199

263

267

78

38

146

53

Martova

36,96

49,93

Don

female

16,18

RR

825

315

423

443

124

49

240

54

Pecheneg

36,99

49,89

Don

female

16,22

RR

537

189

259

273

72

28

119

55

Ch.Shaht.

37,03

49,18

Don

female

22,03

LLR

479

189

238

246

65

27

118

56

Petropol

37,13

49,09

Don

female

16,01

RR

710

256

339

371

99

34

177

57

Veseloe

37,19

49,40

Don

female

16,11

RR

693

247

341

362

104

32

174

 

Для того, чтобы понять содержащиеся в файле данные, необходимо сопоставить их со спецификациями переменных.

Рис. 3.1.1. Переменные в файле Pelophylax_example.sta     

Первый столбец в этом файле содержит обозначение места сбора, второй и третий — географические координаты этой точки, четвертый — обозначение реки, к водосборному бассейну которой относится место сбора. В пятом столбце приведен пол лягушек, в шестом — масса ДНК, приходящейся на каждую клетку (в пг), в седьмом — установленный по массе ДНК генотип. Столбцы с восьмого по четырнадцатый содержат результаты морфометрии (указаны с точностью до 0,1 мм).

Текстово-числовые соответствия с помощью редактора текстовых меток заданы для столбцов 1, 4, 5 и 7. Кодировки для первого столбца (места сбора) для дальнейшей обработки значения не имеют, а для трех других столбцов следует рассмотреть внимательнее. 

Рис. 3.1.2. Коды переменной Basin в файле Pelophylax_example.sta     

Поскольку расселение лягушек происходит в основном по водотокам, граница между бассейнами Днепра и Дона, проходящая по изучаемой территории, весьма существенна с точки зрения распространения различных форм лягушек.

Рис. 3.1.3. Коды переменной Sex в файле Pelophylax_example.sta     

Поскольку в данном файле приведены данные исключительно о половозрелых лягушках, для всех их можно определить пол. В некоторых случаях приходится выделять ювенильных особей (молодь, пол которых не может быть определен) и субадультусов (полувзрослых особей). 

Рис. 3.1.4. Коды переменной Genotip в файле Pelophylax_example.sta     

Переменная генотип делит лягушек на 5 изучаемых форм, каждая из которых представлена самками и самцами. Формы LL и RR являются «хорошими» видами, а формы LLR, LR и LRR являются межвидовыми гибридами, которые имеют имя, сравнимое с видовым. Чтобы не вдаваться в сложны терминологические рассуждения о статусе сравниваемых групп лягушек, проще именовать их «формами», трактуя это понятие как обозначение любой группы особей без привязки к их таксономическому статусу.

 

3.2. Гистограммы: пример построения графиков

Начинать изучение разнообразия представленных в таблице данных проще, используя самые простой тип графиков: гистограммы. Они вызываются из меню Grafs (Графика), и находятся там как в самом верху выпадающего списка, так и вызываются из более «глубоких» меню. 

Рис. 3.2.1. Вызвать режим построения гистограмм можно и напрямую из меню «Графика», и из подменю двухмерных графиков, предоставляющего более широкий выбор опций     

Гистограммы показывают частоты объектов, относящихся к разным классам, в виде столбцов. Например, существенным признаком, по которому можно группировать описанных в файле лягушек, является их генотип. Построим распределение лягушек по генотипам.

Пройдя по пути Grafs / Histograms... (Графика / Гистограммы…) или, что то же самое, Grafs / 2D Grafs / Histograms..., мы попадаем в «быстрый» диалог построения гистограмм.

Рис. 3.2.2. Быстрый диалог построения гистограмм     

Щелкнув по кнопке Variables (Переменные), выберем там переменную Genotyp. В этой вкладке можно выбрать и несколько переменных (и, в простейшем случае, построить одновременно несколько графиков). Чтобы выбрать переменные, находящиеся не рядом друг с другом, следует во время выбора удерживать нажатой клавишу Ctrl. Флажок возле окошка Fit type: Normal (Тип подгонки: Нормальное) вызовет накладку на график кривой нормального распределения. В данном случае это совсем не нужно, так что этот флажок стоит снять. Также правильно снять флажок в окошке Auto, обеспечивающий автоматическое разбиение диапазона значений переменной Genotyp (хотя в данном случае это не повлияет на результат: все равно эта переменная принимает только значения 1, 2, 3, 4 и 5).

Рис. 3.2.3. Быстрый диалог построения гистограмм     

Вкладка Advanced (Дополнительно) предоставляет более широкие возможности для управления свойствами гистограммы. 

Рис. 3.2.4. Вкладка «Дополнительно» в диалоге построения гистограмм     

Поменяем в ней режим отображения оси Y: укажем там опцию «% & N», чтобы видеть там распределение лягушек по генотипам не только по штукам, но и в процентах от общего количества. Нажав кнопку «ОК», получим результат.

Рис. 3.2.5. Распределение лягушек из файла Pelophylax_example.sta по генотипам     

Второй важнейшей характеристикой исследуемого материала является пол. Можем ли мы построить соответствующий график только для самок? Для этого надо нажать кнопку Select Cases (Выбор наблюдений). На рис. 3.2.4 она видна в середине правого ряда кнопок.

Рис. 3.2.6. Диалог Select Cases (Выбор наблюдений)     

Сразу после вызова этого окна подавляющая часть его выборов закрыта для редактирования; чтобы их включить, надо поставить галочку в окошке Enable Selection Condition (Задать условия выбора). Если при выполнении какого анализа пользователь не обратит внимание на то, что кнопка «Select Cases» утоплена, он не осознает, что он работает не со всей совокупностью своих данных, а лишь с некоторой их частью.

На следующем рисунке показано окно выбора метода статистической обработки данных в режиме Basic Statistic and Tables; можно предположить, что после построения графиков пользователь перешел к собственно статистической обработке. Если он не обратит внимания на то, что кнопка «Select Cases» нажата, может получиться так, что часть имеющихся в файле результатов окажется для него недоступной.

Рис. 3.2.7. Внимание! Кнопка «Select Cases» нажата! Если это условия выбора, которые остались невыключенными после предыдущих действий с программой Statistica, часть данных может оказаться недоступной для обработки!     

Условия выбора наблюдения можно задать несколькими разными способами. Можно ввести условия включения наблюдений в анализ (те строки, в отношении которых это условие будет выполняться, будут анализироваться, а все прочие — нет). Можно, наоборот, ввести условия исключения наблюдений из анализа. Наконец, как включаемые, так и исключаемые наблюдения могут быть заданы простым перечислением. При формулировании условий можно использовать имена переменных, а можно — их порядковые номера, допустимо применение функций and и or (и, или), а также скобок. Например, условию «Basin=2 and v5=1 and (v7=3 or v7=4)» в файле Pelophylax_example.sta соответствует одна-единственная особь.

Итак, указав условие Sex=1, мы построим гистограмму только для самок. Кроме того, добавим галочку в окошке Breaks between columns (Интервал между столбцами) на вкладке Advanced (Дополнительно), чтобы широкие и низкие столбцы не сливались друг с другом.

Рис. 3.2.8. На этой гистограмме показаны только самки лягушек     

Чтобы увидеть распределение самцов, можно построить еще одну гистограмму, но можно и объединить данные о самках и самцах на одном графике. Для этого необходимо использовать категоризованные гистограммы — Categorized Histograms из меню Categorized Grafs.

Рис. 3.2.9. Categorized Grafs (Категоризованные графики) являются отдельной группой в меню Grafs (Графика)     

При выборе переменных в категоризованных гистограммах нужно выбрать не только переменную, разнообразие по которой будет показано столбцами, но и категоризующую переменную. 

Рис. 3.2.10. Задавание параметров для категоризованных гистограмм. Обратите внимание на переключатель Layout: Separate или Overlaid (Размещение: Отдельно или Вместе)      

При выборе размещения Overlaid (Вместе) отличия по категоризующей переменной показываются на категоризованных графиках оформлением соответствующих символов. Можно выбирать две переменные для категоризации, однако в большинстве случаев такие графики оказываются перегружены деталями и интерпретируются с трудом.

Рис. 3.2.11. Категоризованная гистограмма: самцы и самки показаны отдельными столбцами, которые выделены цветом