БиоСтатистика — 02. Тема 2. Программа Statistica | Лекторий-библиотека Batrachos.com


←	Д.А. Шабанов, М.А.Кравченко. Статистический анализ данных в зоологии и экологии			→
Содержание курса. Тема 1. Основные понятия биостатистики		Тема 2. Использование программы Statistica	Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)
Биостатистика-01		Биостатистика-02	Биостатистика-03

Тема 2. Статистические программы и файл-пример для работы с ними

2.1. Разнообразие программ для статистических расчетов

Мы приступили к изучению биологической статистики. Оно может быть организовано двумя разными способами. При первом из них (его можно обозначить "ab ovo") студентам объясняют математические основы изучаемых методов, выводят необходимые формулы и доказывают объясняющие их теоремы. Если студент освоил такой курс, решение конкретных проблем, связанных с тем или иным набором данных в его области исследований оказывается не такой уж сложной задачей. Второй способ ("делай, как я") заключается в том, что студентам показывают, как решать типовые задачи с помощью того или иного инструментария.

Первый способ сложнее. Люди, успешно справившиеся с обучением по первому способу, имеют более высокую подготовку и более универсальны. Однако, в значительной степени, первый способ работает по принципу "все или ничего". Ты или освоил основные подходы и можешь их применять, или не знаешь, что делать и теряешься при необходимости решить простейшие задачи. Второй способ "демократичнее" и позволяет легко решать типичные задачи. Увы, без понимания основ методов люди, которых научили повторять какие-то последовательности действий, но не объяснили их смысл, часто делают ошибки. Еще одним недостатком второго подхода является привыкание к определенным программам (инструментам для решения типовых задач). Естественно, что для разных категорий студентов нужен или первый, или второй способ, или их сочетание. Опыт преподавания биометрии студентам-биологам свидетельствует, что им, преимущественно, нужен подход "делай, как я".

Реализация подхода "делай, как я" требует выбора программ, с помощью которых будет проводиться обучение. Тут приходится выбирать между пятью категориями программ:
— бесплатные любительские и полупрофессиональные программы; их немало, но среди них нет универсальных, и, к тому же, чуть не каждая из них требует своего подхода (хотя некоторые решения следует признать удачными, как, например, этот набор онлайн-калькуляторов);
— вероятно, самая удачная из бесплатных программ, созданная палеонтологами как упрощенный и бесплатный аналог пакета Statistica — программа PAST; скачать последнюю версию самой программы и руководства пользователя к ней можно тут;
— свободное ПО; лидер в этой области — среда R: мощнейший программный пакет (или язык) для статистической обработки (вот его основная страница); в базовом случае требует работы с командной строкой, хотя чаще используется с оболочками наподобие RStudio (скачать его можно тут);
— платное или свободное ПО, не предназначенное для решения статистических задач специально, но представляющее широкие возможности для работы с данными и, в том числе, и их статистической обработки; к этой категории относятся Excell и Access, компоненты Microsoft Office, а также их бесплатные аналоги, как LibreOffice Calc;

«Тут следует отметить ещё одну вещь: ни в коем случае не рекомендуется производить какой-либо статистический анализ в программах электронных таблиц. Не говоря уже о том, что интернет просто забит статьями об ошибках в этих программах и/или в их статистических модулях, это ещё и крайне неверно идеологически. Иначе говоря: Используйте R!». А. Б. Шипунов, Е. М. Балдин “Анализ данных с R”.

— платные профессиональные специальные программы; лидерами рынка в этой области являются программы SPSS и Statistica.

Использование программ пятой категории позволяет в наибольшей степени сосредоточиться на сути решаемых проблем. Увы, оно сопряжено с необходимостью выбора между покупкой дорогой (очень дорогой!) лицензии или использования взломанных, пиратских версий. Тем не менее, по мнению автора, именно такие программы позволяют быстрее всего получить опыт работы с данными, в том числе, и с использованием методов многомерного анализа, требующих сложнейших вычислений.

Один из авторов этого пособия начал работать с программой Statistica фирмы StatSoft (в ее предыдущих реинкарнациях) около 1992 года (тогда она называлась CSS, и она была предназначена для работы в DOS). В то время именно эту программу использовали квалифицированные зоологи Москвы и Киева. Сделанный тогда выбор и предопределил ту программу, на которую ориентировано изложение в этом пособии. Надо признаться, что человеку, который привык работать в программе с оконным интерфейсом, выбирая опции из предложенного списка, чрезвычайно тяжело перейти к работе в режиме командной строки, требующему помнить имена и синтаксис необходимых программ. Впрочем, альтернативы осваивоению среды R для профессионального биолога уже нет.

Авторы планируют расширять данное пособие пояснениями, как реализовать описанные в нем методы в программе PAST и в среде R. До того для знакомства с R можно лишь рекомендовать достаточно многочисленные источники, доступные в Сети, описывающие использование этого пакета. Среди них — посвященные R блоги, в том числе r-analytics и statinr. Очень полезно пройти русскоязычный курс по работе в R.

Есть в Сети и ресурсы, посвященные работе в Statistica; среди них особо можно рекомендовать замечательный портал Статосфера.

2.2. Опис файлу-прикладу Pelophylax_example

Мощными инструментами анализа данных являются средства для построения графиков. Зачастую именно тот или иной способ визуализации собранных данных позволяет понять, какие статистические гипотезы следует проверять в ходе дальнейшего анализа, увидеть интересные или непонятные особенности собранных данных.

В дальнейшем изложении особенности работы программ будут поясняться с испольованием файлов, отражающих результаты настоящих исследований. Одним из таких файлов является таблица данных Pelophylax_example. Для работы с данным конспектом желательно обрабатывать именно этот файл. Его можно получить одним из трех способов. Во-первых, его можно скачать (Pelophylax_example.sta) или получить у автора данного текста. При использовании электронной версии конспекта приведенные ниже данные можно перенести из окна браузера, файла Word или файла .pdf в необходимую программу. Наконец, при использовании печатного конспекта приведенную далее таблицу можно распознать, ввести в необходимые программы и затем использовать ее в дальнейшей работе.

В файле использован фрагмент данных, полученных А.В. Коршуновым при подготовке диссертации на соискание степени кандидата биологических наук (автор искренне благодарен А. В. Коршунову за разрешение использовать результаты его работы). В оригинальном файле содержалось описание нескольких сот лягушек по 16 морфометрическим признакам; в выбранном фрагменте оставлено 57 лягушек и приведены данные об изменчивости у них 7 морфометрических признаков. Структура данных объясняется на примере файла Statistica, потому что именно эта программа позволяет корректнее всего показать текстово-числовые соответствия и спецификации переменных.

Все описанные в файле-примере особи принадлежат к гибридогенному комплексу зеленых лягушек, Pelophylax esculentus complex. Это два родительских вида, прудовая лягушка Pelophylax lessonae (Camerano, 1882) и озерная лягушка, P. ridibundus (Pallas, 1771), а также их диплоидные и триплоидные гибриды, называемые съедобными лягушками, P. esculentus (Linnaeus, 1758). Триплоидные гибриды P. esculentus представлены двумя формами, отличающимися по составу геномов в генотипе. Воспроизводство гибридов связано с феноменом гемиклональной наследственности. Все названные формы лягушек могут образовывать гемиклональные популяционные системы (ГПС), где в ходе совместного размножения передаются как клональные, так и рекомбинантные геномы.

Родительские виды и гибриды обладают определенными внешними особенностями, которые, однако, не позволяют отчетливо отличать их друг от друга. Один из методов доказательной идентификации различных форм зеленых лягушек состоит в использовании проточной ДНК-цитометрии. Взвешенные клетки лягушек с током жидкости проходят через ультрафиолетовый детектор. Они облучаются ультрафиолетовым излучением на длине поглощения ДНК, а затем на той длине, на которой возбужденная ДНК излучает энергию, регистрируется интенсивность флуоресценции (вторичного излучения) клетки. Сравнивая клетки изучаемых особей с реперными клетками (например, трявяной лягушки, Rana temporaria), имеющими точно известную массу ДНК, приходящуюся на клетку, можно определить массу ДНК в изучаемых клетках. Эта масса измеряется в пикограммах, пг. Поскольку известно, что геном P. lessonae имеет массу около 7 пг, а геном P. ridibundus — 8 пг., по массе клеточной ДНК можно определить, какие геномы входят в генотип данной особи.

В файле Pelophylax_example.sta содержатся данные о лягушках с 5 разными генотипами. Обозначая геном P. lessonae как L, а геном P. ridibundus — как R, эти 5 форм можно обозначить как LL, LLR, LR, LRR и RR. Все эти формы встречаются в Харьковской области.

В файле Pelophylax_example.sta строкам (Cases, наблюдениям) соответствуют отдельные особи, а столбцам (Variables, переменным) — их признаки. Характеристика каждой особи включает в себя место сбора, его координаты, а также указание того, относится данная точка к водосборному бассейну Днепра (запад и северо-запад Харьковской области) или Дона (т.е. Северского Донца; большая часть территории области). Кроме того, для каждой лягушки указывается ее пол.

В файле приведены данные о половозрелых лягушках. При возможности выбора, они отбирались так, чтобы для каждой формы лягушек включенные в файл данных особи происходили из разных точек.

Измерение морфометрических признаков проводилось на фиксированных лягушках с помощью штангенциркуля; данные измерялись с точностью до 0,1 мм. Самым существенным из этих признаков является длина тела. Все прочие признаки могут использоваться как в виде абсолютных значений, так и в виде пропорций (отношения данного признака к длине тела). Кроме того, для тех или иных целей могут вычисляться индексы — комплексные признаки, которые вычисляются как некие комбинации исходных морфометрических признаков. Строго говоря, пропорции (отношения промеров к длине тела) тоже являются индексами, но в целях удобства эти понятия проще сузить так, как это предложено в данном абзаце.

Таблица 2.2.1. Данные, включенные в файл Pelophylax_example
Половозрелые зеленые лягушки из Харьковской области (неслучайная выборка)

	Place	East	North	Basin	Sex	DNA	Genotyp	L	Ltc	Fm	T	Dp	Ci	Cs
1	Chernetchina	35,13	50,05	Dnieper	female	13,95	LL	562	187	266	249	62	41	152
2	Chernetchina	35,13	50,05	Dnieper	female	13,99	LL	592	195	281	261	79	37	132
3	Chernetchina	35,13	50,05	Dnieper	female	14,02	LL	603	218	287	281	80	45	158
4	Chernetchina	35,13	50,05	Dnieper	male	13,95	LL	595	199	285	286	75	38	114
5	Gorodnee	35,14	50,05	Dnieper	male	16,13	RR	706	266	326	362	97	37	187
6	Krasnocutsk	35,16	50,07	Dnieper	female	14,03	LL	603	194	264	255	76	42	119
7	Gubarevk	35,35	50,16	Dnieper	male	16,27	RR	508	191	259	277	66	27	129
8	Sharovka	35,47	50,04	Dnieper	female	14,91	LR	691	227	359	349	98	48	176
9	Sharovka	35,47	50,04	Dnieper	male	14,94	LR	659	208	302	300	84	48	166
10	V.Gomols	36,27	49,57	Don	male	14,80	LR	553	210	262	280	85	28	144
11	Dobr.yar	36,31	49,56	Don	female	22,60	LRR	715	220	353	344	103	41	155
12	Dobr.yar	36,31	49,56	Don	female	14,95	LR	707	229	334	332	97	43	150
13	Dobr.yar	36,31	49,56	Don	male	14,91	LR	714	244	356	341	93	53	181
14	Dobr.yar	36,31	49,56	Don	female	21,67	LLR	658	241	306	304	96	34	170
15	Dobr.yar	36,31	49,56	Don	male	21,43	LLR	589	216	290	277	77	37	152
16	Liman	36,32	49,35	Don	male	16,20	RR	656	219	352	337	90	36	154
17	Gaydary	36,33	49,62	Don	female	22,79	LRR	742	255	352	356	107	40	174
18	Gaydary	36,33	49,62	Don	female	22,80	LRR	677	294	338	364	108	43	181
19	Gaydary	36,33	49,62	Don	male	22,64	LRR	653	215	315	319	82	38	151
20	Gaydary	36,33	49,62	Don	male	22,81	LRR	691	226	330	334	92	40	167
21	Gaydary	36,33	49,62	Don	male	22,97	LRR	588	206	288	389	91	35	137
22	Gaydary	36,33	49,62	Don	male	22,98	LRR	655	221	328	345	92	45	159
23	Gaydary	36,33	49,62	Don	female	14,88	LR	791	299	381	394	116	47	233
24	S.Gomols	36,34	49,54	Don	female	15,99	RR	535	200	265	281	78	32	145
25	S.Gomols	36,34	49,54	Don	female	22,79	LRR	504	203	231	248	63	31	117
26	S.Gomols	36,34	49,54	Don	female	15,09	LR	877	338	376	423	139	47	227
27	Eschar	36,35	49,47	Don	male	16,03	RR	686	268	336	361	103	38	197
28	Eschar	36,35	49,47	Don	male	14,91	LR	561	209	273	285	77	37	161
29	Lipci	36,38	50,21	Don	female	16,00	RR	701	270	360	376	106	30	178
30	Lipci	36,38	50,21	Don	male	14,86	LR	668	226	335	328	86	44	175
31	Zhovtneve	36,46	50,08	Don	male	16,08	RR	930	265	462	461	138	31	202
32	Zhovtneve	36,46	50,08	Don	female	21,43	LLR	767	240	349	346	95	44	160
33	Zhovtneve	36,46	50,08	Don	female	21,60	LLR	800	262	389	376	116	49	196
34	Balakleya	36,48	49,27	Don	male	15,92	RR	792	262	340	357	93	32	172
35	Balakleya	36,48	49,27	Don	male	22,85	LRR	721	278	359	359	104	47	196
36	Balakleya	36,48	49,27	Don	female	14,85	LR	641	268	317	323	93	41	173
37	Gatishe	36,52	50,18	Don	female	14,91	LR	569	201	260	281	90	36	156
38	PechRibhoz	36,59	49,52	Don	male	14,72	LR	662	252	321	325	92	43	186
39	Izbickoe	36,73	50,20	Don	female	21,83	LLR	625	221	303	292	83	37	145
40	Kreyd.da	36,80	49,43	Don	male	22,73	LRR	755	268	411	372	106	42	189
41	Kreyd.da	36,80	49,43	Don	male	22,74	LRR	564	192	283	293	77	30	139
42	Kreyd.da	36,80	49,43	Don	male	14,79	LR	650	225	320	319	90	38	164
43	Kreyd.da	36,80	49,43	Don	female	21,61	LLR	557	200	251	257	67	33	143
44	Kreyd.da	36,80	49,43	Don	male	21,62	LLR	528	196	257	246	66	31	127
45	Ch.Gusar	36,86	49,41	Don	female	16,07	RR	542	193	262	282	71	27	129
46	Ch.Gusar	36,86	49,41	Don	male	16,01	RR	521	186	243	267	65	28	124
47	Verbun.d	36,89	49,42	Don	female	22,81	LRR	618	212	288	302	94	32	145
48	Verbun.d	36,89	49,42	Don	female	22,85	LRR	689	248	316	341	104	37	179
49	Verbun.d	36,89	49,42	Don	female	14,91	LR	543	190	266	273	79	33	127
50	Verbun.d	36,89	49,42	Don	female	21,50	LLR	616	230	316	298	91	39	155
51	Verbun.d	36,89	49,42	Don	male	21,61	LLR	528	192	258	262	77	35	128
52	Verbun.d	36,89	49,42	Don	male	21,64	LLR	574	199	263	267	78	38	146
53	Martova	36,96	49,93	Don	female	16,18	RR	825	315	423	443	124	49	240
54	Pecheneg	36,99	49,89	Don	female	16,22	RR	537	189	259	273	72	28	119
55	Ch.Shaht.	37,03	49,18	Don	female	22,03	LLR	479	189	238	246	65	27	118
56	Petropol	37,13	49,09	Don	female	16,01	RR	710	256	339	371	99	34	177
57	Veseloe	37,19	49,40	Don	female	16,11	RR	693	247	341	362	104	32	174

Чтобы понять содержащиеся в файле данные, необходимо сопоставить их со спецификациями переменных.

Рис. 2.2.1. Переменные в файле Pelophylax_example.sta

Первый столбец в этом файле содержит обозначение места сбора, второй и третий — географические координаты этой точки, четвертый — обозначение реки, к водосборному бассейну которой относится место сбора. В пятом столбце приведен пол лягушек, в шестом — масса ДНК, приходящейся на каждую клетку (в пг), в седьмом — установленный по массе ДНК генотип. Столбцы с восьмого по четырнадцатый содержат результаты морфометрии (указаны с точностью до 0,1 мм).

Текстово-числовые соответствия с помощью редактора текстовых меток заданы для столбцов 1, 4, 5 и 7. Кодировки для первого столбца (места сбора) для дальнейшей обработки значения не имеют, а для трех других столбцов следует рассмотреть внимательнее.

Рис. 2.2.2. Коды переменной Basin в файле Pelophylax_example.sta

Поскольку расселение лягушек происходит в основном по водотокам, граница между бассейнами Днепра и Дона, проходящая по изучаемой территории, весьма существенна с точки зрения распространения различных форм лягушек.

Рис. 2.2.3. Коды переменной Sex в файле Pelophylax_example.sta

Поскольку в данном файле приведены данные исключительно о половозрелых лягушках, для всех их можно определить пол. В некоторых случаях приходится выделять ювенильных особей (молодь, пол которых не может быть определен) и субадультусов (полувзрослых особей).

Рис. 2.2.4. Коды переменной Genotip в файле Pelophylax_example.sta

Переменная генотип делит лягушек на 5 изучаемых форм, каждая из которых представлена самками и самцами. Формы LL и RR являются «хорошими» видами, а формы LLR, LR и LRR являются межвидовыми гибридами, которые имеют имя, сравнимое с видовым. Чтобы не вдаваться в сложны терминологические рассуждения о статусе сравниваемых групп лягушек, проще именовать их «формами», трактуя это понятие как обозначение любой группы особей без привязки к их таксономическому статусу.

2.3. Программа Statistica

Итак, программа Statistica, который выпускает фирма StatSoft, предоставляет замечательные возможности для изучения биологической статистики. В настоящее время доступен ряд версий этой программы (на момент написания данного текста последней версией является 13-я). Эта программа распространяется коммерчески и является весьма дорогой; в настоящее время доступны пиратские, «взломанные» версии. Их использование является нарушением буквы закона, и решение об использовании такой версии является делом совести человека, который его принимает. Кроме того, в последнее время появились версии Statictica с лицензиями на использование в учебных целях. Их существование оправдывает подробное описание использование программы Statictica, содержащееся в данном пособии. Важно напомнить, что в данном пособии речь идет об обучении использованию программы Statistica, т.е. это пособие можно рассматривать как рекламу данной программы.

В настоящее время широко распространены как оригинальные, англоязычные версии программы Statistica, так и ее различные локализации (переводы на русский язык). Следует заверить, что непрофессионально переведенным русскоязычными вариантами программы пользоваться сложнее, чем оригинальным, даже для человека, который не знает английского языка. В настоящее время существует 10-я версия программы Statistica, переведенная на русский язык российским представительством производителя, фирмы StatSoft.

Комментарии по инсталляции (установке) программы здесь приводиться не будут: любой установочный пакет программы содержит указания о том, как это следует делать. Следует обратить внимание на важное обстоятельство, касающееся удобства использования установленной программой. Statistica может использоваться не только для исследования, но и в решении серьезных производственных задач (например, для формализованной обработки данных о клиентах в банках). Для таких задач полезной может быть способность программы собрать в единый комплекс результаты разных способов обработки какого-то объекта. Поэтому Statistica способна формировать «рабочие тетради», Workbooks, собирающие в единое целое все результаты действий пользователя.

При исследовании биологического материала часто генерируются графики и таблицы, которые не сохранять не нужно, ведь работа биолога часто носит поисковый характер. В такой ситуации проще выводить результаты работы в виде отдельных окон.

Рис. 2.3.1. Чтобы переключить программу Statistica на режим вывода в отдельных окнах, следует пройти по пути Tools / Options / Output Manager (Сервис / Параметры / Диспетчер вывода) и отметить соответствующий вариант вывода

Сразу после инсталляции программа предложит работать с инструментом для поиска данных (DataMiner) или настроить режим запуска. Самое простое — закрыть стартовое окно и окно DataMiner и перейти к работе с таблицами данных.

Рис. 2.3.2. Начало работы с программой Statistica. Для нашей работы нужно окно с таблицей данных, другие окна можно закрыть

2.4. Структура таблицы данных Statistica

Таблица данных в программе Statistica организованна весьма жестким образом: она состоит из строк, которым присвоено название наблюдения (Cases) и столбцам, которые названы переменными (Variables). Строки и столбцы можно добавлять (Add...), перемещать (Move...), копировать (Copy...) и удалять (Delete...).

Рис. 2.4.1. Для работы с переменными и наблюдениями служат соответствующие пункты меню (в данном случае выделено меню для управления наборами переменных Variables, "Vars").

При редактировании данных они вводятся в ячейки таблицы. Однократный щелчок мышью на ячейке выделит ее, двойной (или нажатие клавиши F2 при выделенной ячейке) переведет в режим ее редактирования. Рамочка вокруг выделенной ячейки станет тоньше, и внутри нее появится курсор. Теперь в ячейку можно вводить данные.

Рис. 2.4.2. Ячейка на рисунке слева выделена (выделить можно одну или большее количество ячеек). Ячейка справа находится в режиме редактирования, можно изменить ее содержание (например, добавить в нее данные)

Нажав на левую клавишу мыши и проведя курсором над таблицей данных можно выделить блок — прямоугольную область из ячеек.

Над заголовками столбцов находится поле, в которое можно записать название таблицы — заголовок таблицы.

Рис. 2.4.3. Вставить в заголовок таблицы какие-то пояснения того, что она из себя представляет, бывает довольно полезно

Самый первый столбец таблицы содержит имена наблюдений. Двойной щелчок по имени включает режим его редактирования. Не менее важный способ управления именами состоит в использовании диспетчера имен наблюдений.

Рис. 2.4.4. Редактирование имен наблюдений

Забегая вперед, можно сказать, что в графических результатах многих статистических анализов целесообразно подписывать имена наблюдений, соответствующих отдельным объектам. Поэтому надо постараться сделать так, чтобы эти имена были достаточно короткими и достаточно выразительными.

Рис. 2.4.5. Чтобы вызвать диспетчер имен наблюдений, необходимо щелкнуть правой кнопкой мыши на каком-то имени наблюдения и пройти по пути Case Name Management / Case Names Manager. С помощью этого диспетчера можно переместить в имена содержимое какой-то переменной, или наоборот, создать переменную, которая будет содержать имена наблюдений. Для того, чтобы вызвать список переменных, нужно дважды щелкнуть мышью в окошке Variable

Кроме прочего, с помощью диспетчера имен наблюдений можно менять ширину окна, в котором размещаются заголовки.

Для удобства работы с таблицей данных желательно настроить ширину столбцов так, чтобы в них полностью помещались заголовки столбцов и введенные в ячейки значения, но при этом они не были слишком широкими. Это можно сделать вручную, перемещая границы между столбцами (между их заголовками), а можно и выполнить автоматически.

Рис. 2.4.6. Двойной щелчок мышью на границе между заголовками столбцов приводит к автоматической настройке их ширины. В первом случае измениться ширина только одного столбца (по правому краю которого производится щелчок), а во втором – всех выделенных столбцов, то есть всей таблицы

В ряде случаев бывает необходимо перестроить таблицу данных, сделав ее строки столбцами, а столбцы — строками (эта операция называется транспонированием). Это делается при помощи команды Data / Transpose (Данные / Транспонировать). У этой команды есть два варианта — транспонировать выделенный блок (он обязательно должен иметь одинаковое количество строк и столбцов) и транспонировать весь файл (количество столбцов и строк в нем может отличаться).

2.5. Действия с выделенными ячейками в Statictica

Данные в выделенных ячейках можно перемещать, а заданные в соседних ячейках арифметические прогрессии — продлевать.

Рис. 2.5.1. Группа ячеек выделена; курсор находится на других ячейках и имеет вид «пустотелого» плюса

При выполнении этих операций следует обращать внимание на изменение формы курсора.

Рис. 2.5.2. Курсор находится на краю выделенного блока; выполнив в этом положении двойной щелчок и «потянув» мышью, блок данных можно переместить на требуемое место

Рис. 2.5.3. Курсор находится в правом нижнем углу выделенного блока; выполнив в этом положении двойной щелчок и «потянув» мышью, можно продолжить арифметическую прогрессию, заданную в блоке, на соседние ячейки

Если при «растягивании» арифметической прогрессии область, которая должна быть заполнена создаваемым рядом, выйдет за пределы таблицы, программа спросит, расширить таблицу до требуемого объема или ограничить прогрессию имеющимися ячейками.

Рис. 2.5.4. «Растягивание» арифметической прогрессии на несколько ячеек

Наконец, следует отметить, что при нажатой клавише Ctrl можно выделить несколько групп ячеек, не обязательно формирующих прямоугольный блок.

Рис. 2.5.5. Чтобы выделить ячейки таким образом, необходимо удерживать нажатой клавишу Ctrl

С выделенным блоком можно производить разнообразные действия, в частности, удалять содержимое ячеек или производить в них контекстную замену.

Рис. 2.5.6. Чтобы осуществить контекстную замену, необходимо пройти по пути Edit / Replace (Правка / Замена), нажать Ctrl+H или нажать на соответствующую кнопку на «приборной панели» (на рисунке эта кнопка "нажата", она расположена недалеко от правого верхнего угла рисунка)

Контекстная замена является эффективным методом для работы с большими файлами данных, позволяя избежать многократного повторения рутинных действий.

Рис. 2.5.7. Результат контекстной замены, показанной на предыдущем рисунке

2.6. Работа со строками и столбцами в Statictica

Основные инструменты для работы со строками и столбцами таблицы данных находятся в пунктах меню, предусмотренных по умолчанию, «Переменные» и «Наблюдения». Те же функции, которые находятся в этих меню, доступны через опцию «Данные» в основном меню программы.

Рис. 2.6.1. Управление столбцами и строками доступно через меню Data (Данные) или через специальные меню Vars (Переменные) и Cases (Наблюдения)

По мере заполнения таблицы в программе Statistica данными часто возникает необходимость в добавлении столбцов и строк.

Рис. 2.6.2. При добавлении переменных программа Statistica по умолчанию предлагает вставить их перед тем столбцом, в котором находится выделенная ячейка

При добавлении столбцов можно указать их количество, место (после какого столбца они добавляются, шаблон названия (по умолчанию — NewVar) и некоторые другие параметры, подробнее рассмотренные позже. При перемещении столбцов также можно указать с какого столбца начинается перемещаемая группа, каким заканчивается и в какое место эта группа столбцов должна быть перемещена.

Аналогично происходит добавление строк (наблюдений).

Рис. 2.6.3. При добавлении строк их также по умолчанию предлагается вставлять перед той строкой, в которой находится выделенная ячейка

2.7. Спецификации переменных в Statictica

В таблице данных программы Statistica над каждым столбцом находится его заготовок. Заголовки пронумерованы порядковыми номерами и по умолчанию называются Var 1, Var 2 и т.д. Чтобы изменить свойства столбца, нужно дважды щелкнуть на его заголовке.

Рис. 2.7.1. Дважды щелкнув на заголовке столбца можно перейти в режим спецификации — редактирования свойств переменной. Здесь можно задать ее название, тип данных, шрифт, количество отображаемых десятичных знаков (для числового режима), формулу для ее пересчета а также некоторые другие свойства

От одной спецификации легко переходить к соседним, используя кнопки со стрелками, расположенные в верхней правой части диалогового окна (под кнопкой «Отмена»). Чтобы увидеть весь список переменных и редактировать любую из них, следует выбрать режим Vars / All Specs... (Переменные / Все спецификации...). Из окна спецификаций одной переменной к редактору можно перейти с помощью кнопки All Specs... (Все спецификации…).

В данном пособии мы не будем подробно рассматривать типы переменных, допустимые в программе Statistica. По умолчанию используется двойной тип переменных, позволяющий записывать в них как текстовые, так и числовые данные (об этом будет подробнее рассказано позже). Кроме того, программа предоставляет возможность для выбора формата данных. При указании числового формата становится активным окно, в котором можно указать, до какого количества десятичных данных следует округлять данные, показываемые на экране. Не нужно бояться округлять данные: программа Statistica все равно хранит и использует в вычислениях их в их полном объеме, с высокой точностью, но для зрительного восприятия данных проще предоставлять их в округленном виде.

Рис. 2.7.2. Открывание редактора спецификаций переменных

В первую очередь студентам следует освоить работу с названиями переменных и формулами для их вычисления.

Рис. 2.7.3. Редактор спецификаций переменных

2.8. Числовая и текстовая формы данных в Statictica

Данные, введенные в ячейки таблицы данных, могут иметь как числовой, так и текстовый вид. В режиме, при котором десятичным разделителем является запятая, выражение «1,1» будет интерпретировано как число (одна целая и одна десятая), а «1.1» — как текст.

Данные в программе Statistica могут иметь разный тип. В том, который данные имеют по умолчанию, двойном типе данных, всем текстовым значениям, введенным в данный столбец, придается в соответствие определенное число. Перейти из режима отображения текстовых данных в режим отображения числовых можно, поставив или сняв галочку напротив пункта Display Text Lables (Показать текстовые метки) в меню View (Вид).

Рис. 2.8.1. В статистике можно переходить от текстового отображения данных к числовому и обратно: View / Display Text Lables (Вид / Показать текстовые метки). На этих рисунках разница в отображении видна для переменной «Группа»

Соответствие между текстовыми и числовыми значениями задается в редакторе текстовых меток (Text Lables...), который для каждого конкретного столбца можно вызвать, пройдя по пути Vars / Text Lables... (Переменные / Текстовые метки) или вызвать из окна спецификаций переменной, как это показано на рисунке.

Рис. 2.8.2. Двойной щелчок на заголовке первой переменной (т.е. на надписи "1 Группа") вызвал окно спецификаций переменной. В этом окне есть кнопка для входа в редактор текстовых меток для этой переменной – Text Lables...

По умолчанию новое значение, введенное в определенный столбец, получает числовое значение 101, следующее — 102 и так далее. Эти соответствия могут быть изменены; при этом Statistica «переспросит», следует ли перекодировать имеющиеся данные в новые кодировки. Так, в показанном на рисунке примере текстово-численные соответствия установлены для переменной «Группа». Такие соответствия облегчают набор данных: в соответствующей ячейке не нужно словами писать «первая», и достаточно просто поставить единичку.

Рис. 2.8.3. Редактор текстовых меток позволяет задать соответствия между текстовыми и числовыми данными. Обратите внимание на кнопки со стрелочками: с их помощью можно переходить в режим редактирования текстовых меток соседних переменных

Иногда в процессе набора данных в ячейки попадают какие-то неверные текстовые фрагменты. Даже если они оказываются удалены из файла данных, они вместе со своими численными соответствиями остаются в редакторе текстовых меток, накапливаясь там как нежелательный «мусор». Такие неиспользуемые данные следует удалять (выделить и нажать кнопку «Delete Row»).

В процессе использования программы можно столкнуться с проблемами неадекватного отображения кириллических шрифтов. Одним из универсальных советов является рекомендация использовать латиницу (например, все названия и обозначения писать на английском языке). Если все-таки использовать русский язык, могут возникать проблемы с его отображением.

Рис. 2.8.4. Пример неправильного отображения кириллических символов (т.н. "козявушки")

Такие проблемы можно исправить, подобрав правильно отображающийся шрифт.

Рис. 2.8.5. С этим шрифтом русские надписи отображаются, как надо

2.9. Формулы для пересчета данных в Statictica

В нижней части окна спецификаций переменной (или в правой части редактора спецификаций переменных) можно задать формулы, по которым происходит пересчет данных. Формула начинается со знака «=», который показывает, что данную переменную необходимо пересчитать. В формула используются арифметические знаки (+, -, *, /), знак возведения в степень (** или ^), скобки, а также сокращенные обозначения различных функций. Подсказки по синтаксису этих обозначений появляются во всплывающих окнах (хинтах).

Рис. 2.9.1. Если в окошке Function guide (Просмотр функций) стоит галочка, программа Statistica будет предлагать подсказки по мере набора формул в окне спецификаций переменной

В формулах можно использовать обозначения других переменных. Их можно обозначать или указывая их имена, или обозначая их по номерам после буквы «v» (сокращения от «variable»), например, v1 или v 15.

В формулах можно приводить логические условия. Это выражения, которые заключаются в скобки и содержат внутри символ «=» или знаки «>» больше, «<» меньше, «>=» больше или равно, «<=» меньше или равно. Например, переменная, в окне для формул которой введено =( v1=10) примет значение 1, если переменная 1 равна 10 (верное логическое условие считается равным единице) или 0, если переменная 1 не равна 10 (неверное логическое условие считается равным нолю).

Выражение, которое придаст переменной значение 1 в том случае, если переменная Number меньше 10 и 2, если переменная Number больше или равна 10, может выглядеть так: =(Number<10)+(Number>=10)*2. Как можно убедиться, эта формула содержит два логических условия. Если переменная Number меньше 10, первое слагаемое равно 1, а второе равно 0; если соответствующая переменная больше или равна 10, первое слагаемое равно 0, а второе равно 2.

При указании формул для переменных полезно сопровождать их комментариями, которые облегчат понимание того, для чего эти формулы нужны.

В том случае, если формула написана в соответствии с правилами и ссылается на переменные, которые имеются в файле, при закрытии окна спецификации переменных Statistica предложит пересчитать переменную. Подсчет будет произведен только для тех строк, в которых используемые формулой ячейки содержат какие-то данные.

Пересчитать переменные в любой необходимый момент можно при помощи команды Vars / Recalculate Spreadsheet Formulas... (Переменные / Пересчитать), клавиатурного сочетания Shift+F9 или при нажатии на соответствующую кнопку.

Рис. 2.9.2. Окно пересчета данных. Курсор показывает на кнопку, которая его вызывает (слева вверху, «нажата»). Обратите внимание на опцию Auto-recalculate when the data change (Автопересчет при изменении данных)

В некоторых случаях бывает удобно включить режим автопересчета при изменении данных. В этом случае, стоит лишь изменить какое-то содержимое одной из ячеек, все остальные значения, использующие то, которое было изменено, будут автоматически пересчитаны. Впрочем, этот режим удобен не всегда. Например, при его использовании режим «отката» (возврата последнего изменения), который вызывается командами Edit / Undo... (Правка / Отменить), Ctrl+Z или нажатием на соответствующую кнопку, отменяет не те изменения, которые были сделаны пользователем, а результаты пересчета.

При работе с формулами следует учитывать, что ячейки, которые не содержат никаких данных, на самом деле содержат определенное число – код пропущенных данных. По умолчанию это число равно -9999, но его можно изменить в окне спецификаций переменной или редакторе спецификаций переменных. Большинство используемых в формулах функций «работают» только с ячейками, куда введены какие-то иные данные, чем код пропущенных данных. В те ячейки, содержимое которых пересчитывается по формулам, ссылающимся на пропущенные данные, тоже вставляется код пропущенных данных. Для формул, работающих со столбцами, где есть пропущенные данные, может быть полезно использовать логические условия наподобие IsMD(v1), которое принимает значение 1 если в данной строке соответствующей переменной нет данных (точнее, находится код пропущенных данных), и значение 0 — когда данные в соответствующей ячейке есть.

Рис. 2.9.3. Для переменной «Итог» введена формула, вычисляющая сумму переменных «Признак_1» и «Признак_2» для объектов (строк) из первой группы и произведение этих признаков для объектов из второй группы. Чтобы формула работала, необходимо, чтобы первой группе в редакторе текстовых меток соответствовал код 1, а второй – 2. Приведенный пример не очень удачен, так как в нем используются русские имена для переменных

В том случае, если с файлом проводится достаточно длительная работа, обозначать переменные по их номерам (к примеру, как v 15) нецелесообразно. Добавление, удаление или перемещение переменных (напомним, что их общий список доступен из меню All Specs) приведет к изменению их нумерации и собьет работу использующих их формул. В формулах лучше указывать имена переменных. Из этого следуют пожелания по тому, как следует называть переменные. В их названиях нежелательны пробелы и арифметические знаки. Если в имени переменной очень хочется использовать пробел, его лучше заменить нижним подчеркиванием (_). Если все-таки эти правила нарушаются, имя переменной в формуле можно взять в одинарные кавычки, но это является дополнительным усложнением формулы, повышающим шансы запутаться при ее написании, а особенно — при поиске ошибок в формуле, которая работает не так, как хочется.

Статистичний оракул

БиоСтатистика — 02. Тема 2. Программа Statistica