Statistical Oracle — 04. Візуалізація даних у Statistica






       

Д. Шабанов, М. Кравченко. «Статистичний оракул»: аналіз даних в зоології та екології

Тема 3. Використання мови R

Тема 4. Візуалізація даних у Statistica

Тема 5. Візуалізація даних у R

«Статистичний оракул»-03

«Статистичний оракул»-04

«Статистичний оракул»-05

 

Тема 4. Візуалізація даних у Statistica

4.1. Гістограми в Statictica: приклад побудови графіків

Начинать изучение разнообразия представленных в таблице данных проще, используя самые простой тип графиков: гистограммы. Они вызываются из меню Grafs (Графика), и находятся там как в самом верху выпадающего списка, так и вызываются из более «глубоких» меню. 

Рис. 4.1.1. Вызвать режим построения гистограмм можно и напрямую из меню «Графика», и из подменю двухмерных графиков, предоставляющего более широкий выбор опций     

Гистограммы показывают частоты объектов, относящихся к разным классам, в виде столбцов. Например, существенным признаком, по которому можно группировать описанных в файле лягушек, является их генотип. Построим распределение лягушек по генотипам.

Пройдя по пути Grafs / Histograms... (Графика / Гистограммы…) или, что то же самое, Grafs / 2D Grafs / Histograms..., мы попадаем в «быстрый» диалог построения гистограмм.

Рис. 4.1.2. Быстрый диалог построения гистограмм     

Щелкнув по кнопке Variables (Переменные), выберем там переменную Genotyp. В этой вкладке можно выбрать и несколько переменных (и, в простейшем случае, построить одновременно несколько графиков). Чтобы выбрать переменные, находящиеся не рядом друг с другом, следует во время выбора удерживать нажатой клавишу Ctrl. Флажок возле окошка Fit type: Normal (Тип подгонки: Нормальное) вызовет накладку на график кривой нормального распределения. В данном случае это совсем не нужно, так что этот флажок стоит снять. Также правильно снять флажок в окошке Auto, обеспечивающий автоматическое разбиение диапазона значений переменной Genotyp (хотя в данном случае это не повлияет на результат: все равно эта переменная принимает только значения 1, 2, 3, 4 и 5).

Рис. 4.1.3. Быстрый диалог построения гистограмм: необходимые коррективы внесены

Вкладка Advanced (Дополнительно) предоставляет более широкие возможности для управления свойствами гистограммы. 

Рис. 4.1.4. Вкладка «Дополнительно» в диалоге построения гистограмм     

Поменяем в ней режим отображения оси Y: укажем там опцию «% & N», чтобы видеть там распределение лягушек по генотипам не только по штукам, но и в процентах от общего количества. Нажав кнопку «ОК», получим результат.

Рис. 4.1.5. Распределение лягушек из файла Pelophylax_example.sta по генотипам     

Второй важнейшей характеристикой исследуемого материала является пол. Можем ли мы построить соответствующий график только для самок? Для этого надо нажать кнопку Select Cases (Sel Cond). На рис. 4.1.4 она видна в середине правого ряда кнопок.

Рис. 4.1.6. Диалог Select Cases (Выбор наблюдений)     

Сразу после вызова этого окна подавляющая часть его выборов закрыта для редактирования; чтобы их включить, надо поставить галочку в окошке Enable Selection Condition (Задать условия выбора). Если при выполнении какого анализа пользователь не обратит внимание на то, что кнопка «Select Cases» утоплена, он не осознает, что он работает не со всей совокупностью своих данных, а лишь с некоторой их частью.

На следующем рисунке показано окно выбора метода статистической обработки данных в режиме Basic Statistic and Tables; можно предположить, что после построения графиков пользователь перешел к собственно статистической обработке. Если он не обратит внимания на то, что кнопка «Select Cases» нажата, может получиться так, что часть имеющихся в файле результатов окажется для него недоступной.

Рис. 4.1.7. Внимание! Кнопка «Select Cases» нажата! Если это условия выбора, которые остались невыключенными после предыдущих действий с программой Statistica, часть данных может оказаться недоступной для обработки!     

Условия выбора наблюдения можно задать несколькими разными способами. Можно ввести условия включения наблюдений в анализ (те строки, в отношении которых это условие будет выполняться, будут анализироваться, а все прочие — нет). Можно, наоборот, ввести условия исключения наблюдений из анализа. Наконец, как включаемые, так и исключаемые наблюдения могут быть заданы простым перечислением. При формулировании условий можно использовать имена переменных, а можно — их порядковые номера, допустимо применение функций and и or (и, или), а также скобок. Например, условию «Basin=2 and v5=1 and (v7=3 or v7=4)» в файле Pelophylax_example.sta соответствует одна-единственная особь.

Итак, указав условие Sex=1, мы построим гистограмму только для самок. Кроме того, добавим галочку в окошке Breaks between columns (Интервал между столбцами) на вкладке Advanced (Дополнительно), чтобы широкие и низкие столбцы не сливались друг с другом.

Рис. 4.1.8. На этой гистограмме показаны только самки лягушек     

Чтобы увидеть распределение самцов, можно построить еще одну гистограмму, но можно и объединить данные о самках и самцах на одном графике. Для этого необходимо использовать категоризованные гистограммы — Categorized Histograms из меню Categorized Grafs.

Рис. 4.1.9. Categorized Grafs (Категоризованные графики) являются отдельной группой в меню Grafs (Графика)     

При выборе переменных в категоризованных гистограммах нужно выбрать не только переменную, разнообразие по которой будет показано столбцами, но и категоризующую переменную. 

Рис. 4.1.10. Задавание параметров для категоризованных гистограмм. Обратите внимание на переключатель Layout: Separate или Overlaid (Размещение: Отдельно или Вместе)      

При выборе размещения Overlaid (Вместе) отличия по категоризующей переменной показываются на категоризованных графиках оформлением соответствующих символов. Можно выбирать две переменные для категоризации, однако в большинстве случаев такие графики оказываются перегружены деталями и интерпретируются с трудом.

Рис. 4.1.11. Категоризованная гистограмма: самцы и самки показаны отдельными столбцами, которые выделены цветом      

4.2. Редагування графіка в Statictica

Полученная в предыдущем пункте категоризованная гистограмма позволяет быстро оценить объем выборки. Однако этот график имеет ряд существенных недостатков.

К примеру, в коллективном бессознательном синий цвет ассоциируется с мужским полом, а красный или розовый — с женским (отсюда синие одеяла для младенцев-мальчиков и красные — для девочек, а также жаргонные обозначения «голубые» и «розовые» для сексуальных меньшинств). На предыдущем графике самки показаны синим, а самцы — красным. Этот непорядок должен быть исправлен. 

Рис. 4.2.1. Щелчок правой клавишей мыши на поле рядом с графиком вызывает контекстное меню, одна из опций которого, Graph Properties (All Options)... (Параметры графика...), позволяет менять его свойства в широких пределах      

Цвета элементов графика, как и многие другие его свойства можно изменять при помощи редактора свойств графика. Чтобы его вызвать, нужно щелкнуть правой клавишей мыши по полю графика (за пределами собственно рисунка) и выбрать Graph Properties (All Options)...

Рис. 4.2.2. В окне All Options на вкладке Plot: Bars следует нажать на кнопке Multiple areas. Появится список стилей столбцов. Щелчок по любому из них позволит менять его характер заливки и цвет.  На рисунке показан этап, на котором первый столбец уже сделан красным, а для второго цвет заменяется на синий...      

В этом режиме доступно множество вкладок. В нашем случае нам надо изменять свойства столбцов графика. В соответствующем диалоге можно изменять цвет основного узора, фона и характер рисунка. В том случае, если с помощью обсуждаемой программы надо получить график, который будет использоваться при печати черно-белой иллюстрации, следует убрать все разнообразие цветов и передавать особенности разных элементов лишь с помощью различной штриховки, формы, фактуры линий и т.д.

В разных версиях программы Statistica расположение кнопок на вкладке All Options оказывается разным. Тем, кто только осваивает работу с программой, можно предложить поэкспериментировать с разными кнопками и режимами, чтобы узнать, какие функции находятся в распоряжении пользователя.

Графики Statistica имеют собственный формат и расширение «.stg». Большинство других программ прочитать этот формат не может. Но большинство программ для Windows может работать с форматом «.wmf» (Windows metafile). Сохранив график вначале в формате «.stg» (чтбы к нему можно было вернуться в любой момент и редактировать его средствами Statistica), а потом во формате «.wmf», можно поместить его в текст Microsoft Word или других текстовых редакторов, а также CorelDraw! и иных программ для работы с векторной графикой. Конечно, в большинстве программ Windows существует возможность и простого перенесения графиков и фрагментов таблиц Statistica через буфер обмена.

При сохранении в формат «.wmf» каждый отдельный элемент рисунка сохраняется по отдельности. Пунктирные линии, которые на графиках показывают уровни, отмеченные разметкой шкалы, превращаются в совокупность из множества точек или отрезков, которые могут обрабатываться соответствующими программами (например, CorelDraw!) очень долго. Поэтому иногда имеет смысл преобразовывать пунктирные линии в непрерывные. Для этого достаточно сделать двойной щелчок мышью на такой линии, дважды щелкнуть на кнопке Gridlines... (Сетка…) и задать требуемые параметры линий.

Рис. 4.2.3. После двойного щелчка на кнопке Gridlines... (Сетка…) стали доступны параметры линий, которые по умолчанию отображаются курсивом      

Хотя в случае рассматриваемого графика острой необходимости в таком изменении нет, можно изменить диапазон отображаемой шкалы и расстояние между линиями разметки. Для изменения промежутка между рисками можно использовать вкладки Scaling (Разметка) или Major Units (Большие риски). Чтобы редактировать промежутки между линиями разметки, надо в окне Mode (Режим) выбрать опцию Manual (Ручной)). Предположим, мы выберем здесь шаг в 3 единицы.

Рис. 4.2.4. Переключив режим с «Авто» на «Ручной» в этом окне можно задать значения для начала и конца отображаемой на графике шкалы     

На вкладке в ручном режиме установим минимум шкалы на 0, а максимум — на 9. В окне Edit step... можно тоже перейти в ручной режим и выставить расстояние между линиями в 3 единицы.

Двойной щелчок на обозначении оси, заголовке графика или легенде (расшифровке обозначений) вызывает режим редактирования этих элементов. Здесь можно дать графику более адекватное название. Двойной щелчок на названии оси позволяет изменить и его.

Рис. 4.2.5. Для того, чтобы график хорошо воспринимался, важно понятно и корректно подписать оси координат     
Рис. 4.2.6. Редактирование «легенды» (списка условных обозначений графика)     
Рис. 4.2.7. Результат переделок графика, ход которых показан на предыдущих иллюстрациях     

 

4.3. Діаграми розсіювання і лінії регресії в Statictica

Едва ли не самый мощный способ построения графиков в Statistica — диаграммы рассеяния (Scatterplots). Вызвать диалог для их построения очень просто: Graphs / Scatterplots или Graphs / 2D Graphs / Scatterplots. Целый ряд приемов работы с такими графиками уже обсужден в ходе обсуждения работы с гистограммами.

Начнем с простого: построим график завиcимости ширины головы лягушек от их длины тела. Для этого на оси X надо отразить значения признака L, а на оси Y — признака Ltc. 

Рис. 4.3.1. Построение графика зависимости ширины головы от длины тела

Обратите внимание: в заголовке графика будет указано уравнение регресии, описывающее использованный набор точек.

Рис. 4.3.2. График, построенный в соответствии с условиями, показанными на предыдущем рисунке

Термин "регрессия" введен Френсисом Гальтоном, создателем биометрии, еще в конце XIX века. Функциональная зависимость описывает однозначную связь одной величины с другой; к примеру, вес шара заданной плотности является функцией его размера. Регрессия описывает статистическую зависимость. Вес человека зависит от его роста, но кроме того зависит и от многих других факторов. Зависимость роста человека от веса — не функция, а регрессия. Регрессия — это зависимость среднего значения некой величины от другой (или других).

При построении диаграммы рассеяния рассматривается некая совокупность точек. Пользователь задает характер функции, описывающей связь средних значений рассматриваемых величин. Обратите внимание: на рис. 4.3.1. видно, что в окошке Fit type: Linear (в правой части диалогового окна) стоит "галочка". При построении диаграммы с такими условиями, программа определяет такие коэффициенты линейной зависимости, которые позволяют наилучшим образом аппроксимировать имеющийся набор данных. Аппроксимация — это приближение; аппроксимировать — приблизительно описать; заменить неизвестную нам зависимость ее наиболее подходящим приближением.

Как вы можете увидеть на рис. 4.3.2, на графике отражена зависимость Ltc = 30,6 + 0,3*L (оси x соответствует переменная L). Эта функция соответствует линейной зависимости: y = a + b*x. На вкладке Advanced можно выбрать другие функции для аппроксимации зависимости, отраженной во взаиморасположении точек на графике.

Рис. 4.3.3. Некоторые возможности вкладки Advanced диалога построения диаграмм рассеяния

Обратите внимание на возможности вкладки Advanced, отраженные на рис. 4.3.3. Функция подгонки (Fit), выбранная для аппроксимации зависимости между переменными по имеющемуся набору точек — экспоненциальная (Exponential), y = a*ex, где e — основание натуральных логарифмов. В окне Statistics поставлена галочка напротив опции Corr. and p (linear fit) — коэффициент корреляции и его уровень статистической значимости (для линейной зависимости). В окне Mark Selected Subsets указаны особые обозначения для самок (Sex=1) и самцов (Sex=2).

Рис. 4.3.4. График, построенный в соответствии с условиями, показанными на предыдущем рисунке

Как видите, во врезке в углу графика появились данные о коэффициенте корреляции Пирсона (r) и уровне его статистической значимости (p).

Сравните результат на рис. 4.3.4. со следующим, построенным с использованием категоризированной диаграммы рассеяния (Graphs / Categorized Graphs / Scatterplots), в режиме Overlaid. 

Рис. 4.3.5. Категоризованная диаграмма рассеяния: две линии аппроксимации вместо одной

Как вы можете убедиться, разница состоит в том, что в режиме Mark Selected Subsets все вычисления (и линии регрессии, и корреляции) проводятся для совокупности в целом, и два пола лишь маркируются разными символами, а в категоризированной диаграмме все вычисления проводятся для обоих полов по отдельности.