БиоСтатистика — 04. Тема 3 (продолжение). Работа с графиками






       

Д.А. Шабанов, М.А.Кравченко. Статистический анализ данных в зоологии и экологии

Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)

Тема 3 (продолжение). Работа с графиками

Тема 4. Сравнение выборок

Биостатистика-03

Биостатистика-04

Биостатистика-05

 

3.2. Редактирование графика в Statictica

Полученная в предыдущем пункте категоризованная гистограмма позволяет быстро оценить объем выборки. Однако этот график имеет ряд существенных недостатков.

К примеру, в коллективном бессознательном синий цвет ассоциируется с мужским полом, а красный или розовый — с женским (отсюда синие одеяла для младенцев-мальчиков и красные — для девочек, а также жаргонные обозначения «голубые» и «розовые» для сексуальных меньшинств). На предыдущем графике самки показаны синим, а самцы — красным. Этот непорядок должен быть исправлен. 

Рис. 3.2.1. Щелчок правой клавишей мыши на поле рядом с графиком вызывает контекстное меню, одна из опций которого, Graph Properties (All Options)... (Параметры графика...), позволяет менять его свойства в широких пределах      

Цвета элементов графика, как и многие другие его свойства можно изменять при помощи редактора свойств графика. Чтобы его вызвать, нужно щелкнуть правой клавишей мыши по полю графика (за пределами собственно рисунка) и выбрать Graph Properties (All Options)...

Рис. 3.2.2. В окне All Options на вкладке Plot: Bars следует нажать на кнопке Multiple areas. Появится список стилей столбцов. Щелчок по любому из них позволит менять его характер заливки и цвет.  На рисунке показан этап, на котором первый столбец уже сделан красным, а для второго цвет заменяется на синий...      

В этом режиме доступно множество вкладок. В нашем случае нам надо изменять свойства столбцов графика. В соответствующем диалоге можно изменять цвет основного узора, фона и характер рисунка. В том случае, если с помощью обсуждаемой программы надо получить график, который будет использоваться при печати черно-белой иллюстрации, следует убрать все разнообразие цветов и передавать особенности разных элементов лишь с помощью различной штриховки, формы, фактуры линий и т.д.

В разных версиях программы Statistica расположение кнопок на вкладке All Options оказывается разным. Тем, кто только осваивает работу с программой, можно предложить поэкспериментировать с разными кнопками и режимами, чтобы узнать, какие функции находятся в распоряжении пользователя.

Графики Statistica имеют собственный формат и расширение «.stg». Большинство других программ прочитать этот формат не может. Но большинство программ для Windows может работать с форматом «.wmf» (Windows metafile). Сохранив график вначале в формате «.stg» (чтбы к нему можно было вернуться в любой момент и редактировать его средствами Statistica), а потом во формате «.wmf», можно поместить его в текст Microsoft Word или других текстовых редакторов, а также CorelDraw! и иных программ для работы с векторной графикой. Конечно, в большинстве программ Windows существует возможность и простого перенесения графиков и фрагментов таблиц Statistica через буфер обмена.

При сохранении в формат «.wmf» каждый отдельный элемент рисунка сохраняется по отдельности. Пунктирные линии, которые на графиках показывают уровни, отмеченные разметкой шкалы, превращаются в совокупность из множества точек или отрезков, которые могут обрабатываться соответствующими программами (например, CorelDraw!) очень долго. Поэтому иногда имеет смысл преобразовывать пунктирные линии в непрерывные. Для этого достаточно сделать двойной щелчок мышью на такой линии, дважды щелкнуть на кнопке Gridlines... (Сетка…) и задать требуемые параметры линий.

Рис. 3.2.3. После двойного щелчка на кнопке Gridlines... (Сетка…) стали доступны параметры линий, которые по умолчанию отображаются курсивом      

Хотя в случае рассматриваемого графика острой необходимости в таком изменении нет, можно изменить диапазон отображаемой шкалы и расстояние между линиями разметки. Для изменения промежутка между рисками можно использовать вкладки Scaling (Разметка) или Major Units (Большие риски). Чтобы редактировать промежутки между линиями разметки, надо в окне Mode (Режим) выбрать опцию Manual (Ручной)). Предположим, мы выберем здесь шаг в 3 единицы.

Рис. 3.2.4. Переключив режим с «Авто» на «Ручной» в этом окне можно задать значения для начала и конца отображаемой на графике шкалы     

На вкладке в ручном режиме установим минимум шкалы на 0, а максимум — на 9. В окне Edit step... можно тоже перейти в ручной режим и выставить расстояние между линиями в 3 единицы.

Двойной щелчок на обозначении оси, заголовке графика или легенде (расшифровке обозначений) вызывает режим редактирования этих элементов. Здесь можно дать графику более адекватное название. Двойной щелчок на названии оси позволяет изменить и его.

Рис. 3.2.5. Для того, чтобы график хорошо воспринимался, важно понятно и корректно подписать оси координат     
Рис. 3.2.6. Редактирование «легенды» (списка условных обозначений графика)     
Рис. 3.2.7. Результат переделок графика, ход которых показан на предыдущих иллюстрациях     

 

3.3. Диаграммы рассеяния и линии регрессии в Statictica

Едва ли не самый мощный способ построения графиков в Statistica — диаграммы рассеяния (Scatterplots). Вызвать диалог для их построения очень просто: Graphs / Scatterplots или Graphs / 2D Graphs / Scatterplots. Целый ряд приемов работы с такими графиками уже обсужден в ходе обсуждения работы с гистограммами.

Начнем с простого: построим график завиcимости ширины головы лягушек от их длины тела. Для этого на оси X надо отразить значения признака L, а на оси Y — признака Ltc. 

Рис. 3.3.1. Построение графика зависимости ширины головы от длины тела

Обратите внимание: в заголовке графика будет указано уравнение регресии, описывающее использованный набор точек.

Рис. 3.3.2. График, построенный в соответствии с условиями, показанными на предыдущем рисунке

Термин "регрессия" введен Френсисом Гальтоном, создателем биометрии, еще в конце XIX века. Функциональная зависимость описывает однозначную связь одной величины с другой; к примеру, вес шара заданной плотности является функцией его размера. Регрессия описывает статистическую зависимость. Вес человека зависит от его роста, но кроме того зависит и от многих других факторов. Зависимость роста человека от веса — не функция, а регрессия. Регрессия — это зависимость среднего значения некой величины от другой (или других).

При построении диаграммы рассеяния рассматривается некая совокупность точек. Пользователь задает характер функции, описывающей связь средних значений рассматриваемых величин. Обратите внимание: на рис. 3.4.1. видно, что в окошке Fit type: Linear (в правой части диалогового окна) стоит "галочка". При построении диаграммы с такими условиями, программа определяет такие коэффициенты линейной зависимости, которые позволяют наилучшим образом аппроксимировать имеющийся набор данных. Аппроксимация — это приближение; аппроксимировать — приблизительно описать; заменить неизвестную нам зависимость ее наиболее подходящим приближением.

Как вы можете увидеть на рис. 3.4.2, на графике отражена зависимость Ltc = 30,6 + 0,3*L (оси x соответствует переменная L). Эта функция соответствует линейной зависимости: y = a + b*x. На вкладке Advanced можно выбрать другие функции для аппроксимации зависимости, отраженной во взаиморасположении точек на графике.

Рис. 3.3.3. Некоторые возможности вкладки Advanced диалога построения диаграмм рассеяния

Обратите внимание на возможности вкладки Advanced, отраженные на рис. 3.4.3. Функция подгонки (Fit), выбранная для аппроксимации зависимости между переменными по имеющемуся набору точек — экспоненциальная (Exponential), y = a*ex, где e — основание натуральных логарифмов. В окне Statistics поставлена галочка напротив опции Corr. and p (linear fit) — коэффициент корреляции и его уровень статистической значимости (для линейной зависимости). В окне Mark Selected Subsets указаны особые обозначения для самок (Sex=1) и самцов (Sex=2).

Рис. 3.3.4. График, построенный в соответствии с условиями, показанными на предыдущем рисунке

Как видите, во врезке в углу графика появились данные о коэффициенте корреляции Пирсона (r) и уровне его статистической значимости (p).

Сравните результат на рис. 3.4.4. со следующим, построенным с использованием категоризированной диаграммы рассеяния (Graphs / Categorized Graphs / Scatterplots), в режиме Overlaid. 

Рис. 3.3.5. Категоризованная диаграмма рассеяния: две линии аппроксимации вместо одной

Как вы можете убедиться, разница состоит в том, что в режиме Mark Selected Subsets все вычисления (и линии регрессии, и корреляции) проводятся для совокупности в целом, и два пола лишь маркируются разными символами, а в категоризированной диаграмме все вычисления проводятся для обоих полов по отдельности.