какая самая распространенная программа для статистической обработки информации
Системы статистической обработки информации (ССОИ)
Системы статистической обработки (ССО, англ. Statistical processing systems, SP) предназначены для организации, статистического исследования, интерпретации, преобразования и представления выбранных наборов данных.
Сравнение Системы статистической обработки информации (ССОИ)
Polymatica
Аналитическая платформа Polymatica (рус. Полиматика) от компании Полиматика Рус предназначена для аналитики больших массивов данных в любой предметной области. Высокая скорость взаимодействия обеспечивается за счёт технологий In-Memory и GPU, а также собственной технологии Мультисфер для хранения и сжатия данных.
IQPLATFORM
IQPLATFORM – это цифровая аналитическая платформа, позволяет выполнять продвинутую аналитику на базе больших объёмов информации, синтез новых знаний и мониторинг и контроль информационных объектов.
M-Brain Intelligence Plaza
Stata
Stata – это полноценное интегрированное программное решение, обеспечивающее все потребности в области науки о данных — манипулирование данными, визуализацию, статистический анализ и автоматизированную отчётность.
IBM SPSS Statistics
IBM SPSS Statistics – это аналитическое программное обеспечение, позволяющее производить продвинутый статистический анализ деловых данных, охватывая решение всех задач от планирования и сбора данных до непосредственного анализа и построения бизнес-отчётности.
Anaconda
TIBCO Data Science
TIBCO Data Science – это комплексная аналитическая платформа, позволяющая применять полный комплекс современных аналитических методов над деловыми данными компании.
СТАТЭКС
СТАТЭКС – это аналитический программный продукт, предназначенный для проведения статистических исследований и бизнес-аналитики.
Board
Board – это программный продукт, предназначенный для комплексной бизнес-аналитики и управления производительностью бизнеса.
Руководство по покупке Системы статистической обработки информации
Системы статистической обработки (ССО, англ. Statistical processing systems, SP) предназначены для организации, статистического исследования, интерпретации, преобразования и представления выбранных наборов данных.
Системы статистического анализа информации
Программные системы статистического анализа (ССА, англ. Statistical analysis systems, SA) предназначены для выполнения комплексных статистических исследований данных. Такие программные продукты поддерживают такие методы анализа, как регрессионный анализ, предсказательная аналитика, анализ временных рядов и статистическое моделирование.
Чтобы претендовать на включение в категорию Систем статистического анализа, программный продукт должен:
Сравнение Системы статистического анализа информации
Выбрать по критериям:
Системы статистического анализа информации
Polymatica от Полиматика Рус
IQPLATFORM от Айкумен ИБС
IQPLATFORM – это цифровая аналитическая платформа, позволяет выполнять продвинутую аналитику на базе больших объёмов информации, синтез новых знаний и мониторинг и контроль информационных объектов. Узнать больше про IQPLATFORM
M-Brain Intelligence Plaza от M-Brain
Stata от StataCorp
Stata – это полноценное интегрированное программное решение, обеспечивающее все потребности в области науки о данных — манипулирование данными, визуализацию, статистический анализ и автоматизированную отчётность. Узнать больше про Stata
IBM SPSS Statistics от IBM
IBM SPSS Statistics – это аналитическое программное обеспечение, позволяющее производить продвинутый статистический анализ деловых данных, охватывая решение всех задач от планирования и сбора данных до непосредственного анализа и построения бизнес-отчётности. Узнать больше про IBM SPSS Statistics
Anaconda от Anaconda
TIBCO Data Science от TIBCO
TIBCO Data Science – это комплексная аналитическая платформа, позволяющая применять полный комплекс современных аналитических методов над деловыми данными компании. Узнать больше про TIBCO Data Science
СТАТЭКС от АСБК
СТАТЭКС – это аналитический программный продукт, предназначенный для проведения статистических исследований и бизнес-аналитики. Узнать больше про СТАТЭКС
Board от Board
Board – это программный продукт, предназначенный для комплексной бизнес-аналитики и управления производительностью бизнеса. Узнать больше про Board
Руководство по покупке Системы статистического анализа информации
Содержание
Что такое Системы статистического анализа информации
Программные системы статистического анализа (ССА, англ. Statistical analysis systems, SA) предназначены для выполнения комплексных статистических исследований данных. Такие программные продукты поддерживают такие методы анализа, как регрессионный анализ, предсказательная аналитика, анализ временных рядов и статистическое моделирование.
Назначение и цели использования Системы статистического анализа информации
Программное обеспечение для статистического анализа предназначено для организации, статистического исследования, интерпретации, преобразования и представления выбранных наборов данных. От простых инструментов, таких как калькулятор, до индивидуальных решений, адаптированных к конкретным корпоративным требованиям, статистические инструменты приобрели к текущему моменту огромное значение и популярность для бизнесов и организаций во всех секторах.
Программные средства статистического анализа обычно используются учеными и математиками, но могут также помогать и в прикладных аналитических исследованиях. Программы статистического анализа могут быть полезны для моделирования затрат или для исследований в области здравоохранения, либо же помогут выполнять конкретный отраслевой статистический анализ в стенах служб статистики предприятий.
Обзор основных функций и возможностей Системы статистического анализа информации
Отличительные черты Системы статистического анализа информации
Чтобы претендовать на включение в категорию Систем статистического анализа, программный продукт должен:
Сравнение программ для статистического анализа
Введение
На сегодняшний день существует много универсальных программ обработки и анализа статистической информации. Благодаря кругу охватываемых задач, они могут быть полезны не только студентам на стадии изучения статистических методов, но и научным работникам, экономистам, решающим задачи анализа и прогноза с использованием статистических данных. Но перед специалистами встает вопрос: какую именно из программ выбрать из множества имеющихся? В статье приводится сравнительный анализ двух известных статистических пакетовSTATISTICA и Eviews. Сравнение проводится в зависимости от решаемых задач, простоты и удобства их выполнения, таким образом, отмечая преимущества и недостатки рассматриваемых приложений.
Рис.1. Вид рабочего окна в программе STATISTICA
Сразу отметим, что обе программы являются адаптированными к операционной системе Windows, поддерживают технологии OLE, drop-down и д.р., являются компактными и занимают мало места дискового пространства. Оба приложения имеют удобные графические интерфейсы.
Сравнение программ STATISTICA и Eviews проведем по следующей схеме, в зависимости от конкретных задач приложения:
· Основные описательные статистики;
· Регрессионный анализ (линейная, множественная и нелинейная регрессия);
· Анализ временных рядов (адаптивные модели прогнозирования, методы выделения компонент временного ряда, модели с распределенными лагами);
· Моделирование стационарных и нестационарных случайных процессов (модели ARMA, ARIMA, ARCH, коинтеграция рядов);
· Работа с панельными данными.
1. Ввод данных
Программа STATISTICA имеет модульную структуру, то есть состоит из модулей, каждый из которых используется для решения своего конкретного класса задач, а именно: анализ временных рядов и прогнозирование, множественная регрессия, нелинейное оценивание, факторный анализ, моделирование структурными уравнениями, непараметрическая статистика, дисперсионный анализ (ANOVA/MANOVA), дискриминантный функциональный анализ. Несколько модулей объединены в группу промышленная статистика: контроль качества, анализ процессов, планирование эксперимента.
При загрузке пакета программ STATISTICA и при создании нового файла появляется электронная таблица, в которой столбцы являются переменными, а строки – наблюдениями. Удобство введения данных в программеSTATISTICA обусловлено тем, что файл таблицы похож на аналогичный из программы Excel. Данная программа позволяет импортировать данные из других Windows приложений и программ DOS, таких как: MS Excel, MS Access, FoxPro, Paradox, dBASE, CSV, SPSS, а также из файлов *.txt.
В отличие от STATISTICA приложение Eviews не имеет модульной системы, однако оно содержит так называемое окно рабочего файла, где можно сохранять ряд объектов.
Объектная структура рабочего окна позволяет работать одновременно с различными типами информации. Управление объектами осуществляется с помощью процедур (procs), которые в свою очередь могут сами создавать новые объекты. Каждый объект содержит конкретный вид информации: ряд данных, коэффициенты, графики и диаграммы, модели, результаты вычислений, таблицы (матрицы) и др. Все типы объектов представлены на рис. 3.
Кроме того, программа Eviews имеет командную строку, куда вводятся определенные команды позволяющие производить статистический анализ данных. Команды могут быть сохранены в отдельном файле, что позволяет исследователю запомнить ретроспективу выполняемых действий.
В отличие от программы STATISTICA в Eviews прежде, чем ввести данные, необходимо задать их формат, далее создать объект типа ряд, задать количество переменных и количество наблюдений. Пакет Eviews позволяет работать с восьмью типами данных (годовые, полугодовые, квартальные, месячные, недельные (5 дней), недельные (7 дней), ежедневные и недатированные наблюдения). Процедура ввода и описания данных в приложении Eviews сложнее, чем в STATISTICA, и поэтому предпочтительнее импортировать данные из других приложений. Программа позволяет работать с данными заимствованными из таких программ как: MS Access, Gauss, ODBS, SAS, SPSS, MSExcel, Stata, ACSII, HTML.
Рис. 2. Вид рабочего окна программы Eviews.
Рис. З. Типы объектов рабочего файла Eviews
2. Графический анализ и основные описательные статистики
Для того чтобы легко визуализировать как исходные параметры модели, так и конечные результаты вычислений необходимо построение различных графиков, диаграмм, коррелограмм, спектрограмм и т.п. Просмотр в графической интерпретации исходных данных в виде линейных графиков, гистограмм распределений вероятности, диаграмм и т.п. для обоих приложений осуществляется с помощью команд меню. Просмотр результатов в виде графиков в программе STATISTICA производится непосредственно из рабочего модуля с помощью соответствующих кнопок, причем это приложение позволяет задать опцию построения графика автоматически после каждой проведенной процедуры, также имеется возможность просмотра данных в разных масштабах. Построение коррелограмм АКФ и ЧАКФ в пакете STATISTICA осуществляется только в разных окнах, в Eviews же их можно просмотреть и в одном окне, но зато в STATISTICA указаны границы белого шума. Результаты моделирования в Eviews в графическом режиме можно просмотреть с помощью команд основного меню рабочего файла.
Просмотр числовых характеристик исследуемых данных (среднее значение, стандартное отклонение, эксцесс, вероятность и др.) в приложении Eviews осуществляется с помощью команд меню, чтобы сделать это в STATISTICAнеобходимо зайти в отдельный модуль Основные статистики/Таблицы (Basic Statistics/Tables) (здесь же имеются критические значения различных распределений). Набор описательных статистик для обоих пакетов одинаковый.
3. Регрессионный анализ
3.1. Линейная регрессия
В программе STATISTICA оценка коэффициентов однофакторной и многофакторной линейной регрессии осуществляется в отдельном модуле Множественная регрессия (Multiple regression). Результаты просматриваются в отдельном окне, где есть коэффициенты, оцененные методом наименьших квадратов, коэффициент детерминации, статистика Фишера оценки значимости регрессии, статистики Стьюдента оценки значимости коэффициентов, коэффициент корреляции (матрица корреляций), статистика ДарбинаУотсона [3]. Существенными недостатками приложения STATISTICA является: во-первых, тот факт, что оценка коэффициентов простой регрессии производится только методом наименьших квадратов; во-вторых, определение наличия гетероскедастичности остатков приходится проводить в отдельном модуле (а именно, с помощью теста Спирмена в модуле непараметрические статистики). В отличие от STATISTICA пакет Eviews позволяет проводить оценку регрессии не только методом наименьших квадратов, но также методами максимального правдоподобия, взвешенным и нелинейным методами наименьших квадратов, достаточно просто набрать название метода в командной строке при оценке коэффициентов модели. К тому же Eviews позволяет сделать поправку на гетероскедастичность с учетом характера зависимости ошибок от независимой переменной. С помощью команды меню гетероскедастичность определяется тестом Уайта [1]. Отметим, что с помощью командной строки можно задать методику выявления гетероскедастичности методами Парка, Глейзера и др.
Проблему мультиколлинеарности факторов можно преодолеть в программе STATISTICA двумя способами: найти оценки методом главных компонент (реализуемо в модуле Факторный анализ (Factor Analysis)) или использовать гребневую регрессию (возможно только для STATISTICA версии старше 6.0).
3.2. Нелинейная регрессия
Оценка нелинейной регрессии в программе STATISTICA производится в отдельном модуле Нелинейное оценивание (Non-linear estimation), здесь можно как задать вид зависимости самостоятельно, так и воспользоваться имеющимися: регрессия логит/пробит, регрессия экспоненциального роста, кусочно-линейная регрессия [3]. Для оценки коэффициентов нелинейной регрессии произвольного вида используются итеративные методы, такие как квази-ньютоновский, Хука-Дживса, симплексный и др. Результатами оценки являются лишь индекс детерминации и статистика Фишера. Подбор вида гладкой функции можно осуществить только на основе визуального анализа графиков. В отличие от этого в программе Eviews подобрать нелинейную функцию, наилучшим образом отражающей зависимость, можно на основе теста Бокса-Кокса. Оценка коэффициентов осуществляется на основе нелинейного МНК (NLS) и взвешенного МНК (WLS).
3.3. Модели с дискретной зависимой переменной
Модели бинарного выбора (логит/пробит модели) легко оцениваются в пакете STATISTICA в модуле Нелинейное оценивание, выходными данными служат логарифмическая функция правдоподобия, ограниченная логарифмическая функция правдоподобия, ч2-статистика, оцененные методом максимального правдоподобия параметры модели. В отличие от STATISTICA Eviews позволяет строить не только модели бинарного выбора, но также и модели множественного выбора, как с порядковыми, так и с неупорядоченными альтернативами. Для этого просто в поле выбора метода оценивания следует сделать выбор в пользу метода, соответствующего искомой модели. Выходными параметрами служат ч2-статистика, псевдо-коэффициент детерминации, логарифмические функции правдоподобия.
4. Анализ временных рядов
Анализ временных рядов в программе STATISTICA осуществляется в модуле Анализ Временных рядов/Прогнозирование (Time Series analysis/ forecasting). Данный модуль содержит следующие методы исследования временных рядов: модель авторегрессии проинтегрированного скользящего среднего, модели интервенции для АРПСС, экспоненциальное сглаживание и прогнозирование (адаптивные модели прогнозирования), анализ распределенных лагов, сезонная декомпозиция и спектральный анализ ряда. Кроме этого существует окно преобразования исходного ряда, которое позволяет производить различные алгебраические операции с рядом, брать разности различного порядка, выделять тренд методом скользящих средних.
К преимуществам STATISTICA перед Eviews следует отнести построение адаптивных моделей прогнозирования. В программе STATISTICA имеется удобная таблица, в которой можно определить тип модели (аддитивная, мультипликативная, с линейным трендом, включающая сезонную компоненту), а также задать параметры адаптации в трех режимах: «вручную», автоматически (на основании критерия сходимости по минимальной средней квадратической ошибке), выбор с помощью сетки различных минимальных ошибок [2]. В Eviews аналогичная процедура построения адаптивных моделей достаточно усложнена: требуется определить тип модели, метод оценивания параметров, выбрать начальные значения адаптационных коэффициентов, критерий сходимости процесса расчета и т.д. в нескольких диалоговых окнах. Также более предпочтительно построение регрессионных моделей с распределенными лагами в программе STATISTICA, нежели чем в Eviews, так как процедура построения очень проста в применении: требуется лишь задать значение максимального лага и степень аппроксимирующего полинома (лаги Алмон). Выделение тренда из ряда с помощью гладких функций и моделирование сезонной компоненты на основе гармоник в оболочке STATISTICA выполняется в модуле Нелинейная оценка. Процедуру сглаживания тренда с помощью различного рода скользящих средних легко выполнить в обоих приложениях. Что касается определения наличия тренда в исходных данных, то его можно осуществить, в обоих приложениях, только с помощью спектрального анализа, либо коррелограмм АКФ и ЧАКФ, специального теста (например, тест Форстера-Стюарта) программы не проводят. Но в программе Eviews, с помощью менеджера тестов, такую проверку можно осуществить, задав соответствующие команды в командной строке.
5. Моделирование стационарных процессов
Существенным недостатком программы STATISTICA является отсутствие возможностей проверки ряда на стационарность, и судить о его стационарности можно лишь на основе визуального анализа графика ряда, спектрограммы и коррелограмм АКФ и ЧАКФ. В отличие от этого, приложение Eviews позволяет провести как обычный, так и расширенный тесты Дики-Фуллера на наличие стационарности (тесты единичного корня).
Построение моделей АРСС в программе STATISTICA выполняется с помощью модуля Анализ временных рядов/Прогнозирование. Идентификация модели производится либо на основе визуального анализа коррелограмм АКФ и ЧАКФ, учитывая их специфические особенности, либо спектров случайных процессов. В программе Eviews идентификацию модели АРСС можно произвести еще и с помощью Q-статистики (тест Люнга-Бокса). К тому же есть возможность сравнить две значимые модели АРСС, то есть произвести их селекцию, по критериям Шварца и Акайке. Eviews выполняет эти критерии на основе дисперсии ошибки, которая должна быть минимальна. Здесь отметим, что использование тестов Люнга-Бокса и информационных критериев в программе STATISTICA возможно только для версий старше 6.0 в отдельных модулях. Построить модели стационарных рядов, учитывающих изменение дисперсии (модели ARCH и GARCH) можно только в программе Eviews, STATISTICA таких возможностей не имеет. Кроме того, найденную модель АРСС с помощью ARCH метода можно протестировать на гетероскедастичную составляющую [1]. Следует отметить, что в версиях Eviews старше 5.1, имеются возможности оценки и спецификации моделей ТARCH и Е-GARCH (моделирует условную дисперсию как ассиметричную функцию, представленную в логарифмическом виде).
Программа Eviews позволяет провести спецификацию векторной авторегрессионной модели и модели исправления ошибки (исследование коинтеграции между несколькими переменными). Проверка коинтеграции в программе осуществляется с помощью процедуры Йохансена, которая определяет число векторов коинтеграции в группе временных рядов и обеспечивает оценки максимального правдоподобия векторов коинтеграции и векторов скорости приведения.
6. Моделирование нестационарных рядов
Обычно моделирование нестационарных рядов проводится на основе модели АРПСС, где порядок интегрирования является порядком взятия разности. В программе STATISTICA с помощью процедуры преобразования ряда вычисляют разности до тех пор, пока ряд не станет стационарным, причем стационарность можно проверить лишь на основе визуального анализа, далее идентифицируют и строят модель АРСС. В приложении Eviews для построения модели АРПСС используется расширенный тест Дики-Фуллера, причем проверка стационарности производится автоматически после взятия разности первого или второго порядков (соответствующий порядок следует указать в диалоговом окне). Отсюда можно сделать вывод, что построение модели АРПСС предпочтительней производить в Eviews.
7. Анализ панельных данных
В последнее время широкое распространение в экономикосоциологических исследованиях получил анализ панельных данных. Программа Eviews на сегодняшний день является одной из немногих статических пакетов, которая позволяет провести исследование панельных данных, причем, следует отметить, что такая возможность имеется только у программ старше пятой версии.
Визуальный анализ представленных данных можно проводить как с учетом структуры панели, так и с учетом объединения данных. Eviews позволяет легко произвести спецификацию модели, учитывающей лаг, а также оценить модель со случайными эффектами, используя тест Хаусмана [1]. Процедуру оценки можно произвести с помощью взвешенного обобщенного МНК. После оценки построенной модели по панельным данным могут быть проанализированы и отображены графически фиксированные и случайные эффекты.
Вывод
Для преподавателей эконометрики и экономико-математического моделирования для общих экономических специальностей следует предпочесть программу STATISTICA, так как в ней проще работать с вводом данных, строить регрессионные модели, исследовать структуру временного ряда, и в отличие от Eviews, нет необходимости запоминать все команды ввода в командной строке. Для более глубокого изучения эконометрического моделирования, например для специальностей «математические методы в экономике», «статистика», предпочтение следует отдать программе Eviews, хотя здесь можно посоветовать схему «от простого к сложному», изучив сначала STATISTICA, затем перейти к выполнению тех же процедур в Eviews.
Что касается предметов изучающих анализ временных рядов, например «методы прогнозирования финансовых показателей» или «методы исследования национальной экономики», то однозначно можно сделать выбор в пользу пакета Eviews, так как лучше всего его возможности раскрываются при решении задачи прогнозирования количественных показателей, представляющих собой именно временной ряд. Следует отметить, что в пакете Eviews имеется достаточно полный арсенал методов по обнаружению и борьбе с типичными для поставленных выше задач проблемами: гетероскедастичность, автокорреляция, нестационарность и наличие коинтеграции.
Для специалистов, занимающихся прогнозированием различного рода финансовых показателей, рекомендуется освоить пакет Eviews, так как сфера применения его охватывает все аспекты современной теории и практики бизнеса. Высокие функциональные возможности при обработке количественных переменных, позволяют говорить о Eviews как о надежном инструменте для прогнозирования продаж, динамики ресурсов, исследования инвестиционного риска. Для прогнозирования финансовых временных рядов EViews, помимо традиционных инструментов прогнозирования позволяет использовать анализ отклика на импульсы и моделирование условной гетероскедастичности, как меры волатильности. Дополнительно, подчеркнем, что EViews позволяет строить прогноз сразу же после построения модели.
Список использованных источников:
1. Практикум по эконометрике: учеб. пособие / Под ред. Елисеевой И.И. – М.: Финансы и статистика, 2007. – 344 с.
2. Саяпова А.Р., Гусельникова Е.А., Лакман И.А., Шамуратов Н.М. Математические методы прогнозирования экономических показателей. Учебное пособие, Уфа, 2000 – 128 с.
3. Шамуратов Н.М., Лакман И.А. Эконометрика. Учебное пособие, Уфа, 2007 – 118 с.
Обзор статистических программ
Обзор статистических программ
Продуктивность выполняемой работы тесно связана с используемыми инструментами. Так, по легенде, Архимед заявил, что сможет перевернуть Землю, если получит необходимую точку опоры и рычаг. Но необходимого инструментария у великого философа не оказалось, и наша планета до сих пор летит по своей орбите. Похожая ситуация складывается и в области статистического анализа результатов исследований. Проводить статобработку данных вполне возможно, имея только лишь карандаш и бумагу, но намного быстрее и эффективней делать это при помощи специальных инструментов, а именно статистического программного обеспечения. Строго говоря, программные пакеты, применяемые для статистического анализа, следует относить к математическим программам, поэтому в данной статье термины «математический» и «статистический» будут использоваться как синонимы.
Все научные математические приложения можно разделить на две большие группы: программы с графическим интерфейсом и без него. Не следует думать, что графический интерфейс каким-то образом характеризует качество программного продукта. Эти свойства никоим образом не зависят друг от друга. Тем не менее, подобное разделение имеет огромное практическое значение. Дело в том, что далеко не каждый может комфортно работать в командной строке. Сегодня многие пользователи компьютера не допускают и мысли об отказе от «кликодромов», на которых держится внушительная часть современной IT-индустрии. Однако математические вычисления все-таки удобней выполнять путем набора команд с клавиатуры, а не щелканьем по многочисленным кнопкам на экране. Поэтому в серьезных приложениях есть режим командной строки со встроенным языком программирования и графический интерфейс.
Для начала познакомимся со средой статистических вычислений и языком программирования R. Его истоки лежат в языке программирования S, с которым у них очень много общего. Стандартная комплектация R не предполагает графического интерфейса, привычного для многих пользователей. В результате у ряда исследователей возникает ошибочное мнение, что данный инструмент позволяет выполнять только численные вычисления, но не имеет возможностей для построения графиков. Это не так. В системе R имеются широкие возможности для статистической обработки данных, в том числе и для работы с графикой, а оконный интерфейс можно установить как дополнительное приложение. Но следует иметь в виду, что графические пользовательские интерфейсы для R заметно уступают таковым в остальных статистических пакетах.
Загрузив информацию в переменные, можно начинать ее обрабатывать, используя огромное количество функций, реализованных в R. Но следует помнить, что все промежуточные данные при работе с этим языком, хранятся не во временных файлах, а непосредственно в оперативной памяти. Эту особенность необходимо иметь в виду при обработке очень больших объемов информации: R будет использовать значительную часть оперативной памяти компьютера.
Синтаксис языка достаточно прост и легок в изучении. На сегодняшний день написано более сотни книг по самым разным направлениям использования среды статистических вычислений R, но все они на английском языке. К сожалению, русскоязычной информации еще очень мало и она представлена лишь в виде разрозненных статей по некоторым вопросам использования данного языка программирования. Именно недостаток информации сдерживает распространение высококачественного программного пакета в нашей стране (при том, что он является бесплатным).
Надежность R объясняется его происхождением. Язык был создан, как свободная реализация очень мощного языка программирования S, история которого началась еще в 1976 году, когда появилась первая рабочая версия. На сегодняшний день язык S является основой приложения S-PLUS, разрабатываемого TIBCO Software Inc., и, в отличие от R, представляет собой коммерческий продукт. S-PLUS имеет приятный графический интерфейс, ввод данных в котором может быть осуществлен путем загрузки из внешнего файла, базы данных или же копированием таблицы из текстового файла, либо табличного процессора. S-PLUS, так же как и R, может работать в разных операционных системах и использоваться для выполнения численных и графических методов анализа.
Система состоит из модулей, каждый из которых выполняет определенный круг задач. Наиболее часто при статобработке используются модули BASE и STAT. В системе SAS реализован собственный язык программирования, который по своему синтаксису ближе к бэйсику и не похож на R или S. Система позволяет загружать данные из внешних файлов или же вводить их непосредственно в окно терминала. Работая с использованием SAS можно проводить статистическую обработку данных разного уровня сложности, в соответствии с поставленными задачами. Взаимодействие с программой возможно как в консольном режиме, так и через графический интерфейс, который представляет собой графическую оболочку для упрощенного ввода команд языка программирования SAS.
К программам использующим преимущественно интерфейс командной строки относится также Stata, разрабатываемая американской корпорацией StataCorp. Приложение может работать на операционных системах семейства Windows, в MasOS и Linux. Ввод данных здесь возможен как путем загрузки из внешних файлов, так и с использованием встроенного табличного редактора, который довольно прост, но позволяет выполнять все необходимые манипуляции с таблицами. Принципы работы с приложением Stata не отличаются от таковых при использовании описанных выше программ. Те пользователи, которым терминальный режим покажется неудобным, могут использовать меню программы для автоматической генерации команд встроенного языка программирования.
Все описанные статистические пакеты могут применяться при любых видах статистического анализа. Так, функциональность языка R может быть изменена добавлением библиотек функций, ориентированных на строго определенный тип задач. Кроме того, каждый, кто имеет достаточно знаний и опыта работы с этим языком может создавать собственные функции и библиотеки, соответствующие специфике работы конкретного пользователя.
Но помимо статистического софта «широкого профиля» существуют программы ориентированные на ученых, работающих в области биомедицинских исследований. Так, программа MedCalc, разрабатываемая с 1993 года бельгийской компанией MedCalc Software, позиционируется как полноценное статистическое приложение, созданное в соответствии с потребностями исследователей биомедицинского направления. Разработчики акцентируют внимание исследователей на удобстве использования MedCalc для анализа ROC-кривых.
Программа удобна тем, что не предлагает избыточной функциональности, которая зачастую приводит в замешательство неподготовленного человека, начинающего работать с универсальными приложениями. В дополнение к этому, возможность работы только в графическом интерфейсе без использования командной строки делает программу менее гибкой, но зато более привлекательной для использования в данной области науки, поскольку специалисты с медицинским образованием очень редко могут похвастаться большим опытом работы с математическими программами.
На сегодняшний день создана уже двенадцатая версия программы. К сожалению, работать в MedCalc могут только пользователи Windows, но этот недостаток компенсируется относительно малыми системными требованиями и возможность запустить приложение как в Windows 2000, так и в Windows 7. Для тех, кто еще ни разу не пользовался программой, есть возможность скачать полнофункциональную демонстрационную версию продукта с сайта medcalc.org, которая будет работать без ограничений в течение пятнадцати дней. Кроме того, в комплект поставки входят демонстрационные файлы, содержащие наборы данных и примеры их анализа.
Ввод данных в MedCalc осуществляется в интегрированном табличном редакторе или же путем импорта файлов различных форматов, таких как *.csv, excel и др. Для вызова встроенного редактора достаточно выбрать команду Spreadsheet в меню, после чего можно приступать к формированию таблицы. В статистических программах колонки таблиц называют «переменными», а строки «случаями». При создании таблицы полезным будет соблюдение нескольких правил:
• Первая переменная должна содержать порядковые номера случаев. Это необходимо для того, чтобы после пересортировки значений иметь возможность восстановить их прежний порядок.
• Числовые значения следует вводить без округления, чтобы не терять информацию.
• При отсутствии некоторых значений их можно пропустить, оставив в таблице пустые ячейки.
• В каждой переменной для каждого случая должно быть только одно значение.
После сохранения таблицы или загрузки файла с данными начинается этап обработки информации. Для выполнения статистического анализа следует выбрать соответствующий пункт в меню Statistics. Для каждого типа анализа имеется собственный набор настроек, справку по которым можно получить, нажав кнопку Help.
На этапе планирования эксперимента полезным для исследователя будут функции из меню Sampling, позволяющие определить необходимую численность групп для некоторых, наиболее общих, исследовательских задач. Среди функций, реализованных в MedCalc, следует особо отметить возможность проведения основных видов статистического анализа, не имея выборочных значений, т.е. на основе средних величин, показателей разброса и т. п. Это может быть полезно при изучении литературных данных, поскольку полной информации о первичных результатах эксперимента в публикациях не приводится. Например, для сравнения выборочных средних с помощью критерия Стьюдента достаточно знать сами средние арифметические, стандартное отклонение и размеры обеих выборок. Эти данные следует ввести в окне, вызываемом меню Tests > Comparison of > means (t-test), и в этом же окне будет выведен результат сравнения. Аналогично используются и остальные функции в меню Tests.
Таким образом, программа MedCalc за относительно небольшую цену предоставляет пользователю удобный интерфейс без излишней «функциональности», снабженный хорошим табличным редактором. Все вычисления и диаграммы сохраняются в одном файле и легко сортируются в специальном списке в левой части главного окна программы. Статистический анализ выполняется с помощью удобно организованных меню, снабженных лаконичным и понятным справочным материалом. В этой связи программа будет очень полезна ученым, выполняющим биомедицинские исследования и неискушенным в математических приложениях.
Следует отметить, что почти безграничные возможности в статобработке, предоставляемые данными инструментами, требуют от компьютера больших ресурсов. Так, для работы SPSS необходимо не менее 1 Гб оперативной памяти. Операционные системы, в которых можно запускать SPSS: Windows, MacOS и Linux. Statistica же разработана только под Windows, что несколько уменьшает число ее пользователей.
Как и всегда, работа в программах начинается с ввода данных. Интегрированный табличный процессор позволяет оформлять таблицы с помощью привычных для каждого пользователя офисных приложений способов. Сохраненные таблицы, а также результаты расчетов, графики и отчеты в Statistica можно удобно расположить в одном файле, который называется «Рабочей книгой», тогда как организация рабочего пространства в SPSS менее удобна, но все же вполне приемлема для использования после короткого периода адаптации.
В программах есть все наиболее востребованные статистические методы: частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, t-тесты и большое количество непараметрических критериев, многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ надежности, многомерное шкалирование и ряд других. Вызов этих статистических процедур делается с помощью выбора из меню соответствующих окон и внесения в них необходимых настроек. Все типы анализа разбиты по группам, что помогает быстро ориентироваться в интерфейсе приложений.
Системы STATISTICA и SPSS обладают широкими графическими возможностями. Они включают в себя большое количество разнообразных категорий и типов графиков, в том числе научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категоризованные графики и др.
Статистические функции, которыми располагают оба приложения, поражают своим разнообразием. Складывается впечатление, что данные инструменты статистического анализа позволяют делать все, что угодно, при условии, что пользователь хорошо изучил принципы их работы. Главным препятствием на пути освоения этих программ является время, которое необходимо затратить на обучение. Именно из-за недостатка знаний у пользователя, в большинстве случаев, мощь статистических пакетов подобного уровня не используется даже в половину.
Как видите, в мире существует множество приложений для статистического анализа. Лишь малая часть из них была вкратце описана в данной статье. За ее пределами остались такие программы как Minitab, MatLab, Octave, GenStat, JMP, Analyse-it, отечественная разработка STADIA и множество других, больших и маленьких, дорогих и бесплатных программ. Однако такое изобилие софта не должно пугать исследователя, достаточно будет один раз сделать продуманный выбор в пользу одной-двух программ, тщательно изучить тонкости их применения, и они будут не один год служить верными помощниками в статистическом анализе результатов экспериментов.
Продуктивность выполняемой работы тесно связана с используемыми инструментами. Так, по легенде, Архимед заявил, что сможет перевернуть Землю, если получит необходимую точку опоры и рычаг. Но необходимого инструментария у великого философа не оказалось, и наша планета до сих пор летит по своей орбите. Похожая ситуация складывается и в области статистического анализа результатов исследований. Проводить статобработку данных вполне возможно, имея только лишь карандаш и бумагу, но намного быстрее и эффективней делать это при помощи специальных инструментов, а именно статистического программного обеспечения. Строго говоря, программные пакеты, применяемые для статистического анализа, следует относить к математическим программам, поэтому в данной статье термины «математический» и «статистический» будут использоваться как синонимы.
Все научные математические приложения можно разделить на две большие группы: программы с графическим интерфейсом и без него. Не следует думать, что графический интерфейс каким-то образом характеризует качество программного продукта. Эти свойства никоим образом не зависят друг от друга. Тем не менее, подобное разделение имеет огромное практическое значение. Дело в том, что далеко не каждый может комфортно работать в командной строке. Сегодня многие пользователи компьютера не допускают и мысли об отказе от «кликодромов», на которых держится внушительная часть современной IT-индустрии. Однако математические вычисления все-таки удобней выполнять путем набора команд с клавиатуры, а не щелканьем по многочисленным кнопкам на экране. Поэтому в серьезных приложениях есть режим командной строки со встроенным языком программирования и графический интерфейс.
Для начала познакомимся со средой статистических вычислений и языком программирования R. Его истоки лежат в языке программирования S, с которым у них очень много общего. Стандартная комплектация R не предполагает графического интерфейса, привычного для многих пользователей. В результате у ряда исследователей возникает ошибочное мнение, что данный инструмент позволяет выполнять только численные вычисления, но не имеет возможностей для построения графиков. Это не так. В системе R имеются широкие возможности для статистической обработки данных, в том числе и для работы с графикой, а оконный интерфейс можно установить как дополнительное приложение. Но следует иметь в виду, что графические пользовательские интерфейсы для R заметно уступают таковым в остальных статистических пакетах.
Загрузив информацию в переменные, можно начинать ее обрабатывать, используя огромное количество функций, реализованных в R. Но следует помнить, что все промежуточные данные при работе с этим языком, хранятся не во временных файлах, а непосредственно в оперативной памяти. Эту особенность необходимо иметь в виду при обработке очень больших объемов информации: R будет использовать значительную часть оперативной памяти компьютера.
Синтаксис языка достаточно прост и легок в изучении. На сегодняшний день написано более сотни книг по самым разным направлениям использования среды статистических вычислений R, но все они на английском языке. К сожалению, русскоязычной информации еще очень мало и она представлена лишь в виде разрозненных статей по некоторым вопросам использования данного языка программирования. Именно недостаток информации сдерживает распространение высококачественного программного пакета в нашей стране (при том, что он является бесплатным).
Надежность R объясняется его происхождением. Язык был создан, как свободная реализация очень мощного языка программирования S, история которого началась еще в 1976 году, когда появилась первая рабочая версия. На сегодняшний день язык S является основой приложения S-PLUS, разрабатываемого TIBCO Software Inc., и, в отличие от R, представляет собой коммерческий продукт. S-PLUS имеет приятный графический интерфейс, ввод данных в котором может быть осуществлен путем загрузки из внешнего файла, базы данных или же копированием таблицы из текстового файла, либо табличного процессора. S-PLUS, так же как и R, может работать в разных операционных системах и использоваться для выполнения численных и графических методов анализа.
Система состоит из модулей, каждый из которых выполняет определенный круг задач. Наиболее часто при статобработке используются модули BASE и STAT. В системе SAS реализован собственный язык программирования, который по своему синтаксису ближе к бэйсику и не похож на R или S. Система позволяет загружать данные из внешних файлов или же вводить их непосредственно в окно терминала. Работая с использованием SAS можно проводить статистическую обработку данных разного уровня сложности, в соответствии с поставленными задачами. Взаимодействие с программой возможно как в консольном режиме, так и через графический интерфейс, который представляет собой графическую оболочку для упрощенного ввода команд языка программирования SAS.
К программам использующим преимущественно интерфейс командной строки относится также Stata, разрабатываемая американской корпорацией StataCorp. Приложение может работать на операционных системах семейства Windows, в MasOS и Linux. Ввод данных здесь возможен как путем загрузки из внешних файлов, так и с использованием встроенного табличного редактора, который довольно прост, но позволяет выполнять все необходимые манипуляции с таблицами. Принципы работы с приложением Stata не отличаются от таковых при использовании описанных выше программ. Те пользователи, которым терминальный режим покажется неудобным, могут использовать меню программы для автоматической генерации команд встроенного языка программирования.
Все описанные статистические пакеты могут применяться при любых видах статистического анализа. Так, функциональность языка R может быть изменена добавлением библиотек функций, ориентированных на строго определенный тип задач. Кроме того, каждый, кто имеет достаточно знаний и опыта работы с этим языком может создавать собственные функции и библиотеки, соответствующие специфике работы конкретного пользователя.
Но помимо статистического софта «широкого профиля» существуют программы ориентированные на ученых, работающих в области биомедицинских исследований. Так, программа MedCalc, разрабатываемая с 1993 года бельгийской компанией MedCalc Software, позиционируется как полноценное статистическое приложение, созданное в соответствии с потребностями исследователей биомедицинского направления. Разработчики акцентируют внимание исследователей на удобстве использования MedCalc для анализа ROC-кривых.
Программа удобна тем, что не предлагает избыточной функциональности, которая зачастую приводит в замешательство неподготовленного человека, начинающего работать с универсальными приложениями. В дополнение к этому, возможность работы только в графическом интерфейсе без использования командной строки делает программу менее гибкой, но зато более привлекательной для использования в данной области науки, поскольку специалисты с медицинским образованием очень редко могут похвастаться большим опытом работы с математическими программами.
На сегодняшний день создана уже двенадцатая версия программы. К сожалению, работать в MedCalc могут только пользователи Windows, но этот недостаток компенсируется относительно малыми системными требованиями и возможность запустить приложение как в Windows 2000, так и в Windows 7. Для тех, кто еще ни разу не пользовался программой, есть возможность скачать полнофункциональную демонстрационную версию продукта с сайта medcalc.org, которая будет работать без ограничений в течение пятнадцати дней. Кроме того, в комплект поставки входят демонстрационные файлы, содержащие наборы данных и примеры их анализа.
Ввод данных в MedCalc осуществляется в интегрированном табличном редакторе или же путем импорта файлов различных форматов, таких как *.csv, excel и др. Для вызова встроенного редактора достаточно выбрать команду Spreadsheet в меню, после чего можно приступать к формированию таблицы. В статистических программах колонки таблиц называют «переменными», а строки «случаями». При создании таблицы полезным будет соблюдение нескольких правил:
• Первая переменная должна содержать порядковые номера случаев. Это необходимо для того, чтобы после пересортировки значений иметь возможность восстановить их прежний порядок.
• Числовые значения следует вводить без округления, чтобы не терять информацию.
• При отсутствии некоторых значений их можно пропустить, оставив в таблице пустые ячейки.
• В каждой переменной для каждого случая должно быть только одно значение.
После сохранения таблицы или загрузки файла с данными начинается этап обработки информации. Для выполнения статистического анализа следует выбрать соответствующий пункт в меню Statistics. Для каждого типа анализа имеется собственный набор настроек, справку по которым можно получить, нажав кнопку Help.
На этапе планирования эксперимента полезным для исследователя будут функции из меню Sampling, позволяющие определить необходимую численность групп для некоторых, наиболее общих, исследовательских задач. Среди функций, реализованных в MedCalc, следует особо отметить возможность проведения основных видов статистического анализа, не имея выборочных значений, т.е. на основе средних величин, показателей разброса и т. п. Это может быть полезно при изучении литературных данных, поскольку полной информации о первичных результатах эксперимента в публикациях не приводится. Например, для сравнения выборочных средних с помощью критерия Стьюдента достаточно знать сами средние арифметические, стандартное отклонение и размеры обеих выборок. Эти данные следует ввести в окне, вызываемом меню Tests > Comparison of > means (t-test), и в этом же окне будет выведен результат сравнения. Аналогично используются и остальные функции в меню Tests.
Таким образом, программа MedCalc за относительно небольшую цену предоставляет пользователю удобный интерфейс без излишней «функциональности», снабженный хорошим табличным редактором. Все вычисления и диаграммы сохраняются в одном файле и легко сортируются в специальном списке в левой части главного окна программы. Статистический анализ выполняется с помощью удобно организованных меню, снабженных лаконичным и понятным справочным материалом. В этой связи программа будет очень полезна ученым, выполняющим биомедицинские исследования и неискушенным в математических приложениях.
Следует отметить, что почти безграничные возможности в статобработке, предоставляемые данными инструментами, требуют от компьютера больших ресурсов. Так, для работы SPSS необходимо не менее 1 Гб оперативной памяти. Операционные системы, в которых можно запускать SPSS: Windows, MacOS и Linux. Statistica же разработана только под Windows, что несколько уменьшает число ее пользователей.
Как и всегда, работа в программах начинается с ввода данных. Интегрированный табличный процессор позволяет оформлять таблицы с помощью привычных для каждого пользователя офисных приложений способов. Сохраненные таблицы, а также результаты расчетов, графики и отчеты в Statistica можно удобно расположить в одном файле, который называется «Рабочей книгой», тогда как организация рабочего пространства в SPSS менее удобна, но все же вполне приемлема для использования после короткого периода адаптации.
В программах есть все наиболее востребованные статистические методы: частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, t-тесты и большое количество непараметрических критериев, многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ надежности, многомерное шкалирование и ряд других. Вызов этих статистических процедур делается с помощью выбора из меню соответствующих окон и внесения в них необходимых настроек. Все типы анализа разбиты по группам, что помогает быстро ориентироваться в интерфейсе приложений.
Системы STATISTICA и SPSS обладают широкими графическими возможностями. Они включают в себя большое количество разнообразных категорий и типов графиков, в том числе научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категоризованные графики и др.
Статистические функции, которыми располагают оба приложения, поражают своим разнообразием. Складывается впечатление, что данные инструменты статистического анализа позволяют делать все, что угодно, при условии, что пользователь хорошо изучил принципы их работы. Главным препятствием на пути освоения этих программ является время, которое необходимо затратить на обучение. Именно из-за недостатка знаний у пользователя, в большинстве случаев, мощь статистических пакетов подобного уровня не используется даже в половину.
Как видите, в мире существует множество приложений для статистического анализа. Лишь малая часть из них была вкратце описана в данной статье. За ее пределами остались такие программы как Minitab, MatLab, Octave, GenStat, JMP, Analyse-it, отечественная разработка STADIA и множество других, больших и маленьких, дорогих и бесплатных программ. Однако такое изобилие софта не должно пугать исследователя, достаточно будет один раз сделать продуманный выбор в пользу одной-двух программ, тщательно изучить тонкости их применения, и они будут не один год служить верными помощниками в статистическом анализе результатов экспериментов.