Как мне посчитать эту статистику?

Я пишу приложение, чтобы облегчить некоторые исследования, и частично это связано с выполнением некоторых статистических расчетов. Прямо сейчас исследователи используют программу под названием SPSS . Часть вывода, которая их волнует, выглядит так:

[Часть вывода SPSS

Они действительно касается только о F и Sig. ценностях. Моя проблема в том, что у меня нет опыта в статистике, и я не могу понять, как называются тесты или как их рассчитывать.

Я думал, что F значение может быть результатом F-теста , но после выполнения шагов, приведенных в Википедии, я получил результат, отличный от того, который SPSS дает.

Ответов (6)

Решение

Этот веб-сайт может помочь вам немного больше. Также этот .

Я работаю по довольно ржавой памяти курса статистики, но тут ничего не выходит:

Когда вы проводите дисперсионный анализ (ANOVA), вы фактически вычисляете статистику F как отношение среднеквадратичных дисперсий «между группами» и среднеквадратичных дисперсий «внутри групп». Вторая ссылка выше кажется неплохой для этого расчета.

Это позволяет статистике F точно определять, насколько мощна ваша модель, потому что дисперсия «между группами» является объяснительной силой, а дисперсия «внутри групп» - случайной ошибкой. Высокий F подразумевает очень значимую модель.

Как и во многих статистических операциях, вы определяете Sig. используя статистику F. Здесь ваша информация из Википедии может оказаться немного полезной. Что вы хотите сделать, так это - используя степени свободы, предоставленные вам SPSS, - найти правильное значение P, при котором таблица F даст вам вычисленную вами F-статистику. Значение P, при котором это происходит [F (таблица) = F (вычислено)], является значимостью.

Концептуально более низкое значение значимости показывает очень сильную способность отвергать нулевую гипотезу (что для этих целей означает определение, что ваша модель обладает объяснительной силой).

Извините математиков, если что-то из этого неверно. Я буду проверять, чтобы внести правки !!!

Удачи тебе. Статистика - это весело, но, возможно, не в этой части. знак равно

Статистика сложная :-). После года чтения и перечитывания книг и статей я могу только с уверенностью сказать, что понимаю самые основы этого.

Возможно, вы захотите изучить готовые библиотеки для любого языка программирования, который вы используете, потому что они содержат множество ошибок в математике в целом и статистике в частности (очевидным примером являются ошибки округления).

В качестве примера вы можете взглянуть на проект R , который является одновременно интерактивной средой и библиотекой, которую вы можете использовать из своего кода C++, распространяемого под лицензией GPL (т.е. если вы используете его только для внутренних целей и публикуете только результаты, вам не нужно открывать свой код).

Вкратце: не делайте этого вручную, свяжите / используйте существующее программное обеспечение. И ответ sain_grocen неверен. :(

Все это тесты на значимость оценок параметров, которые обычно используются в Множественных регрессиях с многовариантным ответом. Это было бы непросто сделать вне среды статистического программирования. Я бы посоветовал либо получить результат из уже существующей статистической программы, либо использовать ту, на которую вы можете ссылаться и использовать этот код.

Боюсь, что первый ответ (sain_grocen's) приведет вас по ложному пути. Его объяснение, вероятно, относится к частному случаю того, с чем вы на самом деле имеете дело. Anova, объясненная в его ссылках, предназначена для единственной вариативной реакции в сбалансированной конструкции. Это не та F-статистика, которую вы видите. Имена в вашем выводе (Pillai's Trace, Hotelling's Trace, ...) являются некоторыми из доступных многомерных версий. У них есть F-распределения при определенных предположениях. Я не могу объяснить здесь материал из учебников, я бы посоветовал вам начать с изучения «Прикладного многомерного статистического анализа» Джонсона и Уичерна.

Не могли бы вы объяснить, почему сам по себе SPSS не является хорошим решением проблемы? Может быть, он генерирует сводные таблицы в качестве выходных данных, которыми сложно манипулировать? Это стоимость программы?

F-статистика может возникать из любого количества конкретных тестов. F - это просто распределение (в общих чертах: описание "частот" групп значений), например Нормальное (Гауссово) или Равномерное. Как правило, они возникают из соотношений отклонений. Мнение: многие статистики (включая меня) считают F-тесты нестабильными (жаргон: ненадежный ).

Конкретная выходная статистика (след Пиллаи и т. Д.) Предполагает, что исходный анализ представляет собой пример MANOVA, который, как описывают другие плакаты, является сложной и трудно реализуемой процедурой.

Я также предполагаю, что, основываясь на MANOVA и использовании SPSS, это психологический или социологический проект ... если нет, пожалуйста, просветите. Возможно, что другие, более простые модели на самом деле будут более легкими для понимания и более воспроизводимыми. Проконсультируйтесь со статистической консультационной группой вашего местного университета, если она у вас есть.

Удачи!

Из вашего вопроса я предполагаю, что ваши коллеги-исследователи хотят автоматизировать процесс, с помощью которого выполняется определенный статистический анализ (т. Е. Они хотят обрабатывать наборы данных в пакетном режиме). У вас есть два варианта:

1) SPSS теперь поддерживает скрипты через python (начиная с версии 15) - перейдите на spss.com и найдите python. Вы можете писать сценарии на Python для автоматизации анализа данных и извлечения ключевых значений из сводных таблиц, а затем обрабатывать ответы любым удобным для вас способом. Это позволяет точно сравнивать результаты вашего скрипта python и рассчитанные вручную усилия ваших соавторов в SPSS. Таким образом, вам не нужно будет действительно знать статистику для выполнения этой работы (что является ключевым преимуществом).

2) Вы можете сделать это в R, бесплатной среде статистики, которая, вероятно, может быть написана сценарием. Это имеет тот недостаток, что вам придется изучать статистику, чтобы убедиться, что вы делаете это правильно.

Вот объяснение вывода MANOVA с очень хорошего сайта по статистике и SPSS:

Вывод с объяснением: http://faculty.chass.ncsu.edu/garson/PA765/manospss.htm

Как и зачем выполнять MANOVA или многомерную GLM: (тот же путь, что и выше, но заканчивается на '/manova.htm')

Написание программного обеспечения с нуля для расчета этих результатов было бы долгим и трудным; предстоит решить множество числовых задач и обращений матриц.

Как сказал Генри, используйте скрипты Python или R. Я бы посоветовал поработать с кем-нибудь, кто знает SPSS, если вы пишете скрипты. Кроме того, сам SPSS может экспортировать выходные таблицы в файлы с помощью так называемого OMS. Это может сделать сценарий в SPSS.

Узнайте, кто в вашей исследовательской группе знает SPSS, и поработайте с ними.