Как сделать статистическую обработку данных

Статистическая обработка данных с помощью Excel

Как сделать статистическую обработку данных Как сделать статистическую обработку данных Как сделать статистическую обработку данных Как сделать статистическую обработку данных

Как сделать статистическую обработку данных

Как сделать статистическую обработку данных

Многие задачи статистического анализа можно решить, не прибегая непосредственно к законам распределения случайных величин, а используя лишь их статистические характеристики. Под случайной величиной понимают такую величину, значения которой изменяются случайным образом от одного испытания к другому, причем каждое из этих значений реализуется с той или иной вероятностью. Например, ежедневное количество покупателей в магазине изменяется случайно изо дня в день, принимая любые натуральные значения в некотором интервале. Наиболее часто при описании случайных величин используют такие статистические характеристики, как среднее значение, дисперсия, среднеквадратичное отклонение, мода, медиана и скос. Среднее значение случайной величины X вычисляют по формуле

Как сделать статистическую обработку данных,

Важно также знать, как сильно значения изучаемой величины отличаются от ее среднего, или, иначе говоря, насколько широк разброс случайной величины. Рассеивание случайной величины вокруг ее среднего характеризует дисперсия D[X]. Чем больше дисперсия, тем «случайнее» случайная величина. Для приближенного значения дисперсии дискретной случайной величины X используют следующую формулу:

Как сделать статистическую обработку данных.

На практике часто используют и другую характеристику рассеивания – среднеквадратичное отклонение sx, вычисляемое по формуле Как сделать статистическую обработку данных. Величина sx также характеризует размах колебаний случайной величины X около среднего значения, но sx, в отличие от D[X], имеет ту же размерность, что и случайная величина X.

Для вычисления этих и многих других статистических характеристик Excel располагает широким набором статистических функций. Их полный список можно получить, выбрав команду Функция из меню Вставка. Применение этих функций позволяет существенно упростить статистический анализ данных различного типа.

Excel предусматривает также применение 18 статистических инструментов анализа, в том числе такие, как описательная статистика, гистограмма, генерация случайных чисел, корреляция, ковариация и ряд других. Эти инструменты позволяют автоматизировать анализ данных и статистических параметров. Доступ к ним можно получить, выбрав в меню Сервис команду Анализ данных. Затем в диалоговом окне Инструменты анализа следует выбрать нужный инструмент и задать входной и выходной интервалы, а также другие требуемые параметры. Например, инструмент анализа Описательная Статистика создает список одномерных статистических характеристик для данных во входном интервале. Инструмент Описательная Статистика генерирует, в частности, следующие выходные значения: дисперсию выборки, среднеквадратичное отклонение, медиану, моду и скос. Подробнее об этих функциях можно прочитать в соответствующих разделах встроенной Справки.

Возможно, в Вашей системе не установлены инструменты анализа статистических данных. В этом случае следует выбрать команду Сервис Þ Надстройки, далее в появившемся диалоговом окне нужно установить флажок в окне Список надстроек для строки Пакет анализа и щелкнуть по кнопке ОК.

Лабораторная работа № 8.

Создание простых таблиц, автоматическое заполнение, автосуммирование. Форматирование в Excel

Цель работы: научиться осуществлять перемещение по таблице, ввод/удаление данных в таблицу; изучить возможности форматирования и автозаполнения; производить автосуммирование.

Перед выполнением лабораторной работы необходимо изучить следующие разделы:

— создание, открытие, закрытие, сохранение книги;

— добавление, переименование рабочего листа книги;

— ввод чисел и формул в ячейку;

— форматирование содержимого ячейки, блока ячеек;

— автозаполнение числами, формулами;

— относительные и абсолютные ссылки;

— использование функций и формул в таблице;

— работа с данными из разных книг;

— скрытие и отображение блока столбцов (строк).

Источник

Первичная статистическая обработка данных

Как сделать статистическую обработку данных Как сделать статистическую обработку данных Как сделать статистическую обработку данных Как сделать статистическую обработку данных

Как сделать статистическую обработку данных

Как сделать статистическую обработку данных

Лабораторная работа №3. Статистическая обработка данных в системе MatLab

Общая постановка задачи

Основной целью выполнения лабораторной работы является ознакомление с основами работы со статистической обработкой данных в среде MatLAB.

Теоретическая часть

Первичная статистическая обработка данных

Статистическая обработка данных основывается на первичных и вторичных количественных методах. Цель первичной обработки статистических данных является структурирование полученных сведений, подразумевающее группировку данных в сводные таблицы по различным параметрам. Первичные данных должны быть представлены в таком формате, чтобы человек смог провести приближенную оценку полученной совокупности данных и выявить информацию о распределении данных полученной выборки данных, например, однородность или компактность данных. После первичного анализа данных применяются методы вторичной статистической обработки данных, на основании которых определяются статистические закономерности в имеющемся наборе данных.

Проведение первичного статистического анализа над массивом данных позволяет получить знания о следующем:

— Какое значение наиболее характерно для выборки? Для ответа на данный вопрос определяются меры центральной тенденции.

— Велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных? В данном случае определяются меры изменчивости.

Стоит отметить тот факт, что статистические показатели меры центральной тенденции и изменчивостиопределяются только на количественных данных.

Меры центральной тенденции– группа величин, вокруг которых группируются остальные данные.Таким образом, меры центральной тенденции обобщают массив данных, что делает возможным формирование умозаключений как о выборке в целом, так и проведение сравнительного анализа разных выборок друг с другом.

Допустим имеется выборка данных Как сделать статистическую обработку данных, тогда меры центральной тенденции оцениваются следующими показателями:

1. Выборочное среднее– это результат деления суммы всех значений выборки на их количество.Определяется по формуле (3.1).

Как сделать статистическую обработку данных(3.1)

где Как сделать статистическую обработку данныхi-й элемент выборки;

n – количество элементов выборки.

Выборочное среднее позволяет получить наибольшую точность в процессе оценки центральной тенденции.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Выборочное среднее в данном случае S=34.

2. Медиана– формирует значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Определяется в зависимости четности/нечетности количества элементов выборке по формулам (3.2) или (3.3).Алгоритм оценки медианы для выборки данных Как сделать статистическую обработку данных:

— Первым делом данные ранжируются (упорядочиваются) по убыванию/возрастанию Как сделать статистическую обработку данных.

— Если в упорядоченной выборке нечетное число элементов, то медиана совпадает с центральным значением.

Как сделать статистическую обработку данных(3.2)

— В случае четного числа элементов медиана определяется как как среднее арифметическое двух центральных значений.

Как сделать статистическую обработку данных(3.3)

где Как сделать статистическую обработку данных— средний элемент упорядоченной выборки;

Как сделать статистическую обработку данных— элемент упорядоченной выборки следующий за Как сделать статистическую обработку данных;

Как сделать статистическую обработку данных— количество элементов выборки.

-В том случае, если все элементы выборки различны, то ровно половина элементов выборки больше медианы, а другая половина меньше. Например, для выборки <1, 5, 9, 15, 16>медиана совпадает с элементом 9.

В статистическом анализе данных медиана позволяет определить элементы выборки, которые сильно влияют на значение выборочного среднего.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Медиана, после упорядочивания выборки, определяется как среднеарифметическое десятого и одиннадцатого элементов выборки) и равняется Ме=20 т.р. Данный результат интерпретируется следующим образом: медиана делит выборку на две группу, таким образом, что можно сделать заключение о том, что в первой группе у каждого человека средний ежемесячный доход не более 20 т.р., а во второй группе не менее 20 т.р. В данном примере можно говорить о том, что медиана характеризуется тем, сколько зарабатывает «средний» человек. В то время как значение выборочного среднего значительно превышено S=34, что указывает на неприемлемость данной характеристики при оценке среднего заработка.

Таким образом, чем больше различие между медианой и выборочным средним, тем больший разброс данных выборки (в рассмотренном примере, человек с заработком в 300 т.р. явно отличается от среднестатистических людей конкретной выборки и оказывает существенное влияние на оценку среднего дохода). Что делать с подобными элементами решается в каждом индивидуальном случае. Но в общем случае для обеспечения достоверности выборки они изымаются, так как оказывают сильное влияние на оценку статистических показателей.

3. Мода (Мо) – формирует значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.Алгоритм оценки моды:

-В том случае, когда выборка содержит элементы, встречающиеся одинаково часто, то говорят, что мода в подобной выборке отсутствует.

— Если два соседних элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, то мода определяется как среднее этих двух значений.

— Если два элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, и при этом данные элементы не являются соседними, то говорят, что в данной выборке две моды.

Мода в статистическом анализе используется в ситуациях, когда необходимо проведение быстрой оценки меры центральной тенденции и не требуется высокая точность. Например, моду (по показателю размер либо бренд) удобно применять для определения одежды и обуви, которая пользуется наибольшим спросом у покупателей.

Меры разброса (изменчивости)– группа статистических показателей, характеризующих различия между отдельными значениями выборки. Основываясь на показателях мер разброса можно оценивать степень однородности и компактности элементов выборки. Меры разброса, характеризуются следующим набором показателей:

Как сделать статистическую обработку данных(3.4)

Где Как сделать статистическую обработку данных— максимальный элемент выборки;

Как сделать статистическую обработку данных— минимальный элемент выборки.

2.Среднее отклонение– среднеарифметическая разница (по абсолютной величине) между каждым значением в выборке и ее выборочным средним. Среднее отклонение определяется по формуле (3.5).

Как сделать статистическую обработку данных(3.5)

где Как сделать статистическую обработку данныхi-й элемент выборки;

Как сделать статистическую обработку данных— значение выборочного среднего, рассчитанное по формуле (3.1);

Как сделать статистическую обработку данных— количество элементов выборки.

Модуль Как сделать статистическую обработку данныхнеобходим в связи с тем, что отклонения от среднего по каждому конкретному элементу могут быть как положительными так и отрицательными. Следовательно, если не взять модуль, то сумма всех отклонений будет близка к нулю и невозможно будет судить о степени изменчивости данных (скученности данных вокруг выборочного среднего). При проведении статистического анализа могут быть взяты мода и медиана вместо выборочного среднего.

3. Дисперсия — мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Вычисляется как сумма квадратов отклонений каждого элемента выборки от средней величины. В зависимости от размера выборки дисперсия оценивается разными способами:

— для больших выборок (n>30) по формуле (3.6)

Как сделать статистическую обработку данных(3.6)

Источник

Первичная статистическая обработка данных

Все методы количественной обработки принято подразделять на первичные и вторичные. Первичная статистическая обработка нацелена на упоря­дочивание информации об объекте и предмете изучения. На этой стадии «сырые» сведения группируются по тем или иным критериям, заносятся в сводные таблицы. Первично обработанные данные, представленные в удобной форме, дают исследователю в первом приближении понятие о характере всей совокупности данных в целом: об их однородности – неоднородности, компактности – разбросанности, четкости – размытости и т.д. Эта информация хорошо считывается с наглядных форм представления данных и дает сведения об их Как сделать статистическую обработку данныхраспределении.

В ходе применения первичных методов статистической обработки получаются показатели, непосредственно связан­ные с производимыми в исследовании измерениями.

К основным методам первичной статистической обработ­ки относятся: вычисление мер центральной тенденции и мер разброса (изменчивости) данных.

Первичный статистический анализ всей совокупности полученных в исследовании данных дает возможность оха­рактеризовать ее в предельно сжатом виде и ответить на два главных вопроса: 1) какое значение наиболее характерно для выборки; 2) велик ли разброс данных относительно этого ха­рактерного значения, т.е. какова «размытость» данных. Для решения первого вопроса вычисляются меры центральной тенденции, для решения второго – меры изменчивости (или разброса). Эти статистические показатели используются в от­ношении количественных данных, представленных в поряд­ковой, интервальной или пропорциональной шкале.

Меры центральной тенденции –это величины, вокруг ко­торых группируются остальные данные. Данные величины являются как бы обобщающими всю выборку показателя­ми, что, во-первых, позволяет судить по ним обо всей выбор­ке, а во-вторых, дает возможность сравнивать разные выбор­ки, разные серии между собой. К мерам центральной тенденции в обработке результатов психологических иссле­дований относятся: выборочное среднее, медиана, мода.

Выборочное среднее (М) – это результат деления суммы всех значений (А) на их количество (N).

Как сделать статистическую обработку данных

Медиана (Me) –это значение, выше и ниже которого ко­личество отличающихся значений одинаково, т.е. это цент­ральное значение в последовательном ряду данных. Медиана не обязательно должна совпадать с конкретным значением. Совпадение происходит в случае нечетного числа значений (ответов), несовпадение – при четном их числе. В последнем случае медиана вычисляется как среднее арифметическое двух центральных значений в упорядоченном ряду.

Мода (Мо) –это значение, наиболее часто встречающееся в выборке, т.е. значение с наибольшей частотой. Если все значения в группе встречаются одинаково часто, то считает­ся, что моды нет. Если два соседних значения имеют одина­ковую частоту и больше частоты любого другого значения, мода есть среднее этих двух значений. Если то же самое отно­сится к двум несмежным значениям, то существует две моды, а группа оценок является бимодальной.

Обычно выборочное среднее применяется при стремлении к наибольшей точности в определении центральной тенден­ции. Медиана вычисляется в том случае, когда в серии есть «нетипичные» данные, резко влияющие на среднее. Мода ис­пользуется в ситуациях, когда не нужна высокая точность, но важна быстрота определения меры центральной тенденции.

Вычисление всех трех показателей производится также для оценки распределения данных. При нормальном распреде­лении значения выборочного среднего, медианы и моды оди­наковы или очень близки.

Меры разброса (изменчивости) –это статистические по­казатели, характеризующие различия между отдельными зна­чениями выборки. Они позволяют судить о степени однород­ности полученного множества, его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее используемые в психологических ис­следованиях показатели: среднее отклонение, дисперсия, стандартное отклонение.

Размах (Р) – это интервал между максимальным и мини­мальным значениями признака. Определяется легко и быст­ро, но чувствителен к случайностям, особенно при малом чис­ле данных.

Среднее отклонение (МД) – это среднеарифметическое разницы (по абсолютной величине) между каждым значени­ем в выборке и ее средним.

Как сделать статистическую обработку данных

Множество всех конкретных отклонений от среднего ха­рактеризует изменчивость данных, но если не взять их по аб­солютной величине, то их сумма будет равна нулю и мы не получим информации об их изменчивости. Среднее отклоне­ние показывает степень скученности данных вокруг выбо­рочного среднего. Кстати, иногда при определении этой ха­рактеристики выборки вместо среднего (М) берут иные меры центральной тенденции – моду или медиану.

Как сделать статистическую обработку данныхДисперсия (D) характеризует отклонения от средней вели­чины в данной выборке. Вычисление дисперсии позволяет избежать нулевой суммы конкретных разниц (d = X — М)не через их абсолютные величины, а через их возведение в квад­рат:

Стандартное отклонение (σ). Из-за возведения в квадрат отдельных отклонений dпри вычислении дисперсии полу­ченная величина оказывается далекой от первоначальных отклонений и потому не дает о них наглядного представле­ния. Чтобы этого избежать и получить характеристику, со­поставимую со средним отклонением, проделывают обрат­ную математическую операцию – из дисперсии извлекают квадратный корень. Его положительное значение и прини­мается за меру изменчивости, именуемую среднеквадратическим, или стандартным, отклонением:

Как сделать статистическую обработку данных

МД, D иσ применимы для интервальных и пропорционных данных. Для порядковых данных в качестве меры из­менчивости обычно берут полуквартильное отклонение (Q), именуемое еще полуквартильным коэффициентом.

Дата добавления: 2014-01-15 ; Просмотров: 1860 ; Нарушение авторских прав?

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *