Коэффициент вариации в статистике: примеры расчета. Формула вариация


Коэффициент вариации

Из всех показателей вариации среднеквадратическое отклонение в наибольшей степени используется для проведения других видов статистического анализа. Однако среднеквадратическое отклонение дает абсолютную оценку меры разбросанности значений и чтобы понять, насколько она велика относительно самих значений, требуется относительный показатель. Такой показатель называется он коэффициент вариации.

Формула коэффициента вариации:

Данный показатель измеряется в процентах (если умножить на 100%).

В статистике принято, что, если коэффициент вариации

меньше 10%, то степень рассеивания данных считается незначительной,

от 10% до 20% - средней,

больше 20% и меньше или равно 33% - значительной,

значение коэффициента вариации не превышает 33%, то совокупность считается однородной,

если больше 33%, то – неоднородной.

Средние, рассчитанные для однородной совокупности – значимы, т.е. действительно характеризуют эту совокупность, для неоднородной совокупности – незначимы, не характеризуют совокупность из-за значительного разброса значений признака в совокупности.

Возьмем пример с расчетом среднего линейного отклонения.

 

 

И график для напоминания

По этим данным рассчитаем: среднее значение, размах вариации, среднее линейное отклонение, дисперсию и стандартное отклонение.

Среднее значение – это обычная средняя арифметическая.

 

 

Размах вариации – разница между максимумом и минимумом:

 

 

Среднее линейное отклонение считается по формуле:

 

 

 

Дисперсия считается по формуле:

 

 

Среднеквадратическое отклонение – квадратный корень из дисперсии:

 

 

Расчет сведем в табличку.

 

 

Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.

  1. Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.

  2. Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.

  3. Дисперсия – средний квадрат отклонений.

  4. Среднеквадратическое отклонение – корень из дисперсии (среднего квадрата отклонений).

  5. Коэффициент вариации – наиболее универсальных показатель, отражающий степень разбросанности значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.

Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных. Исключением является коэффициент вариации, который характеризует однородность данных, что является ценной статистической характеристикой.

7

studfiles.net

Статистика Ответы

  1. Абсолютные и относительные показатели вариации

Вариация- количественное различие значений одного и того же признака у отдельных единиц совокупности. Термин «вариация» имеет латинское происхождение - variatio, что означает различие, изменение, колеблемость. Изучение вариации в статистической практике позволяет установить зависимость между изменением, которое происходит в исследуемом признаке, и теми факторами, которые вызывают данное изменение.

К абсолютным показателям вариации относят:

  • размах вариации

  • среднее линейное отклонение

  • среднее квадратическое отклонение

  • дисперсию.

Размах вариации R. Это самый доступный по простоте расчета абсолютный показатель, который определяется как разность между самым большим и самым малым значениями признака у единиц данной совокупности:

Среднее линейное отклонениеd, которое вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности. Эта величина определяется как средняя арифметическая из абсолютных значений отклонений от средней. Так как сумма отклонений значений признака от средней величины равна нулю, то все отклонения берутся по модулю

Формула среднего линейного отклонения (простая)

Формула среднего линейного отклонения (взвешенная)

Дисперсия (среднее квадратическое отклонение в квадрате) – обобщающая хар-ка размеров вариации признаков совокупности

Средняя квадратическая простая

Средняя квадратическая взвешенная

Дисперсия есть не что иное, как средний квадрат отклонений индивидуальных значений признака от его средней величины.

Формулы дисперсии взвешенной и простой :

Свойства дисперсии

  1. Дисперсия постоянной величины равна

  2. Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат.

  3. Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин.

  4. Дисперсия разности двух независимых случайных величин равна сумме дисперсий этих величин

Относительные показатели рассчитываются как отношение размаха вариации к средней величине признака (коэффициент осцилляции), отношение среднего линейного отклонения к средней величине признака (линейный коэффициент вариации), отношение среднего квадратического отклонения к средней величине признака (коэффициент вариации) и, как правило, выражаются в процентах.

Формулы расчета относительных показателей вариации:

где VR - коэффициент осцилляции; - линейный коэффициент вариации; - коэффициент вариации.

Совокупность считается однородной если коэф вариации не превышает 33%

  1. Абсолютные и относительные средние показатели

Средней величинойназывается статистический показатель, который дает обобщенную характеристику варьирующего признака однородных единиц совокупности.

Сущность средней заключается в том, что в ней взаимопогашаются случайные отклонения значений признака и учитываются изменения вызванные основным фактором.

Важнейшими условиями (принципами) для правильного вычисления и использования средних величин является следующие:

  1. В каждом конкретном случае необходимо исходить из качественного содержания осредняемого признака, учитывать взаимосвязь изучаемых признаков и имеющиеся для расчета данные.

  2. Индивидуальные значения, из которых вычисляются средние, должны относиться к однородной совокупности, а число их должно быть значительным.

Виды средних величин

Средние величины делятся на два больших класса: степенные средние и структурные средние

Степенные средние:

Простая средняя арифметическая — Равна отношению суммы индивидуальных значений признака к количеству признаков в совокупности

Эту среднюю называют обратной средней арифметической, поскольку эта величина используется при k = -1

Среднегеометрическая величина дает возможность сохранять в неизменном виде не сумму, а произведение индивидуальных значений данной величины

Геометрическая простая

где:

хi- цепной коэффициент роста

n- число этих коэффициентов роста

П - знак произведения

m- количество уровней ряда

уо - значение начального уровня ряда

уi- значение конечного уровня ряда

Геометрическая взвешенная

Среднеквадратические величины используются для расчета некоторых показателей, например коэффициент вариации, характеризующего ритмичность выпуска продукции. Здесь определяют среднеквадратическое отклонение от планового выпуска продукции за определенный период по следующей формуле:

Квадратическая простая

Квадратическая взвешенная

Структурные средние:

Мода — значение во множестве наблюдений, которое встречается наиболее часто.

где:

Mo- значение моды

Xo- нижняя граница модального интервала

h - величина интервала

fm- частота модального интервала

f(m-1) - частота интервала, предшествующего модальному

f(f+1) - частота интервала, следующего за модальным

Медиана — это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:

Ме = (n(число признаков в совокупности) + 1)/2,

в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда)

Выбор формы средней величины зависит от исходной базы расчета средней и от имеющейся экономической информации для ее расчета.

  1. Сущность, виды и формулы для вычисления средних показателей. Область их применения

Средней величиной называется статистический показатель, который дает обобщенную характеристику варьирующего признака однородных единиц совокупности.

Сущность средней заключается в том, что в ней взаимопогашаются случайные отклонения значений признака и учитываются изменения вызванные основным фактором.

Статистическая обработка методом средних величин заключается в замене индивидуальных значений варьирующего признака некоторой уравновешенной средней величиной. (формулы – вопрос 2)

Средние величины — в статистическом понимании это обобщающие показатели совокупности однотипных явлений по какому-либо количественному признаку. Цели определения средних величин следующие:

ослабить влияние случайных факторов на изучаемый показатель;

получить сводный показатель, описывающий данную совокупность в целом.

Иначе говоря, средние величины — это концентраторы информации: вместо совокупности признаков получается один показатель, используемый для дальнейшего анализа.

Важнейшим условием определения достоверности средних величин является однородность изучаемой совокупности. Нарушение этого требования приводит к появлению фиктивных средних, искажающих статистические выводы. Совокупность считается однородной по какому-либо признаку, если все составляющие ее единицы относятся к одному и тому же типу и значения признака формируются под влиянием общих, систематически действующих факторов.

Применяется везде, привести примеры любых видов производства

  1. Организация государственной статистики в России

Предоставление статистической информации — главная задача органов государственной статистики, информация является продукцией их деятельности. Как любая продукция, она имеет стоимость. Особенно дорогостоящей является информация, получение которой выходит за пределы программы работы государственной статистики.

Структура органов государственной статистики соответствует административно-территориальному делению страны. В автономных республиках, в краях и областях, а также в Москве и Санкт-Петербурге работают комитеты по статистике. Низовым звеном являются инспектуры государственной статистики, которые имеются в административных районах краев и областей, крупных городах.

Местные статистические органы издают региональные статистические сборники. Например, Петербургкомстат издает ежегодник «Народное хозяйство Санкт-Петербурга и Ленинградской области в _ году»; Комитет по статистике г. Москвы — сборник «Москва в цифрах» и т.д. Издаются и специализированные статистические сборники по отдельным отраслям экономики, социальной статистике, статистике населения и т.д. Однако тираж их, как правило, небольшой, поэтому сборники малодоступны неспециалистам.

Основные функции всех статистических органов — это сбор, обработка, анализ и представление данных в удобном для пользователя виде. Статистические службы должны оперативно предоставлять информацию органам управления, осуществлять обмен информацией с Центральным банком РФ и его органами на местах, Министерством финансов РФ и его местными органами, Минимуществом РФ и его службами, Министерством труда и социального развития России и т.д.

Все статистические органы, кроме райинспектур, имеют внутреннюю структуру: отделы (а в Госкомстате РФ — управления) статистики предприятий, сельского хозяйства, капитального строительства и т.д. Государственная статистика призвана отражать комплексность развития народного хозяйства страны и отдельных регионов, взаимосвязи между территориями. Эти функции выполняют отделы (управления) балансовых работ и системы национальных счетов, статистики финансов, сводный отдел.

Оперативность и качество статистических работ зависят от развития технологии сбора, передачи, обработки и хранения информации. Областные, краевые и республиканские управления и комитеты по статистике имеют вычислительные центры. Мощный вычислительный центр имеет Госкомстат РФ (ГВЦ РФ). Все большее значение приобретают локальные вычислительные сети, связывающие банки данных статистических служб, других держателей региональной и федеральной информации. Государственный комитет по статистике РФ входит в структуру федеральных органов исполнительной власти.

Госкомстат РФ является методологическим и организационным центром работы всех служб государственной статистики. В его структуре имеется специальное Управление методологии статистических работ. Здесь разрабатывается федеральный план статистических работ на год и перспективу, методология расчета статистических показателей, сбора и разработки статистических данных.

Большую роль в методологической работе играет Научно-исследовательский институт статистики Госкомстата РФ. В этой работе принимает участие и Научно-методологический совет Госкомстата РФ, который объединяет ведущих работников государственной статистики и представителей экономической и статистической науки.

В последние годы методологическая работа Госкомстата РФ направлена на внедрение интегрированной системы учета и статистики, соответствующей международным стандартам, прежде всего, на разработку системы национальных счетов Российской Федерации, позволяющей исследовать формирование основных пропорций экономики и рассчитывать важнейшие макроэкономические показатели, используемые в международной практике, а также на измерение инфляции и уровня жизни. Эта работа ведется при участии международных статистических организаций и национальных статистических служб развитых стран. Широко распространились международные связи между национальными статистическими службами и на региональном уровне.

  1. Статистические сводка и группировка

Собранный в процессе статистического наблюдения материал нуждается в определенной обработке, сведении разрозненных данных воедино. Научно организованная обработка материалов наблюдения (по заранее разработанной программе), включающая в себя кроме обязательного контроля собранных данных систематизацию, группировку материалов, составление таблиц, получение итогов и производных показателей (средних, относительных величин), называется в статистике сводкой.

Сводкапредставляет собой второй этап статистического исследования. Целью сводки является получение на основе сведенных материалов обобщающих статистических показателей, отражающих сущность социально-экономических явлений и определенные статистические закономерности.

Сводка представляет собой комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом.

Таким образом, если при статистическом наблюдении собирают данные о каждой единице объекта, то результатом сводки являются подробные данные, отражающие в целом всю совокупность.

Статистическая сводка должна вестись на основе предварительного теоретического анализа явлений и процессов. Это необходимо для того, чтобы во время сводки не потерять информацию об исследуемом явлении и все статистические итоги отражали важнейшие характерные черты объекта.

По глубине обработки материала сводка бывает простая и сложная.

Простойсводкой называется операция по подсчету общих итогов по совокупности единиц наблюдения.

Сложнаясводка представляет собой комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по всему объекту и представление результатов группировки и сводки в виде статистических таблиц.

Проведению сводки предшествует разработка ее программы, которая состоит из следующих этапов: выбор группировочных признаков; определение порядка формирования групп; разработка системы статистических показателей для характеристики групп и объекта в целом; разработка системы макетов статистических таблиц, в которых должны быть представлены результаты сводки.

По форме обработки материала сводка бывает децентрализованная и централизованная.

При децентрализованной сводке(именно она используется, как правило, при обработке статистической отчетности) разработка материала производится последовательными этапами.

При централизованной сводкевесь первичный материал поступает в одну организацию, где и подвергается обработке от начала и до конца. Централизованная сводка обычно используется для обработки материалов единовременных статистических обследований.

По технике выполнения статистическая сводка подразделяется на механизированную и ручную.

Механизированная сводка- это способ выполнения сводки статистических данных, при котором все операции осуществляются с помощью применения компьютеров.

При ручной сводке все основные операции (подсчет групповых и общих итогов) осуществляются вручную. В настоящее время ручная сводка в обработке информации используется крайне редко.

Для проведения сводки составляется план, в котором излагаются организационные вопросы: кем и когда будут осуществляться все операции, порядок ее проведения, состав сведений, подлежащих опубликованию в периодической печати.

Группировка– это разбиение совокупности на группы, однородные по какому-либо признаку. С точки зрения отдельных единиц совокупности группировка – это объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам.

Устойчивое разграничение объектов выражается классификацией, которая основывается на самых существенных признаках (например, классификация отраслей народного хозяйства, классификация основных фондов и т.д.). Таким образом, классификация – это узаконенная, общепринятая, нормативная группировка.

Метод группировки основывается на следующих категориях – это группировочный признак, интервал группировки и число групп.

Группировочный признак– это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы.

Интервал очерчивает количественные границы групп. Как правило, он представляет собой промежуток между максимальными и минимальными значениями признака в группе. Интервалы бывают:

  • неравные, когда, например, ширина интервала постепенно увеличивается, а верхний интервал часто не закрывается вовсе;

  • открытые, когда имеется только либо верхняя, либо нижняя граница;

Определение числа групп. Здесь необходимо учитывать несколько условий:

а) число групп детерминируется уровнем колеблемости группировочного признака. Чем значительнее вариация признака, тем больше при прочих равных условиях должно быть групп;

б) число групп должно отражать реальную структуру изучаемой совокупности;

в) не допускается выделение пустых групп. Если проблема пустых групп все же возникает, при проведении структурных группировок используют неравные интервалы. Для нахождения числа групп служит формула

где N – количество элементов совокупности

При проведении группировки приходится решать ряд задач:

1) выделение группировочного признака;

2) определение числа групп и величины интервалов;

3) при наличии нескольких группировочных признаков описание того, как они комбинируются между собой;

4) установление показателей, которыми должны характеризоваться группы, т.е. сказуемого группировки.

Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования существующих зависимостей. Каждой из этих целей соответствует особый вид группировки: типологическая, структурная, аналитическая (факторная).

  • Структурная дает возможность описать составные части совокупности или строение типов, а также проанализировать структурные сдвиги.

В зависимости от числа положенных в их основание признаков различают простые и многомерныегруппировки.

Группировка, выполненная по одному признаку, называется простой.

Многомернаягруппировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации.

Структурная группировка применяется для характеристики структуры совокупности и структуры сдвигов.

Структурныйназывается группировка, в которой происходит разделение выделенных с помощью технологической группировки типов явлений, однородных совокупностей на группы, характеризующие их структуру по какого либо варьирующему признаку. Например, группировка населения по размеру среднедушевого дохода. Анализ структурных группировок взятых за ряд периодов или моментов времени, показывает изменения структуры изучаемых явлений, то есть структурные сдвиги. В изменении структуры общественных явлений отражаются важнейшие закономерности их развития.

Показатель численности групп представлен либо частотой (количеством единиц в каждой группе), либо частотностью (удельным весом каждой группы)

Вторичные группировки— результат объединения или расщепления первичных группировок, они позволяют преодолевать несопоставимость исходных данных в первичных группировках и тем самым объединять их в одну общую и выполнять сравнение, сопоставление данных, представленных в них после проведения вторичной группировки.

При разработке первичной группировки существенное значение имеет выбор числа групп. Число групп зависит от типа признака, положенного в основу группировки (основания группировки), от объема совокупности, степени вариации признака.

При построении группировок по качественному признаку количество групп соответствует количеству уровней градации признака. При группировании по количественному признаку все множество значений признака делится на интервалы. При этом возможно два подхода: группировка с равными и неравными интервалами.

Для определения этих параметров в первом случае рекомендуется формула Стерджесса:

n = 1 + (3,322× lgN),

где N — количество наблюдений.

В этом случае величина интервала:

I = (Хmax - Xmin)/n. (5.2)

Основные этапы построения статистических группировок включают:

  • установление для каждой группировки показателей или их системы, которыми должны характеризоваться выделенные группы.

  1. Статистические таблица и график

Таблица – это форма наиболее рационального изложения цифрового материала.

Основа (остов) статистической таблицы - это ряд взаимопересекающихся горизонтальных и вертикальных линий, образующих по горизонтали строки, а по вертикали графи (столбцы).

В таблице есть подлежащее и сказуемое. Подлежащим таблица называется объект, который в ней характеризуется цифрами, сказуемое таблицы образует система показателей, которыми характеризуется объект изучения, т.е. подлежащее таблицы.

Виды таблиц:

  • простые таблицы – это те таблицы, в подлежащем которых нет группировок. Они бывают перечневые, хронологические и территориальные;

В простых таблицах, как правило, содержится справочный материал, где дается перечень групп или единиц, составляющих объект изучения. При этом части подлежащего не являются группами одинакового качества, отсутствует систематизация изучаемых единиц. Сказуемое этих таблиц содержит абсолютные величины, отражающие объемы изучаемых процессов.

Групповые и комбинационные таблицы предназначены для научных целей, где, в отличие от простых таблиц, в сказуемом - средние и относительные величины на основе абсолютных величин.

Групповая таблица - это таблица, где статистическая совокупность разбивается на отдельные группы по какому-либо одному существенному признаку, при этом каждая группа характеризуется рядом показателей. Примером такой группировки может быть разделение российских семей на группы по месту проживания (сельское и городское), где образуются подгруппы семей по количеству детей. Анализ этих группировок по материалам переписи позволил сделать вывод, что большинство семей, независимо от принадлежности к городскому или сельскому населению, имеют только по одному ребенку.

Комбинационная таблица - это таблица, где подлежащее представляет собой группировку единиц совокупности по двум и более признакам, которые распределяются на группы сначала по одному признаку, а затем на подгруппы по другому признаку внутри каждой из уже выделенных групп. Комбинационная таблица устанавливает существенную связь между факторами группировки.

При составлении таблиц необходимо соблюдать общие правила:

соблюдение правила округления чисел

Графикомназывают наглядное изображение статистических величин при помощи геометрических линий и фигур или географических картосхем (картограмм).

В каждом графике существуют основные элементы:

  • графический образ (основа графика) – это геометрические знаки, совокупность точек, линий, фигур, с помощью которых изображаются статистические величины;

Масштабные ориентиры определяются системой масштабных шкал.

Масштабом графика называется условная мера перевода числовой величины в графическую.

Масштабная шкала – это линия, отдельные точки которой могут быть в соответствии с принятым масштабом прочитаны как определенное значение статистического показателя.

Статистические графики классифицируются с разных точек зрения. Мы уже приводили их классификацию по характеру применяемых графических образов.

С точки зрения разрешаемых задач статистические графики можно разделить на:

studfiles.net

Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. Но наиболее информативными и часто используемыми явлются: дисперсия, среднеквадратичное отклонение и коэффициент вариации.

Напомню, что среднее линейное отклонение отражает среднее абсолютное отклонение значений от их средней величины. При расчете этого показателя, чтобы избежать взаимопогашения положительных и отрицательных отклонений, используется модуль, то есть каждое отклонение от средней берется с положительным знаком. Та же идея лежит в расчете другого известного в статистике показателя, только отклонения берутся не по модулю, а возводятся в квадрат. Квадрат любого числа, как известно, всегда будет положительным.

Дисперсия

Речь идет о дисперсии случайной величины. Это очень важный показатель, который активно используется в различных методах статистического анализа (проверка гипотез, анализ причинно-следственных связей и др.). Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

То есть дисперсия - это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое.

где

s2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

X̅– среднее арифметическое по выборке.

Примечание. Для расчета дисперсии в Excel предусмотрена специальная функция.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. В то же время не все так плохо. При увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной. Поэтому при работе с большими размерами выборок можно использовать формулу выше.

Язык знаков полезно перевести на язык слов. Получится, что дисперсия - это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка заключается всего в трех словах.

Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который необходим для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.

Среднеквадратичное отклонение

Дабы вернуть дисперсию в реальность, то есть использовать в более приземленных целей, из нее извлекают квадратный корень. Получается так называемое среднеквадратичное отклонение (СКО). Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквы). Формула стандартного отклонения имеет вид:

Для получения этого показателя по выборке используют формулу:

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Среднеквадратичное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со среднеквадратичным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм, которое гласит, что у нормально распределенных данных 997 значений из 1000 находятся в пределах ±3 сигмы от средней арифметической. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.

Коэффициент вариации

Среднее квадратическое отклонение дает абсолютную оценку меры разброса. Поэтому чтобы понять, насколько разброс велик относительно самих значений (т.е. независимо от их масштаба), требуется относительный показатель. Такой показатель называется коэффициентом вариации и рассчитывается по следующей формуле:

Коэффициент вариации измеряется в процентах (если умножить на 100%). По этому показателю можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.

В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Мне здесь трудно что-то прокомментировать. Не знаю, кто и почему так определил, но это считается аксиомой.

Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Поэтому разнообразием примеров блеснуть трудно, Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных. Возьмем пример с расчетом среднего линейного отклонения (из предыдущей статьи). Вот исходные данные:

И график для напоминания.

 

По этим данным рассчитаем различные показатели вариации.

Среднее значение – это обычная средняя арифметическая.

Размах вариации – разница между максимумом и минимумом:

Среднее линейное отклонение считается по формуле:

Дисперсия:

Стандартное отклонение:

Расчет сведем в табличку.

Как видно, среднее линейное и среднеквадратичное отклонение дают похожие значения степени вариации данных. Дисперсия – это сигма в квадрате, поэтому она всегда будет относительно большим числом, что, собственно, ни о чем не говорит. Размах вариации – это разница между крайними значениями и может говорить о многом.

Подведем некоторые итоги.

Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.

1. Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.2. Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.3. Дисперсия – средний квадрат отклонений.4. Среднеквадратичное отклонение – корень из дисперсии (среднего квадрата отклонений).5. Коэффициент вариации – наиболее универсальный показатель, отражающий степень разброса значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.

Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных (расчет доверительных интервалов, проверка статистических гипотез и др.). Исключением является коэффициент вариации, который характеризует однородность данных, что является ценной статистической характеристикой.

Про дисперсию можно много чего еще рассказать. Например, у нее есть ряд полезных свойств. Но на сегодня все. До скорых встреч.

statanaliz.info

как рассчитать среднеарифметическое значение, мера дисперсии

Как доказать, что закономерность, полученная при изучении экспериментальных данных, не является результатом совпадения или ошибки экспериментатора, что она достоверна? С таким вопросом сталкиваются начинающие исследователи.Описательная статистика предоставляет инструменты для решения этих задач. Она имеет два больших раздела – описание данных и их сопоставление в группах или в ряду между собой.

Показатели описательной статистики

Существует несколько показателей, которые использует описательная статистика.

Среднее арифметическое

Итак, представим, что перед нами стоит задача описать рост всех студентов в группе из десяти человек. Вооружившись линейкой и проведя измерения, мы получаем маленький ряд из десяти чисел (рост в сантиметрах):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Если внимательно посмотреть на этот линейный ряд, то можно обнаружить несколько закономерностей:

  • Ширина интервала, куда попадает рост всех студентов, – 18 см.
  • В распределении рост наиболее близок к середине этого интервала.
  • Встречаются и исключения, которые наиболее близко расположены к верхней или нижней границе интервала.

Совершенно очевидно, что для выполнения задачи по описанию роста студентов в группе нет необходимости приводить все значения, которые будут измеряться. Для этой цели достаточно привести всего два, которые в статистике называются параметрами распределения. Это среднеарифметическое и стандартное отклонение от среднего арифметического. Если обратиться к росту студентов, то формула будет выглядеть следующим образом:

Среднеарифметическое значение роста студентов = (Сумма всех значений роста студентов) / (Число студентов, участвовавших в измерении)

Если свести все к строгим математическим терминам, то определение среднего арифметического (обозначается греческой буквой – μ («мю»)) будет звучать так:

Среднее арифметическое – это отношение суммы всех значений одного признака для всех членов совокупности (X) к числу всех членов совокупности (N).

Если применить эту формулу к нашим измерениям, то получаем, что μ для роста студентов в группе 175,5 см.

Стандартное отклонение

Если присмотреться к росту студентов, который мы измерили в предыдущем примере, то понятно, что рост каждого на сколько-то отличается от вычисленного среднего (175,5 см). Для полноты описания нужно понять, какой является разница между средним ростом каждого студента и средним значением.

На первом этапе вычислим параметр дисперсии. Дисперсия в статистике (обозначается σ2 (сигма в квадрате)) – это отношение суммы квадратов разности среднего арифметического (μ) и значения члена ряда (Х) к числу всех членов совокупности (N). В виде формулы это рассчитывается понятнее:

Значения, которые мы получим в результате вычислений по этой формуле, мы будем представлять в виде квадрата величины (в нашем случае – квадратные сантиметры). Характеризовать рост в сантиметрах квадратными сантиметрами, согласитесь, нелепо. Поэтому мы можем исправить, точнее, упростить это выражение и получим среднеквадратичное отклонение формулу и расчёт, пример:

Таким образом, мы получили величину стандартного отклонения (или среднего квадратичного отклонения) – квадратный корень из дисперсии. С единицами измерения тоже теперь все в порядке, можем посчитать стандартное отклонение для группы:

Получается, что наша группа студентов исчисляется по росту таким образом: 175,50±5,25 см.

Коэффициент вариации

Среднее квадратичное отклонение хорошо работает с рядами, в которых разброс значений не очень велик (это хорошо прослеживалось на примере роста, где интервал был всего 18 см). Если бы ряд наших измерений был значительнее, а варьирование роста было сильнее, то стандартное отклонение стало непоказательным и нам потребовался бы критерий, который может отразить разброс в относительных единицах (т. е. в процентах, относительно средней величины).

Для этих целей предусмотрены абсолютные и относительные показатели вариации в статистике, характеризующие вариационные масштабы:

  • Квадратический коэффициент вариации.
  • Размах вариации.
  • Коэффициент осцилляции.

Квадратический коэффициент вариации (обозначается как Vσ) – это отношение среднеквадратичного отклонения к среднеарифметическому значению, выраженное в процентах.

Для нашего примера со студентами, определить Vσ несложно — он будет равен 3,18%. Основная закономерность – чем больше будет изменяться значение коэффициента, тем больше разброс вокруг среднего значения и тем менее однородна выборка.

Преимущество коэффициента вариации в том, что он показывает однородность значений (асимметрия) в ряду наших измерений, кроме того, на него не оказывают влияния масштаб и единицы измерения. Эти факторы делают коэффициент вариации особенно популярным в биомедицинских исследованиях. Будет считаться, что эксцесс значения Vσ =33% отделяет однородные выборки от неоднородных.

Если найти в ряду значений роста (первый пример) максимальное и минимальное значения, то получим размах вариации (обозначается как R, иногда ещё называется колеблемостью). В нашем примере – это значение будет равно 18 см. Эта характеристика используется для расчёта коэффициента осцилляции:

Коэффициент осцилляции – показывает как размах вариации будет относиться к среднему арифметическому ряда в процентном отношении.

Расчёты в Microsoft Ecxel 2016

Можно рассчитать описанные в статье статистические показатели в программе Microsoft Excel 2016, через специальные функции в программе. Необходимая информация приведена в таблице:

Наименование показателя Расчёт в Excel 2016*
Среднее арифметическое =СРГАРМ(A1:A10)
Дисперсия =ДИСП.В(A1:A10)
Среднеквадратический показатель =СТАНДОТКЛОН.В(A1:A10)
Коэффициент вариации =СТАНДОТКЛОН.Г(A1:A10)/СРЗНАЧ(A1:A10)
Коэффициент осцилляции =(МАКС(A1:A10)-МИН(A1:A10))/СРЗНАЧ(A1:A10)

* — в таблице указан диапазон A1:A10 для примера, при расчётах нужно указать требуемый диапазон.

Итак, обобщим информацию:

  1. Среднее арифметическое – это значение, позволяющее найти среднее значение показателя в ряду данных.
  2. Дисперсия – это среднее значение отклонений возведенное в квадрат.
  3. Стандартное отклонение (среднеквадратичное отклонение) – это корень квадратный из дисперсии, для приведения единиц измерения к одинаковым со среднеарифметическим.
  4. Коэффициент вариации – значение отклонений от среднего, выраженное в относительных величинах (%).

Отдельно следует отметить, что все приведённые в статье показатели, как правило, не имеют собственного смысла и используются для того, чтобы составлять более сложную схему анализа данных. Исключение из этого правила — коэффициент вариации, который является мерой однородности данных.

1001student.ru

Коэффициент детерминации, коэффициент корреляции, коэффициент асимметрии, Эксцесс

Понятие коэффициента вариации

Коэффициент вариации — это отношение среднего квадратического отклонения к средней арифметической, выраженное в процентах. Он применяется для сравнений колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим.

Расчет коэффициента осуществляется по формуле:

Коэффициент вариации используют не только для сравнительной оценки единиц совокупности, но и также для характеристики однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%.

Пример решения задачи на нахождение коэффициента вариации Вы можете посмотреть здесь

Вариация признака определяется различными факторами, часть этих факторов можно выделить, если статистическую совокупность разделить на группы по определенному признаку. Тогда, наряду с изучением вариации признака по совокупности в целом, можно изучить вариацию для каждой из составляющих ее группы и между этими группами. В простом случае, когда совокупность разделена на группы по одному фактору, изучение вариации достигается посредством вычисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Эмпирический коэффициент детерминации

Эмпирический коэффициент детерминации широко применяется в статистическом анализе и является показателем, представляющим долю межгруппопой дисперсии в дисперсии результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х, он связан с коэффициентом корреляции квадратичной зависимостью. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи — единице.

Например, когда изучается зависимость производительности труда рабочих от их квалификации коэффициент детерминации равен 0,7, то на 70% вариация производительности труда рабочих обусловлена различиями в их квалификации и на 30% — влиянием прочих факторов.

Эмпирическое корреляционное отношение — это квадратный корень из коэффициента детерминации. Отношение показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение принимает значения от -1 до 1. Если связи нет, то корреляционное отношение равняется нулю, т.е. все групповые средние равняются между собой и межгрупповой вариации нет. Значит, группировочный признак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение равняется единице. В таком случае дисперсия групповых средних равна общей дисперсии, т.е. внутригрупповой вариации нет. Это значит, что группировочный признак полностью определяет вариацию результативного признака.

Чем ближе значение корреляционного отношения к единице, тем сильнее и ближе к функциональной зависимости связь между признаками. Для качественной оценки силы связи на основе показателя эмпирического коэффициента корреляции можно использовать соотношение Чэддока.

Соотношение Чэддока

  • Связь весьма тесная — коэффициент корреляции находится в интервале 0,9 — 0,99
  • Связь тесная — Rxy = 0,7 — 0,9
  • Связь заметная — Rxy = 0,5 — 0,7
  • Связь умеренная — Rxy = 0,3 — 0,5
  • Связь слабая — Rxy = 0,1 — 0,3

Источник: Балинова B.C. Статистика в вопросах и ответах: Учеб. пособие. — М.: ТК. Велби, Изд-во Проспект, 2004. — 344 с.

univer-nn.ru

Дисперсия, формула дисперсии, виды дисперсии, простая дисперсия, взвешенная дисперсия

Понятие дисперсии

Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:

1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:

2. Взвешенная дисперсия (для вариационного ряда): где n — частота (повторяемость фактора Х)

Пример нахождения дисперсии

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле: где X max– максимальное значение группировочного признака; X min–минимальное значение группировочного признака; n – количество интервалов: Принимаем n=5. Шаг равен: h = (192 — 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу: X’i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Пример 2. Определение групповой, средней из групповой, межгрупповой и общей дисперсии

Пример 3. Нахождение дисперсии и коэффициента вариации в группировочной таблице

Пример 4. Нахождение дисперсии в дискретном ряду

Формулу дисперсии можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии, вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i — величина интервала;А — условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;m1 — квадрат момента первого порядка;m2 — момент второго порядка

Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi — групповая средняя;ni — число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Правило сложения дисперсии в статистике

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповых дисперсий:

Смысл этого правила заключается в том, что общая дисперсия, которая возникает под влиянием всех факторов, равняется сумме дисперсий, которые возникают под влиянием всех прочих факторов, и дисперсии, возникающей за счет фактора группировки.

Пользуясь формулой сложения дисперсий, можно определить по двум известным дисперсиям третью неизвестную, а также судить о силе влияния группировочного признака.

Свойства дисперсии

1. Если все значения признака уменьшить (увеличить) на одну и ту же постоянную величину, то дисперсия от этого не изменится.2. Если все значения признака уменьшить (увеличить) в одно и то же число раз n, то дисперсия соответственно уменьшится (увеличить) в n^2 раз.

Источник: Балинова B.C. Статистика в вопросах и ответах: Учеб. пособие. — М.: ТК. Велби, Изд-во Проспект, 2004. — 344 с.

univer-nn.ru

Показатели вариации. Общая теория статистики

Показатели вариации

Не стоит забывать, что вариация — ϶ᴛᴏ различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение и будет необходимым звеном в экономическом анализе. Необходимость изучения вариации связана с тем, что средняя, являясь равнодействующей, реализует ϲʙᴏю основную задачу с разной степенью точности: чем меньше различия индивидуальных значений признака, подлежащих осреднению, тем однороднее совокупность, а, следовательно, точнее и надежнее средняя, и наоборот. Следовательно по степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию.

Изменение вариации признака в совокупности осуществляется с помощью абсолютных и относительных показателей.

Абсолютные показатели вариации включают:
  • размах вариации
  • среднее линейное отклонение
  • дисперсию
  • среднее квадратическое отклонение

Размах вариации (R)

Размах вариации — ϶ᴛᴏ разность между максимальным и минимальным значениями признака

Он показывает пределы, в кᴏᴛᴏᴩых изменяется величина признака в изучаемой совокупности.

Пример

Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет.Решение: размах вариации = 9 — 2 = 7 лет.

Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность .

При ϶ᴛᴏм во избежании превращения в нуль суммы отклонений вариантов признака от средней (нулевое ϲʙᴏйство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю , либо возводить значения отклонений в квадрат

Среднее линейное и квадратическое отклонение

Среднее линейное отклонение — ϶ᴛᴏ средняя арифметическая из абсолютных отклонений отдельных значений признака от средней.

Среднее линейное отклонение простое:

Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет.

В нашем примере: лет;

Ответ: 2,4 года.

Среднее линейное отклонение взвешенное применяется для сгруппированных данных:

Среднее линейное отклонение в силу его условности применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе качества продукции с учетом технологических особенностей производства).

Среднее квадратическое отклонение

В наибольшей степени совершенной характеристикой вариации будет среднее квадратическое откложение, кᴏᴛᴏᴩое называют стандартом (или стандартным отклонение). Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:

Среднее квадратическое отклонение простое:

Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:

Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1,25.

Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.

Дисперсия

Дисперсия - представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины.

Дисперсия простая:

В нашем примере:

Дисперсия взвешенная:

Более удобно вычислять дисперсию по формуле:

кᴏᴛᴏᴩая получается из основной путем несложных преобразований. В ϶ᴛᴏм случае средний квадрат отклонений равен средней из квадратов значений признака минус квадрат средней.

Для несгрупиированных данных:

Для сгруппированных данных:

Не стоит забывать, что вариация альтернативного признака заключается в наличии или отсутствии изучаемого ϲʙᴏйства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого ϲʙᴏйства обозначается единицей (1), а его отсутствие — нулем (0). Долю единиц, обладающих изучаемым признаком, обозначают буквой , а долю единиц, не обладающих данным признаком — через . Учитывая, что p + q = 1 (отсюда q = 1 — p), а среднее значение альтернативного признака равно

,

средний квадрат отклонений

Исходя из всего выше сказанного, мы приходим к выводу, что дисперсия альтернативного признака равна произведению доли единиц, обладающих данным ϲʙᴏйством (), на долю единиц, данным ϲʙᴏйством не обладающих ().

Максимальное значение средний квадрат отклонения (дисперсия) принимает в случае равенства долей, т.е. когда т.е. . Нижняя граница ϶ᴛᴏго показателя равна нулю, что ϲᴏᴏᴛʙᴇᴛϲᴛʙует ситуации, при кᴏᴛᴏᴩой в совокупности отсутствует вариация. Среднее квадратическое отклонение альтернативного признака:

Так, если в изготовленной партии 3% изделий оказались нестандартными, то дисперсия доли нестандартных изделий , а среднее квадратическое отклонение или 17,1%.

Среднее квадратическое отклонение равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической.

Относительные показатели вариации

Относительные показатели вариации включают:
  • Коэффициент осцилляции
  • Относительное линейное отклонение (линейный коэффициент варианции)
  • Коэффициент вариации (относительное отклонение)

Сравнение вариации нескольких совокупностей по одному и тому же признаку, а тем более по различным признакам с помощью абсолютных показателей не представляется возможным. В данных случаях для сравнительной оценки степени различия строят относительные показатели вариации. Стоит отметить - они вычисляются как отношения абсолютных показателей вариации к средней:

Коэффициент осцилляции
Относительное линейное отклонение
Коэффициент вариации

Рассчитываются и другие относительные характеристики. К примеру, для оценки вариации в случае асимметрического распределения вычисляют отношение среднего линейного отклонения к медиан

,

так как благодаря ϲʙᴏйству медианы сумма абсолютных отклонений признака от ее величины всегда меньше, чем от любой другой.

В качестве относительной меры рассеивания, оценивающей вариацию центральной части совокупности, вычисляют относительное квартильное отклонение , где — средний квартиль полусуммы разности третьего (или верхнего) квартиля () и первого (или нижнего) квартиля ().

.

На практике чаще всего вычисляют коэффициент вариации. Нижней границей ϶ᴛᴏго показателя будет нуль, верхнего предела он не имеет, однако известно, что с увеличением вариации признака увеличивается и его значение. Коэффициент вариации будет в известном смысле критерием однородности совокупности (в случае нормального распределения).

Рассчитаем коэффициент вариации на базе среднего квадратического отклонения для следующего примера. Расход сырья на единицу продукции составил (кг): по одной технологии при , а по другой — при. Непосредственное сравнение величины средних квадратических отклонений могло бы привести к неверному представлению о том, что вариация расхода сырья по первой технологии интенсивнее, чем по второй (. Относительная мера вариации ( позволяет сделать противоположный вывод

Пример расчета показателей вариации

На этапе отбора кандидатов для участия в осуществлении сложного проекта фирма объявлила конкурс профессионалов. Распределение претендентов по опыту работы показало средующие результаты:

Вычислим средний производственный опыт работы, лет

Рассчитаем дисперсию по продолжительности опыта работы

Такой же результат получается, если использовать для расчета другую формулу расчета дисперсии

Вычислим среднее квадратическое отклонение, лет:

Определим коэффициент вариации, %:

Правило сложения дисперсий

Для оценки влияния факторов, определяющих вариацию, используют прием группировки: совокупность разбивают на группы, выбрав в качестве группировочного признака один из определяющих факторов. Тогда наряду с общей дисперсией, рассчитанной по всей совокупности, вычисляют внутигрупповую дисперсию (или среднюю из групповых) и межгрупповую дисперсию (или дисперсию групповых средних).

Общая дисперсия характеризует вариацию признака во всей совокупности, сложившуюся под влиянием всех факторов и условий.

Межгрупповая дисперсия измеряет систематическую вариацию, обусловленную влиянием фактора, по кᴏᴛᴏᴩому произведена группировка:

  • — групповые средние,
  • — численность единиц i-й группы

Внутригрупповая дисперсия оценивает вариацию признака, сложившуюся по влиянием других, неучитываемых в данном исследовании факторов и независящую от фактора группировки. Стоит заметить, что она определяется как средняя из групповых дисперсий.

  • — дисперсия i-ой группы.

Все три дисперсии () связаны между собой следующим равенством, кᴏᴛᴏᴩое известно как правило сложения дисперсий:

на ϶ᴛᴏм соотношении строятся показатели, оценивающие влияние признака группировки на образование общей вариации. К ним ᴏᴛʜᴏϲᴙтся эмпирический коэффициент детерминации () и эмпирическое корреляционное отношение ()

Эмпирический коэффициент детерминации () характеризует долю межгрупоовой дисперсии в общей дисперсии:

и показывает насколько вариация признака в совокупности обусловлена фактором группировки.

Эмпирическое корреляционное отношение (!!\eta = \sqrt{ \frac{\delta^2}{\sigma^2} }

оценивает тесноту связи между изучаемым и группировочным признаками. Предельными значениями будут нуль и единица. Чем ближе к единице, тем теснее связь.

Пример. Стоимость 1 кв.м общей площади (усл.ед) на рынке жилья по десяти 17-м домам улучшенной планировки составляла:

При ϶ᴛᴏм известно, что первые пять домов были построены вблизи делового центра, а остальные — на значительном расстоянии от него.

Для рассчета общей дисперсии вычислим среднюю стоимость 1 кв.м. общей площади: Общую дисперсию определим по формуле:

.

Вычислим среднюю стоимость 1 кв.м. и дисперсию по ϶ᴛᴏму показателю для каждой группы домов, отличающихся месторасположением относительно центра города:

а) для домов, построенных вблизи центра:

б) для домов, построенных далеко от центра:

Не стоит забывать, что вариация стоимости 1 кв.м. общей площади, вызванная изменением местоположения домов, определяется величиной межгрупповой дисперсии:

Не стоит забывать, что вариация стоимости 1 кв.м. общей площади, обусловленная изменением остальных неучитываемых нами показателей, измеряется величиной внутригрупповой дисперсии

Найденные дисперссии в сумме дают величину общей дисперсии

Эмпирический коэффициент детерминации:

показывает, что дисперсия стоимости 1.кв.м. общей площади на рынке жилья на 81,8% объясняется различиями в расположении новостроек по отношению к деловому центру и на 18,2% — другими факторами.

Эмприческое корреляционное отношение свидетельствует о существенном влиянии на стоимость жилья месторасположения домов.

Правило сложения дисперсий для доли признака записывается так:

а три вида дисперсий доли для сгруппированных данных определяется по следующим формулам:

общая дисперсия:

Формулы межгрупповой и внутригрупповой дисперсий:

Характеристики формы распределения

Для получения представления о форме распределения могут быть использованы показатели среднего уровня (средняя арифметическая, мода, медиана), показатели вариации, ассиметрии и эксцесса.

В симметричных распределениях средняя арифметическая, мода и медиана совпадают (. В случае если ϶ᴛᴏ равенство нарушается — распределение ассиметрично.

Простейшим показателем ассиметрии будет разность , кᴏᴛᴏᴩая в случае правосторонней ассиметрии положительна, а при левосторонней — отрицательна.

Ассиметричное распределение

Для сравнения ассиметрии нескольких рядов рассчитывается относительный показатель

В качестве обобщающих характеристик вариации могут быть использованы центральные моменты распределения -го порядка , ϲᴏᴏᴛʙᴇᴛϲᴛʙующие степени, в кᴏᴛᴏᴩую возводятся отклонения отдельных значений признака от средней арифметической:

Для несгруппированных данных:

Для сгруппированных данных:

Момент первого порядка согласно ϲʙᴏйству средней арифметической равен нулю .

Момент второго порядка будет дисперсией .

Моменты третьего и четвертого порядков могут быть использованы для построения показателей, оценивающих особенности формы эмпирических распределений.

С помощью момента третьего порядка измеряют степень скошенности или ассиметричности распределения.

— коэффициент ассиметрии

В симметричных распределениях , как все центральные моменты нечетного порядка.Неравенство нулю центрального момента третьего порядка указывает на асимметричность распределения. При ϶ᴛᴏм, если , то асимметрия правосторонняя и относительно максимальной ординаты вытянута правая ветвь; если , то асимметрия левосторонняя (на графике ϶ᴛᴏ ϲᴏᴏᴛʙᴇᴛϲᴛʙует вытянутости левой ветви).

Для характеристики островершинности или плосковершинности распределения вычисляют отношение момента четвертого порядка () к среднеквадратическому отклонению в четвертой степени (). Стоит сказать, для нормального распределения , по϶ᴛᴏму эксцесс находят по формуле:

Для нормального распределения обращается в нуль. Стоит сказать, для островершинных распределений , для плосковершинных .

Эксцесс распределения

Кроме показателей, рассмотренных выше, обобщающей характеристикой вариации в однородной совокупности служит определенный порядок в изменении частот распределения в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с изменениями величины изучаемого признака, называемый закономерностью распределения.

Характер (тип) закономерности распределения может быть выявлен путем построения вариационного ряда на основании большого объема наблюдений, а также такого выбора числа групп и величины интегралов, при кᴏᴛᴏᴩом наиболее отчетливо могла бы проявиться закономерность.

Анализ вариационных рядов предполагает выявление характера распределения (как результата действия механизма вариации), установление функции распределения, проверку ϲᴏᴏᴛʙᴇᴛϲᴛʙия эмпирического распределения теоретическому.

Эмпирическое распределение, полученное на базе данных наблюдения, графически изображается эмпирической кривой распределения с помощью полигона.

На практике встречаются различные типы распределений, среди кᴏᴛᴏᴩых можно выделить симметричные и асимметричные, одновершинные и многовершинные.

Установить тип распределения, означает выразить механизм формирования закономерности в аналитической форме. Многим явлениям и их признакам ϲʙᴏйственны характерные формы распределения, кᴏᴛᴏᴩые аппроксимируются ϲᴏᴏᴛʙᴇᴛϲᴛʙующими кривыми. При всем многообразии форм распределения наибольшее распространение в качестве теоретических получили нормальное распределение, распределение Пауссона, биноминальное распределение и др.

Особое место в изучении вариации принадлежит нормальному закону, благодаря его математическим ϲʙᴏйствам. Стоит сказать, для нормального закона выполняется правило трех сигм, по кᴏᴛᴏᴩому вариация индивидуальных значений признака находится в пределах от величины средней. При ϶ᴛᴏм в границах находится около 70% всех единиц, а в пределах — 95%.

Оценка ϲᴏᴏᴛʙᴇᴛϲᴛʙия эмпирического и теоретического распределений производится с помощью критериев согласия, среди кᴏᴛᴏᴩых широко известны критерии Пирсона, Романовского, Ястремского, Колмогорова.



xn--80aatn3b3a4e.xn--p1ai