Построение дискретного вариационного ряда. Правила построения дискретных и интервальных рядов распределения

Число групп (интервалов) приближенно определяется по формуле Стерджесса:

m = 1 + 3,322 × lg(n)

где n - общее число единиц наблюдения (общее количество элементов в совокупности и т.д.), lg(n) – десятичный логарифм от n.

Полученную по формуле Стерджесса величину округляют обычно до целого большего числа, поскольку количество групп не может быть дробным числом.

Если ряд интервальный ряд с таким количеством групп по каким-то критериям не устраивает, то можно построить другой интервальный ряд, округлив m до целого меньшего числа и выбрать из двух рядов более подходящий.

Число групп не должно быть больше 15.

Также можно пользоваться следующей таблицей, если совсем нет возможности вычислить десятичный логарифм.

    Определяем ширину интервала

Ширина интервала для интервального вариационного ряда с равными интервалами определяется по формуле:

где X макс - максимальное из значений x i , X мин - минимальное из значений x i ; m - число групп (интервалов).

Величину интервала (i ) обычно округляют до целого числа, исключение составляют лишь случаи, когда изучаются малейшие колебания признака (например, при группировке деталей по величине размера отклонений от номинала, измеряемого в долях миллиметра).

Часто применяется следующее правило:

Количество знаков до запятой

Количество знаков после запятой

Пример ширины интервала по формуле

До какого знака округляем

Пример округленной ширины интервала

    Определяем границы интервалов

Нижнюю границу первого интервала принимают равной минимальному значению признака (чаще всего его предварительно округляют до целого меньшего числа с таким же разрядом как ширина интервала). Например, х мин = 15, i=130, х н первого интервала = 10.

х н1 ≈ х мин

Верхняя граница первого интервала соответствует значению (Хmin + i ).

Нижняя граница второго интервала всегда равно верхней границе первого интервала. Для последующих групп границы определяются аналогично, т е. последовательно прибавляется величина интервала.

x в i = x н i + i

x н i = x в i-1

    Определяем частоты интервалов.

Считаем, сколько значений попало в каждый интервал. При этом помним, что если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

    Строим интервальный ряд в виде таблицы.

    Определяем середины интервалов.

Для дальнейшего анализа интервального ряда понадобится выбрать значение признака для каждого интервала. Это значение признака будет общим для всех единиц наблюдения, попавшим в этот интервал. Т.е. отдельные элементы «теряют» свои индивидуальные значения признака и им присваивается одно общее значение признака. Таким общим значением является середина интервала , которая обозначается x" i .

Рассмотрим на примере с ростом детей, как построить интервальный ряд с равными интервалами.

Имеются первоначальные данные.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала.

Статистическая сводка - это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Проведение статистической сводки включает следующие этапы :

  • выбор группировочного признака;
  • определение порядка формирования групп;
  • разработка системы статистических показателей для характеристики групп и объекта в целом;
  • разработка макетов статистических таблиц для представления результатов сводки.

Статистической группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным существенным для них признакам. Группировки являются важнейшим статистическим методом обобщения статистических данных, основой для правильного исчисления статистических показателей.

Различают следующие виды группировок: типологические, структурные, аналитические. Все эти группировки объединяет то, что единицы объекта разделены на группы по какому-либо признаку.

Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки (количественные или качественные).

Количественные признаки группировки имеют числовое выражение (объем торгов, возраст человека, доход семьи и т. д.), а качественные признаки группировки отражают состояние единицы совокупности (пол, семейное положение, отраслевая принадлежность предприятия, его форма собственности и т. д.).

После того, как определено основание группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема совокупности, степени вариации признака.

Например, группировка предприятий по формам собственности учитывает муниципальную, федеральную и собственность субъектов федерации. Если группировка производится по количественному признаку, то тогда необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.

Когда определено число групп, то следует определить интервалы группировки. Интервал - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них.

Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами.

Интервалы группировки в зависимости от их величины бывают: равные и неравные. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по следующей формуле :

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Простейшая группировка, в которой каждая выделенная группа характеризуется одним показателем представляет собой ряд распределения.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения (распределение по видам труда, по полу, по профессии и т.д.). Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака.

Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный вариационный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, тарифный разряд, количество детей в семье, число работников на предприятии и др.

Если признак имеет непрерывное изменение, которые в определенных границах могут принимать любые значения («от - до»), то для этого признака нужно строить интервальный вариационный ряд . Например, размер дохода, стаж работы, стоимость основных фондов предприятия и др.

Примеры решения задач по теме «Статистическая сводка и группировка»

Задача 1 . Имеется информация о количестве книг, полученных студентами по абонементу за прошедший учебный год.

Построить ранжированный и дискретный вариационные ряды распределения, обозначив элементы ряда.

Решение

Данная совокупность представляет собой множество вариантов количества получаемых студентами книг. Подсчитаем число таких вариантов и упорядочим в виде вариационного ранжированного и вариационного дискретного рядов распределения.

Задача 2 . Имеются данные о стоимости основных фондов у 50 предприятий, тыс. руб.

Построить ряд распределения, выделив 5 групп предприятий (с равными интервалами).

Решение

Для решения выберем наибольшее и наименьшее значения стоимости основных фондов предприятий. Это 30,0 и 10,2 тыс. руб.

Найдем размер интервала: h = (30,0-10,2):5= 3,96 тыс. руб.

Тогда в первую группу будут входить предприятия, размер основных фондов которых составляет от 10,2 тыс. руб. до 10,2+3,96=14,16 тыс. руб. Таких предприятий будет 9. Во вторую группу войдут предприятия, размер основных фондов которых составит от 14,16 тыс. руб. до 14,16+3,96=18,12 тыс. руб. Таких предприятий будет 16. Аналогично найдем число предприятий, входящих в третью, четвертую и пятую группы.

Полученный ряд распределения поместим в таблицу.

Задача 3 . По ряду предприятий легкой промышленности получены следующие данные:

Произведите группировку предприятий по числу рабочих, образуя 6 групп с равными интервалами. Подсчитайте по каждой группе:

1. число предприятий
2. число рабочих
3. объем произведенной продукции за год
4. среднюю фактическую выработку одного рабочего
5. объем основных средств
6. средний размер основных средств одного предприятия
7. среднюю величину произведенной продукции одним предприятием

Результаты расчета оформите в таблицы. Сделайте выводы.

Решение

Для решения выберем наибольшее и наименьшее значения среднесписочного числа рабочих на предприятии. Это 43 и 256.

Найдем размер интервала: h = (256-43):6 = 35,5

Тогда в первую группу будут входить предприятия, среднесписочное число рабочих на которых составляет от 43 до 43+35,5=78,5 человек. Таких предприятий будет 5. Во вторую группу войдут предприятия, среднесписочное число рабочих на которых составит от 78,5 до 78,5+35,5=114 человек. Таких предприятий будет 12. Аналогично найдем число предприятий, входящих в третью, четвертую, пятую и шестую группы.

Полученный ряд распределения поместим в таблицу и вычислим необходимые показатели по каждой группе:

Вывод : Как видно из таблицы, вторая группа предприятий является самой многочисленной. В нее входят 12 предприятий. Самыми малочисленными являются пятая и шестая группы (по два предприятия). Это самые крупные предприятия (по числу рабочих).

Поскольку вторая группа самая многочисленная, объем произведенной продукции за год предприятиями этой группы и объем основных средств значительно выше других. Вместе с тем средняя фактическая выработка одного рабочего на предприятиях этой группы наибольшей не является. Здесь лидируют предприятия четвертой группы. На эту группу приходится и довольно большой объем основных средств.

В заключении отметим, что средний размер основных средств и средняя величина произведенной продукции одного предприятия прямо пропорциональны размерам предприятия (по числу рабочих).

Лабораторная работа №1

По математической статистике

Тема: Первичная обработка экспериментальных данных

3. Оценка в баллах. 1

5. Контрольные вопросы.. 2

6. Методика выполнения лабораторной работы.. 3

Цель работы

Приобретение навыков первичной обработки эмпирических данных методами математической статистики.

На основе совокупности опытных данных выполнить следующие задания:

Задание 1. Построить интервальный вариационный ряд распределения.

Задание 2. Построить гистограмму частот интервального вариационного ряда.

Задание 3. Составить эмпирическую функцию распределения и построить график.

а) моду и медиану;

б) условные начальные моменты;

в) выборочную среднюю;

г) выборочную дисперсию, исправленную дисперсию генеральной совокупности, исправленное среднее квадратичное отклонение;

д) коэффициент вариации;

е) асимметрию;

ж) эксцесс;

Задание 5. Определить границы истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.

Задание 6. Содержательная интерпретация результатов первичной обработки по условию задачи.

Оценка в баллах

Задания 1-5 6 баллов

Задание 6 2 балла

Защита лабораторной работы (устное собеседование по контрольным вопросам и лабораторной работе) - 2 балла

Работа сдается в письменной форме на листах формата А4 и включает:

1) Титульный лист (Приложение 1)

2) Исходные данные.

3) Представление работы по указанному образцу.

4) Результаты расчетов (выполненные вручную и/или с помощью MS Excel) в указанном порядке.

5) Выводы - содержательная интерпретация результатов первичной обработки по условию задачи.

6) Устное собеседование по работе и контрольным вопросам.



5. Контрольные вопросы


Методика выполнения лабораторной работы

Задание 1. Построить интервальный вариационный ряд распределения

Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:

1.В исходной таблице данных найти наименьшее и наибольшее значения.

2.Определить размах варьирования :

3. Определить длину интервала h, если в выборке до 1000 данных, используют формулу: , где n – объем выборки – количество данных в выборке; для вычислений берут lgn).

Вычисленное отношение округляют до удобногоцелого значения .

4. Определить начало первого интервала для четного числа интервалов рекомендуют брать величину ; а для нечетного числа интервалов .

5. Записать интервалы группировок и расположить их в порядке возрастания границ

, ,………., ,

где - нижняя граница первого интервала. За берется удобное число не большее , верхняя граница последнего интервала должна быть не меньше . Рекомендуется, чтобы интервалы содержали в себе исходные значения случайной величины и выделять от 5 до 20 интервалов.

6. Записать исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.

Замечание 1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже - более крупные.

Замечание 2 .Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений зачастую не позволяют выделить характерные черты варьирования ее значений. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга.

Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В подобных случаях следует строить интервальный вариационный ряд распределения.

Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называют упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

Для построения интервального ряда необходимо:

  1. определить величину частичных интервалов;
  2. определить ширину интервалов;
  3. установить для каждого интервала его верхнюю и нижнюю границы ;
  4. сгруппировать результаты наблюдении.

1 . Вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке.

Приблизительно число интервалов k можно оценить исходя только из объема выборки n одним из следующих способов:

  • по формуле Стержеса : k = 1 + 3,32·lg n ;
  • с помощью таблицы 1.

Таблица 1

2 . Обычно предпочтительны интервалы одинаковой ширины. Для определения ширины интервалов h вычисляют:

  • размах варьирования R - значений выборки: R = x max - x min ,

где x max и x min - максимальная и минимальная варианты выборки;

  • ширину каждого из интервалов h определяют по следующей формуле: h = R/k .

3 . Нижняя граница первого интервала x h1 выбирается так, чтобы минимальная варианта выборки x min попадала примерно в середину этого интервала: x h1 = x min - 0,5·h .

Промежуточные интервалы получают прибавляя к концу предыдущего интервала длину частичного интервала h :

x hi = x hi-1 +h .

Построение шкалы интервалов на основе вычисления границ интервалов продолжается до тех пор, пока величина x hi удовлетворяет соотношению:

x hi < x max + 0,5·h .

4 . В соответствии со шкалой интервалов производится группирование значений признака - для каждого частичного интервала вычисляется сумма частот n i вариант, попавших в i -й интервал. При этом в интервал включают значения случайной величины, большие или равные нижней границе и меньшие верхней границы интервала.

Полигон и гистограмма

Для наглядности строят различные графики статистического распределения.

По данным дискретного вариационного ряда строят полигон частот или относительных частот.

Полигоном частот x 1 ; n 1 ), (x 2 ; n 2 ), ..., (x k ; n k ). Для построения полигона частот на оси абсцисс откладывают варианты x i , а на оси ординат - соответствующие им частоты n i . Точки (x i ; n i ) соединяют отрезками прямых и получают полигон частот (Рис. 1).

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x 1 ; W 1 ), (x 2 ; W 2 ), ..., (x k ; W k ). Для построения полигона относительных частот на оси абсцисс откладывают варианты x i , а на оси ординат - соответствующие им относительные частоты W i . Точки (x i ; W i ) соединяют отрезками прямых и получают полигон относительных частот.

В случае непрерывного признака целесообразно строить гистограмму .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению n i / h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии n i / h .

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Количество исходных данных
",0);">

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.