Табулирование данных. Дескриптивная статистика.
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

В начале мы должны подсчитать число случаев, попадающих в определенную категорию, высчитать процентные отношения и средние показатели. Пример табулирования в исследовании на тему «Спорт в жизни студента ТУСУРа»:

Таблица 4.2.

Распределение ответов на вопрос № 12: «Какими видами спорта Вы сейчас занимаетесь в рамках занятий по физкультуре ».

Вид спорта Частота упоминания
Волейбол
Тяжелая атлетика
Футбол
Аэробика
Шахматы
Всего ответивших: 428

 

То есть мы просто подсчитали количество вариантов ответов по каждой из предложенных респонденту альтернатив.

 

Данные также целесообразно представлять в виде процентных соотношений. Это выглядит следующим образом:

Таблица 4.3.

Вид спорта Процент от числа ответивших
Волейбол 28%
Тяжелая атлетика 26%
Футбол 25%
Аэробика 16%
Шахматы 5%

 


Перекрестное табулирование данных. Мы используем данный метод, чтобы изучить взаимозависимости переменных. Мы разбиваем массив данных на подгруппы и изучаем, как изменяется интересующая нас переменная в зависимости от того, к какой подгруппе она принадлежит.

Например, с помощью метода формализованного наблюдения мы выясняли, каковы предпочтения студентов ТУСУРа в еде. В течение большой перемены наблюдатели фиксировали, что покупают студенты в столовой (то есть объект исследования – студенты, обедающие в столовой ТУСУРа во время большой перемены). Исследование носит сплошной характер. Предположим, данные распределяются следующим образом (поскольку студент мог выбрать несколько вариантов пищи, сумма составляет более 100%):

Таблица 4.4.

Распределение по выбору пищи.

Вид пищи Процентные распределения
Первое (суп, бульон). 45 %
Мясные и рыбные блюда 62%
Гарнир (картофель, гречка, макароны) 50%
Салаты 42%
Сладкое (шоколад, пирожные, торты) 36%
Молочная продукция (йогурт, мусс, творог с фруктами). 12%

 

Нас интересует гендерный аспект потребления пищи. Мы разбиваем весь массив данных на 2 подгруппы: девушки и юноши – это и будет перекрестным табулированием. В итоге у нас получается:

Таблица 4.5.

Гендерный аспект потребления пищи.

Вид пищи Девушки (процент от общего числа наблюдений) Юноши (процент от общего числа наблюдений) Общий показатель
Первое (суп, бульон). 20% 70% 45 %
Мясные и рыбные блюда 53% 69% 61%
Гарнир (картофель, гречка, макароны) 40% 60% 50%
Салаты 62% 22% 42%
Сладкое (шоколад, пирожные, торты) 52 % 20% 36%
Молочная продукция (йогурт, мусс, творог с фруктами). 20% 4% 12%

 

Таким образом, мы можем наглядно увидеть гендерные различия, проявляющиеся в выборе пищи. По такой же схеме мы можем выявить различия между факультетами, группами, возрастными категориями, людьми с разным уровнем дохода и т.д.

 

Меры центральной тенденции.

Для анализа большого массива данных мы используем такие показатели центральной тенденции, как среднеарифметическое, мода и медиана.

Мода – это наиболее часто встречающееся значение. Предположим, мы измерили рост 10 студентов и получили следующие показатели:

180 см, 172 см, 190 см, 179 см, 191 см, 166 см, 172см, 183 см, 179 см, 172 см.

Модой в данном случае будет показатель «172 см», который встречается чаще других.

Следующий показатель – это медиана. Медиана – это такое значение, которое делит множество данных пополам, в итоге 50% случаев меньше медианы, 50% - больше. Для определения медианы нужно упорядочить данные (соответственно, показатель не подходит для номинальных данных). Итак, расположим показатели роста студентов из предыдущего примера по порядку.

166 см, 172 см, 172 см, 172 см, 179 см, 179 см, 180 см, 183 см, 190 см, 191 см.

Поскольку количество случаев – четное (10), то медианным значением будет среднее между 5 и 6 (серединные значения) – 179 см.

Теперь мы рассчитываем среднеарифметический показатель роста студентов.

Для этого нужно сложить все показатели и разделить на число наблюдений. Средний рост, таким образом, составил 178,4 см.

Соотношение показателей моды, медианы и среднеарифметического зависит от симметричности распределения. При унимодальном симметричном распределении эти показатели будут равны между собой.

Как выглядят среднеарифметические показатели в массовом опросе? Предположим, мы изучали оценки состояния общежитий студентами ТУСУРа. Мы предлагали студентам ответить на вопрос:

Таблица 4.6.

Ответ на вопрос о санитарном состоянии.

Оцените, пожалуйста, по 5-балльной шкале (5 – очень хорошо, 1 – очень плохо, 6 – затрудняюсь ответить) санитарное состояние:

4. кубовых
5. умывальников
6. туалетов

 

В результате расчета средних были получены следующие данные:

Таблица 4.7.

Средние оценки.

  Средняя оценка по всем общ. Средняя оценка по общ. № 3 Средняя оценка по общ. № 4 Средняя оценка по общ. № 5 Средняя оценка по общ. № 6
Состояние кубовых 3,25 3,2 3,6 3,2
Состояние умывальников 3,35 2,9 3,6 3,6 3,3
Состояние туалетов 2,65 2,5 3,1 2,8 2,2

 

Для нас является важным определить меры изменчивости, разброса данных.

Это такие показатели, как:

1. Размах

2. Коэффициент вариации

3. Дисперсия

4. Стандартное отклонение

Размах – это диапазон изменчивости значений. Вспомним пример с ростом. Итак, мы замерили рост группы людей и получили: 166 см, 172 см, 172 см, 172 см, 179 см, 179 см, 180 см, 183 см, 190 см, 191 см. Размах в данном случае будет равен 25 (191 см - самый большой показатель минус 166 см (самый маленький).

Коэффициент вариации – это процент наблюдений, лежащих вне модального интервала (для порядковых данных – не совпадающих с модальным значением). В нашем примере мода = 172 см, соответственно, коэффициент вариации равен 70% (или 0,7).

Другой значимый показатель - дисперсия – является важнейшей мерой рассеяния.

Квадратный корень из дисперсии называется стандартным отклонением. Для нормального распределения 68% наблюдений будет заключено ± 1 стандартное отклонение от среднего значения.

Выбор методов статистического анализа зависит от типа данных. Данные подразделяются на номинальные, порядковые и интервальные. Мы уже затрагивали этот вопросов в предыдущей главе (см. Виды шкал).

В книге «Маркетинговые исследования» приводится следующее описание номинальных, порядковых и интервальныхтипов данных [1, с. 493-494 ].

1. Номинальные данные – «наиболее примитивные с точки зрения анализа данных. Это просто числа, поставленные в соответствие объектам, на том основании, что объект принадлежит к той или иной категории… единственным имеющим смысл показателем центральной тенденции является мода».

Пример – распределение по полу.

Женский 52%

Мужской 48%

2. Порядковая шкала (неметрические данные) – «более высокий уровень измерения, нежели номинальная, поскольку числа, используемые для представления порядка, также идентифицируют объекты…с порядковыми данными можно использовать большинство непараметрических проверок».

Пример порядковых данных: оценка своего самочувствия (10 – очень хорошо, 1 – очень плохо).

3. Интервальные и относительные данные (метрические данные) – с этими данными можно использовать как параметрические, так и непараметрические проверки. Пример интервальных данных - распределение по уровню дохода на человека в семье в определенном регионе:

Таблица 4.8.

Уровень заработной платы.

До 3000 рублей/месяц 12%
3000 – 5999 рублей/месяц 20%
6000 – 8999 рублей/месяц 34%
9000 – 11999 рублей/месяц 24%
Свыше 12000 рублей/месяц 10%

Дата: 2016-10-02, просмотров: 232.