Генеральная и выборочная совокупность
Сплошное статистическое исследование (перепись всего населения республики) образует генеральную совокупность. Общее число членов генеральной совокупности называют объемом генеральной совокупности. Из-за больших размеров генеральной совокупности или из-за отсутствия определенных границ этой совокупности (Белорусская гряда) оно проводится редко. На исследование генеральной совокупности затрачивается много средств и времени, поэтому ограничиваются методом выборочного исследования (не сплошного) из генеральной совокупности. Выборка образует совокупность наблюдений, полученных с целью объективной характеристики и получения информации о генеральной совокупности. Число ее членов называют объемом выборочной совокупности.
Выборочное исследование можно проводить такими методами, как монографический, основного массива и выборочным. Монографический метод используется для описания объекта с какими-либо особенностями (зонирование города с развитой машиностроительной промышленностью). Выводы могут быть распространены только на группу аналогичных объектов. Метод основного массива дает представление о конкретном объекте, поэтому переносить полученные закономерности на другие объекты нельзя (бассейн р. Неман). Наиболее распространен метод выборочного исследования из генеральной совокупности.
Выборка может быть представлена следующими основными типами отбора: случайным, направленным (типическим), смешанным.
При случайном отборе все объекты имеют одинаковую возможность попасть в выборку. В его основе лежит перемешивание. Случайная выборка может не отвечать условиям исследования из-за неоднородности. Тогда производят целенаправленный (когортный) отбор, выбирая для исследования типичные объекты. Правила отбора остаются те же, что и при случайном отборе.
Смешанный отбор производят в тех случаях, когда необходимо дать характеристику неоднородного объекта. Например, холмисто-моренный ландшафт делят фации с однородными условиями, в каждой из которых производят случайный отбор. Полученные результаты объединяют в одну выборку.
Соблюдения правил составления выборки дают возможность наиболее полно и точно, т. е. репрезентативно, характеризовать генеральную совокупность. Величина ошибки репрезентативности зависит от изменчивости изучаемого признака. Чем больше разброс значений изучаемого признака, тем больше статистическая ошибка. Отбор для выборки должен быть также научно обоснованным с учетом принятых методических правил, т. е. рендомизированным. В таких случаях при меньшем числе наблюдений уменьшается вероятность систематических ошибок наблюдений.
На втором этапе статистического исследования проводят сводку и группировку данных. Варианты группировок следующие: разделение анализируемой статистической совокупности на группы по тем или иным признакам; объединение мелких однородных групп в более крупные; комплексная группировка на основе многих учетных признаков, даже если они разнородные.
Типологическая группировка выделяет в совокупности качественно однородные в существенном отношении группы. Группировка по своей сути представляет собой процесс классификации. В государственной статистике используют классификаторы – специальные справочники, инструкции, указания.
Оптимальный объем выборки обычно пропорционален степени изменчивости признака. Если признак сильно изменяется, то количество измерений следует увеличить. Предложены также другие способы определения величины выборочной совокупности при исследованиях: по таблице достаточно больших чисел (прил. 1), а также расчетным способом. Чаще всего ориентировочный объем (N) выборочной совокупности рассчитывают по формулам, в которых вероятность заменяют степенью варьирования:
N = σ2 / m2М ,
где σ – среднее квадратическое отклонение; mМ – ошибка среднего арифметического.
Допустим, варьирование признака (колебание температуры) составляет 7 °С, тогда число наблюдений выборочной совокупности с ошибкой среднего арифметического m = ± 0,5 °С составит: N = σ2 / m2М = 72 / 0,52 = =196.
Объем выборочной совокупности можно также определить по ожидаемому коэффициенту вариации (V) и точности опыта (р) с учетом поправочного коэффициента (1,96) для уровня вероятности 0,95 и 0,99:
N = (1,96 · V)2 / р2.
Определение объема выборочной совокупности необходимо для получения достоверной информации о генеральной совокупности путем расчета минимального, но объективного количества наблюдений. Полученные параметры по выборке могут служить приблизительными оценками аналогичных параметров генеральной совокупности, т. е. указывать пределы в которых они заключены (М ± mМ; σ ± mσ).
Линейная зависимость
Линейная регрессия на графике изображается в виде прямой так, чтобы точки эмпирической линии располагались по обе стороны ее и по возможности ближе к ней.
Известно следующее уравнение линейной регрессии:
y = ax + b
где у – значение зависимой переменной (признак); х – значение независимой переменной (фактор, влияющий на признак); а – коэффициент регрессии, показывающий степень зависимости между переменными (может быть также выражен тангенсом угла наклона линии регрессии к оси абсцисс); b – ордината линии, показывающая смещение начала прямой относительно начала координат.
Гиперболическая зависимость
При проведении исследований может быть установлена нелинейная зависимость между аргументом и функцией, представляющая собой на графике кривую в виде гиперболы. Общее уравнение регрессии для гиперболической зависимости имеет вид
y = a/x + b
где х – аргумент; у – функция; а и b – коэффициенты, величину которых следует установить.
Параболическая зависимость
Общее уравнение параболы n-го порядка имеет вид
y = axn + bxn–1 + cxn–2 + … + kx + l.
Если ограничиться второй ступенью независимой переменной величины х,будем иметь частный случай параболы второго порядка:
y = ax2 + bx + c
Множественная регрессия
Если при установлении зависимости между признаками используется больше одной независимой переменной, то применяют множественный регрессионный анализ. Проведение такого анализа возможно в следующих условиях: распределение зависимой переменной при различных значениях независимых должно быть близко к нормальному; дисперсия зависимой переменной при разных значениях признаков х должна считаться одинаковой. С увеличением числа признаков и в случаях нелинейной множественной регрессии необходимо использовать ЭВМ. Поэтому рассмотрим простой вариант множественной линейной регрессии без применения ЭВМ, когда один признак зависит от двух факторов. Общее уравнение линейной множественной регрессии имеет вид
y = a + bx + cz
Уравнения регрессии широко используются в научных исследованиях и в практических целях.
Ошибки выборочных критериев
Этапы факторного анализа
На конкретном примере рассмотрим один из методов факторного анализа. На основе выборки по 395 ландшафтам в пределах водораздельного пространства была получена исходная информация о восьми параметрах агроландшафта. Они включают: 1) органические удобрения; 2) минеральные удобрения; 3) известь; 4) пестициды; 5) содержание гумуса в пахотном горизонте; 6) реакцию среды; 7) влажность почвы; 8) содержание физической глины. Следует определить, какова роль этих параметров в эволюции агроландшафтов.
Первый этап. Производится вычисление коэффициентов корреляции между всеми изучаемыми параметрами (табл. 7.1). Корреляционная матрица R симметрична, поэтому достаточно заполнить лишь ее половину до линии диагонали. Если параметр коррелирует сам с собой, коэффициент корреляции равен единице.
Второй этап. Для описания параметров используется линейная модель (параметры выражаются через скрытые гипотетические факторы линейно). Основная модель факторного анализа может быть записана в виде формулы:
zj = aj1F1 + aj2F2 + …+ ajmFm + djuji,
где zj – параметр, F1 – фактор; aji – приближение (коэффициент) факторного отображения (нагрузки).
Для выражения общей дисперсии определяется факторная дисперсия, или значение общности (σi2) для каждого диагонального параметра. Наиболее простой способ ее установления – вычисление первого центроидного фактора.
Подставив данные в формулу, имеем первую факторную дисперсию. Аналогично проводим расчет дисперсии по остальным столбцам таблицы. Полученные данные помещаем по главной диагонали редуцированной корреляционной матрицы Rх. Если рассчитанные коэффициенты корреляции мало отличаются от исходных, значит, модель хорошо описывает экспериментальные данные.
Третий этап. Проводим группировку параметров с целью определения факторов. Восемь параметров образуют две группы: первые четыре параметра характеризуют химическую мелиорацию почв (первый фактор), остальные – их плодородие (второй фактор).
Четвертый этап. Находим первое приближение факторного отображения. Предполагается, что полученные факторы не коррелируют между собой. Для каждой строки матрицы Rx вычисляем сумму коэффициентов корреляции. Результаты записываем в предпоследний столбец редуцированной корреляционной матрицы. Результаты вносим в последний столбец редуцированной корреляционной матрицы. Эти числа не применяются непосредственно в качестве элементов собственного вектора матрицы.
Пятый этап. Возводим редуцированную матрицу в квадрат. Для этого необходимо каждое число возвести в квадрат в первом столбце матрицы и суммировать результаты.
Получаем первый элемент матрицы R2. Поскольку квадрат симметричной матрицы есть также симметричная матрица, то вычисляем диагональные элементы и элементы выше (или ниже) диагонали. Затем определяем сумму элементов.
Шестой этап. Вычисляем коэффициенты при первом факторе. Далее рассчитываем коэффициенты bi1при первом факторе F1, которые учитывают максимально возможную долю суммарной общности.
Седьмой этап. Проводим поиск фактора, который учитывал бы максимум остаточной общности. Для этого после учета F1необходимо построить матрицу R1используя коэффициенты первого фактора.
После выполнения необходимых операций по первому фактору и получения соответствующих показателей (табл. 7.9) переходим к вычислению элементов матрицы по второму фактору, сводные сведения по которым приведены в табл. 7.10. В итоге получаем коэффициенты факторного отображения и общности, по которым делаем соответствующие выводы.
17. Графическое представление вариационного ряда. Деление выборки на классы.
Варианты в статистической совокупности подвергаются обработке. Для этого составляется вариационный ряд, т. е. варианты располагают по возрастающим или убывающим величинам. Варианты в выборке, относящиеся к одному и тому же признаку, практически не совпадают между собой, или варьируют. Те варианты, которые резко отличаются от вариантов статистической совокупности и вызывают сомнение у исследователя определяются как артефакт.
Существующие критерии выбраковки основываются, как правило, на допущении, что выборка распределяется по нормальному или близкому к нему закону. В качестве критерия выбраковки может быть использован критерий τ (прил. 3). Если критерий τ вычисленный (фактический) больше или равен критерию τ табличному (τф ≥ τт) при объеме выборки N и уровне значимости α (0,05 или 0,01), то соответствующие значения вариантов выборки (х) допустимо отбросить как артефакт. Значения τ для вызывающей сомнение величины вычисляются по следующим формулам:
τ1 = (х2 – х1) / (хn–1 – х1) (1.1)
для наименьшего значения переменной величины в вариационном ряду (х1);
τn = (хn – хn–1) / (хn – х2) (1.2)
для максимального значения переменной в вариационном ряду.
Вычисленное значение критерия (τ5 = 0,958) сравнивают с табличным значением (τт), учитывая объем выборки (N = 5). В прил. 3 критическое значение критерия артефакта для N = 5 и уровня значимости α 0,05 и 0,01 соответственно будут равны 0,807 и 0,916, что меньше расчетного значения (τ5 = 0,958). Поэтому варианту 20,2 признают артефактом и исключают из статистической обработки как сомнительную. Затем приступают к вычислению показателей описательной статистики при условии, что тип распределения вариант соответствует нормальному или логнормальному закону распределения. В иных случаях с выборкой работают как с непараметрической, на которые теория вероятности не распространяется.
При установлении типа распределения принимается следующий порядок действий. Сначала определяется величина классового интервала i, которая зависит от принятого числа классов k и объема выборки N:
i = (хmax – xmin) / k. (1.3)
Число классов в зависимости от объема выборки определяется по формуле:
k = 1 + 3,3 lg N. (1.4)
Исходя из формулы (1.4), можно рекомендовать следующее число классов в зависимости от объема выборки:
N | 30–50 | 51–10 | 101–400 | 401–1000 | 1001–2000 |
k | 4–5 | 6–7 | 8–9 | 9–10 | 11–12 |
Величина классового интервала должна быть одинаковой на протяжении всего вариационного ряда. Границы классов выбираются такими, чтобы каждая варианта могла быть отнесена только к одному классу. Примеры правильной границы классов: 5–9, 10–14, 15–19 или 5,1–9,1, 9,2–13,2, 13,3–17,3, первый и последний классы могут быть неполными. Границы классов желательно выбирать так, чтобы крайние варианты ряда по возможности оказались ближе к середине интервала своего класса.
Исходя из величины классового интервала и минимального значения в выборке, за начало левой границы первого класса удобно принять величину 100. Прибавляя к 100 классовый интервал 10, получаем левые границы последующих классов: 110, 120, 130, 140, 150, 160, 170 мм. Правые границы классов должны отличаться на единицу точности наблюдения от левой границы следующего класса, чтобы граничные значения вариант были отнесены к определенному классу. В нашем примере точность измерения составляет 1,0 мм, поэтому правые границы классов будут следующими: 109, 119, 129, 139, 149, 159, 169, 179 (табл. 1.1).
Срединное значение класса (х)вычисляем путем сложением границ классов и делением суммы на два. Для первого класса срединное значение равно: (100 + 109) / 2 = 104,5. Срединное значение последующих классов определяется путем последовательного прибавления классового интервала к срединному значению предыдущего класса: 104,5 + 10= =114,5.
Затем производим разноску вариант по классам (подсчитываем количество вариант, вошедших в тот или иной класс в зависимости от их абсолютных величин). Получаем частоту (f) класса (см. табл. 1.1). Сумма частот должна соответствовать объему выборки (64), сумма частостей fч (частота, выраженная в процентах) должна равняться 100 %.
Рис. 1.1. Способы графического представления вариационного ряда:
кривая распределения и гистограмма
Метод потенциалов
Метод разработан в 1940 г. академиком Л. В. Конторовичем. В 1951 г. американским ученым Дж. Б. Данцигом предложен распределительный метод (МОДИ), аналогичный методу потенциалов. В обоих методах при проверке допустимого плана на оптимальность определяются потенциалы (числа), с помощью которых вычисляются характеристики клеток без кружков (в них нет поставок).
Обозначив потенциалы строк через Ui, потенциалы столбцов через Vj, показатели Cij в клетках с поставками и кружками через , характеристики клеток без кружков (без поставок) через Eij. получим следующие соотношения::
метод потенциалов метод МОДИ
ui = vj – ; (8.10) ui = – vj;
vj = + ui; (8.11) vj = – ui;
= vj – ui; (8.12) = vj + ui;
Eij = cij – (vj – ui); (8.13) Eij = cij – (vj + ui).
Каждый показатель (в клетке матрицы он находится в кружке) должен быть равен разнице потенциалов своих столбцов и строк. Определение потенциала можно начинать с любой строки или столбца. Первый потенциал по величине выбирается произвольно (лучше определение начинать с нуля). Величины других потенциалов определяются с использованием предложенных выше формул (при первом вычислении применяется выбранный нами потенциал).
Рассмотрим пример решения транспортной задачи, предложенный В. С. Михеевой (1981). Базисный допустимый план составлен способом наименьшего элемента в столбце, его первоначальный функционал 555 (табл. 8.4).
Вначале рассчитаем потенциалы строк и столбцов по методу потенциалов с использованием формул. Произвольно выбранную величину потенциала выбирает в том столбце или строке, где наибольшее количество клеток с кружками. В нашем примере – это третья строка. В качестве потенциала для нее возьмем число 0. По формуле (8.11) определяем потенциалы (vj) первого (vj = + ui = 0 + 2 = 2), третьего (0 + 6 = 6), четвертого (0 + 4 = 4), пятого (0 + 2 = 2) столбцов. Зная потенциалы по четырем столбцам, можно вычислить потенциалы строк (ui) по формуле (8.10): первой (ui = vj – = 2 – 1 = 1), четвертой (6 – 2 = 4). По полученным потенциалам новых строк вычисляем потенциалы новых столбов, а по ним – новых строк (см. табл. 8.4).
Определив потенциалы строк и столбцов, вычисляют характеристики клеток (Eij) без кружков (в них нет поставок) по формуле (8.13). Приведем расчет характеристики клетки 1.2: Eij = cij – (vj – ui) = 2 – (7 – 1) = – 4. Аналогично рассчитываем Eij (показаны курсивом) для других клеток без кружков.
отрицательные величины получены в клетках матрицы 1.2, 1.3, 3.2 (их величины соответственно: – 4, –2, –2), поэтому составленный первичный базовый план не оптимален. Проводят следующее перераспределение поставок по правилам цепи.
Выбираем клетку с наибольшей отрицательной абсолютной величиной характеристики (E12) равную – 4. К клетке 1.2 строится цепь по перемещению наименьшей поставки 5 из клетки 3.3, так как функционал стремится к минимуму. Путь перемещения следующий: 3.3 (–5)"4.3 (+5)"4.2 (–5)"1.2 (+5)"1.1 (–5)"3.1 (+5)"3.3. К имеющейся поставке в клетке прибавляется или отнимается 5 с целью сохранения баланса между поставщиками и потребителями.
Получаем новую матрицу с измененными поставками (8.5). В ней повторяем алгоритм расчетов, как в табл. 8.4: рассчитываем потенциалы строк и столбцов, характеристику клеток без поставок, производим перераспределение поставок с использованием другой минимальной поставки 25 в клетке 3.4. Другая минимальная поставка 25 в клетке 3.1 перемещаться не может по цепи, так как в свободной клетке 4.4 с максимальной отрицательной абсолютной характеристикой (–3) ее следует вычитать из несуществующей поставки. Поставка 25 в клетке 3.4 перемещается по цепи: 3.4 (–25)"3.1 (+25)"1.1 (–25)"1.2 (+25)"4.2 (–25)"4.4 (+25)"3.4 (цепь замыкается). Расчет потенциалов и характеристики в новой матрице показал, что распределение не оптимально. Получена отрицательная характеристика –1 в клетке 4.5. Следует произвести очередное перераспределение следующей минимальной поставки равной 0 в клетке 1.1. Здесь получена нулевая поставка, так как из прежней поставки в клетке 25 следовало вычесть перераспределяемую 25. В таких ситуациях допускается наличие нулевой поставки, чтобы не нарушались правила перемещения поставки по цепи. Результаты распределения представлены в матрице 3 (табл. 8.6). В ней снизилось отрицательное значение Eij до –1. План приблизился к оптимальному и требуется его усовершенствовать. Проводим очередное перераспределение поставок. Минимальную нулевую поставку из клетки 1.1 перемещаем в клетку 4.5, где отрицательная характеристика клетки. Прибавление и вычитание нуля по цепи не изменяет величины поставок в клетках и не нарушает правил построения цепи. В новой матрице 4 (табл. 8.7) после перерасчетов vj, ui, Eij получены все положительные характеристики цепи при стремлении функционала к минимуму, поэтому план распределения поставок оптимальный, величина Z = 460. По сравнению с базовым планом функционал снизился на 95 единиц.
В задачах при стремлении функционала к максимуму план распределения поставок или иного показателя считается оптимальным, если в матрице получены отрицательные характеристики в клетках.
31Наименьшая существенная разность(НСР). Используется в дисперсионном анализе. Она показывает то минимальное различие между средними, начиная с которого при выбранном уровне вероятности средние сравниваемые показатели существенно отличаются друг от друга. Величина критерия выражается в тех же единицах, что и сравниваемые средние выборочных совокупностей и определяется по формуле:
НСР = tтабл ∙ md ,(1.24)
где md – ошибка разницы средних; tтабл – табличное значение критерия Стьюдента при уровне вероятности 0,95 или 0,99 и степени свободы, определяемой экспериментом.
Если разность между сравниваемыми средними в условиях эксперимента больше или равна величине НСР при Р 0,95 или 0,99, то различие сущеcтвенно. Используя предыдущий пример по глубине расчленения рельефа, проверим достоверность разницы между средними арифметическими с использованием критерия НСР для случаев независимого и сопряженного наблюдений по формуле (1.24):
НСР0,95 = 2,31 ∙ 1,40 = 3,23 м; НСР0,99 = 3,36 ∙ 1,40 = 4,70 м (для независимых наблюдений);
НСР0,95 = 3,18 ∙ 0,40 = 1,27 м; НСР0,99 = 5,84 ∙ 0,40 = 2,33 м (для сопряженных наблюдений.
Разница между средними арифметическими глубины расчленения рельефа при независимых и сопряженных наблюдениях одна и та же (1,4 м). Сравнивая ее с величиной НСР, приходим к тем же выводам. что и при использовании критерия Стъюдента.
33Критерий Фишера.В выборочных совокупностях дисперсии могут существенно отличаться друг от друга. В таких случаях установление различий между выборочными совокупностями проводится по критерию Фишера (F – положительное асимметричное распределение). Расчет производится по формуле:
F = σ2большая/ σ2меньшая(1.25)
Если величина расчетного критерия Фишера (Fф)не превышает величины приведенного в таблице (Fт)(прил. 5), то различие между сравниваемыми дисперсиями считается недостоверным. При Fф > Fтэти дисперсии достоверно различны, как и сравниваемые по ним генеральные совокупности. Степень свободы рассчитывается для сравниваемых выборок отдельно по формуле ν = N – 1.
Дельта-метод Аганбегяна
Для решения закрытых и открытых транспортных задач А. Г. Аганбегян (1961) разработал дельта-метод для ручной обработки.
Если в столбце несколько равных по значению cij, выбираем любой из них
.
Отличие построения цепей в дельта-методе:
· цепь строится незамкнутая;
· цепь начинается в клетке с кружком (с поставкой), которая находится в минусовой строке; в этой клетке поставка уменьшается и она становится отрицательной вершиной цепи;
· перемещение поставки в конец открытой цепи производится как в методе потенциалов с чередованием положительных и отрицательных вершин;
· в этом методе не требуется количества кружков (клеток с поставками), равного m + n – 1 ;
· в исходном плане число кружков равно числу столбцов и лишь в ходе решения появляются новые клетки с кружками (поставками);
· в незамкнутой цепи вершинами бывают клетки без кружков (без поставок); они положительны, так как в них вносится поставка;
· характеристика незамкнутой цепи рассчитывается как алгебраическая сумма показателей ∆Сij или в ее вершинах; так как при распределении поставок по цепи функционал увеличивается, характеристика цепи всегда положительная; она показывает, насколько увеличивается в функционал, если передвинуть по цепи поставку, равную 1, из минусовой строки в плюсовую.
35Критерий Пирсона (хи-квадрат, χ2).Для оценки соответствия или расхождения полученных эмпирических данных и теоретических (расчетных, прогнозных) распределений применяются статистические критерии согласия. Среди них наибольшее распространение получил непараметрический критерий К. Пирсона – хи-квадрат. Его можно использовать с различными формами распределения совокупностей. Как и любой другой статистический критерий, он не доказывает справедливость нулевой гипотезы, а лишь устанавливает с определенной вероятностью ее согласие или несогласие с экспериментальными данными. Критерий применяется при условии наличия не менее 5 наблюдений или частот в каждой группе, классе или совокупности. Малые частоты объединяют. Вычисление проводят по формуле:
χ2 = ∑ [(φ – φ΄)2 / ∑ φ΄], (1.26)
где φ, φ΄– наблюдения или частоты в опыте соответственно эмпирически или теоретически ожидаемые.
Значения χ2 могут быть только положительными и возрастать от нуля до бесконечности. Если вычисленный критерий хи-квадрат больше табличного (теоретического) значения, нулевая гипотеза, которая предполагает соответствие эмпирического и теоретического распределений, отвергается, при χ2выч < χ2табл нулевая гипотеза принимается.
Достоверность различий можно определить по правилу Романовского: нулевая гипотеза отвергается, если соблюдается неравенство:
D = (χ2 – ν) / >3 (1.27)
Степень свободы при проверке гипотезы о нормальном распределении вычисляется по формуле ν = k – 3, где k – число классов. Различие между экспериментальными вариантами и теоретическими считаются достоверными, если D > 3.
Критерий Пирсона тем меньше, чем меньше различаются эмпирические и теоретические частоты. Он не позволяет обнаружить различия, которые скрадывает группировка (объединение малых частот в одну группу). Его удобно использовать, так как не требуется вычислений средних дисперсий.
ДИСПЕРСИОННЫЙ АНАЛИЗ
При планировании эксперимента бывают ситуации, когда исследуемую систему необходимо разбить на группы, отличающиеся между собой в количественном отношении, и установить сходство или различие между ними по влиянию различных факторных величин на признак. Например, определить степень влияния географических условий на ход тех или иных процессов, явлений. Таким условиям лучше всего отвечает дисперсионный анализ, который нашел применение в физической географии.
Дисперсионный анализ позволяет утверждать с определенной долей уверенности наличие влияния на изучаемый объект каждого из условий в отдельности или в их сочетаниях. Обязательным условием применения дисперсионного анализа является разбивка каждого учитываемого фактора не менее чем на две группы. Они могут быть представлены как качественными, так и количественными показателями. Качественные показатели приводятся в виде баллов. Анализу подвергаются лишь определяющие поведение объекта факторы, которые установлены исследователем. По количеству определяющих факторов дается название виду дисперсионного анализа (одно-, двух-, трехфакторный и т. д.).
Обработка данных дисперсионного анализа – весьма трудоемкий процесс; облегчает вычисления правильная организация опыта. Порядок расчета в различных видах дисперсионного анализа будет различным, но логическая схема остается единой. Факторы в дисперсионном анализе должны быть независимыми друг от друга; каждый фактор следует разделить на группы, количество которых зависит от поставленной задачи.
Дисперсионный анализ применяется в случаях нормального или близкого к нему распределения выборочных совокупностей. Выборки должны иметь близкие по значению показатели дисперсии σ2. Количество повторностей в каждой выделенной группе принимается одинаковым.
Основная трудность при использовании дисперсионного анализа – составление комбинационной таблицы для обработки данных (дисперсионный комплекс). Если число наблюдений над результативным признаком по отдельным группам изучаемого фактора одинаково, то дисперсионный комплекс называется равномерным, если разное, то неравномерным. Общее число наблюдений над результативным признаком принято называть объемом дисперсионного комплекса.
Порядок действия по каждому виду дисперсионного анализа определяется его основной задачей, которая состоит в делении суммарного или общего варьирования изучаемого признака на доли: варьирование, вызываемое действием отдельных факторов; варьирование, вызываемое взаимодействием факторов между собой; остаточное варьирование объекта, которое определяется неучитываемыми факторами.
Цели и задачи мат.методов в географии.
Географические исследования и практические задачи базируются на большом объеме количественной информации, которую необходимо объективно оценить и провести группировку или классификацию, доказать зависимость или провести моделирование, выявить оптимальные условия развития или установить пространственные закономерности развития объектов или явлений, дать прогноз их развития. Эти вопросы успешно решаются с помощью математических методов и соответствующих программ, разработанных для ПЭВМ. Математика позволяет решать задачи частные и общие.
Большинство методов статистического анализа универсальны и могут применяться в разнообразных отраслях деятельности человека. Поэтому все программные средства, которые можно использовать для статистической обработки на персональных компьютерах, можно разделить на специализированные пакеты, статистические пакеты общего назначения, табличные процессоры и электронные таблицы. Сопроводительные описания рассчитываются для пользователей со специальной подготовкой в области математики.
Современные географические методы исследования сравнительно-географический, системный и другие необходимо использовать в сочетании с математическим обоснованием результатов. Математические методы позволяют широко использовать системный анализ, как наиболее совершенный. Любой географический объект исследования может быть представлен как система – определенный объект, состоящий из множества частей, которые взаимосвязаны не только между собой, но и с соседними объектами-системами. Установить целостность и структуру, иерархичность, величину и направленность связей в системе, их характер позволяют математические методы путем создания формализованных систем. Системный подход основан на исследовании объектов как систем, создает единую теоретическую модель. Системный анализ представляет собой совокупность методологических средств, позволяющих обосновать проблемы научно-практического характера. Успешное использование системного анализа возможно при реализации следующих важнейших принципов, опирающихся на математические методы:выявляется и формулируется конечная цель исследования; система-объект рассматривается как единое целое, в ней выявляются все взаимосвязи и их результаты; строится обобщенная комбинированная модель (модели), где отображаются структура, иерархия и взаимосвязи.
Выделяются две группы систем: материальные и абстрактные. Традиционные методы географии изучают материальные системы. Социальные системы через техногенез могут оказывать воздействие на природные. По развитию выделяют системы статичные (предприятия) и динамичные (ландшафт). По характеру взаимодействия системы делятся на закрытые (в них не поступает и из них не выводится вещество, происходит лишь обмен энергией) и открытые (постоянно происходит ввод и вывод вещества и обмен энергией). В открытой системе, например, ландшафте постоянно протекающие процессы и явления создают подвижное равновесие, т.е. некоторую стабильность в определенных условиях среды и общества.
Среди абстрактных систем на основе различных систематизирующих отношений можно выделить: функциональные (математическая модель), структурные (глобус), временные (прогноз погоды), геометрические (линия регрессии на графике). В научную литературу введено понятие управляющая система, которая рассматривается как схематическое отображение реальных объектов. Она задается элементами, схемой и координатами. Элементы определяются через их свойства. Схема показывает характер соединений между элементами. Координаты показывают относительное положение выделенных элементов управляющей системы. Любая управляющая система не мыслится без понятия функции – отображения одного множества в другом как действие с реальными предметами или как вещественный процесс (например, функция растительности – создание органического вещества из неорганического с использованием солнечной энергии в процессе фотосинтеза).
2. Ранговая корреляция
В географических исследованиях иногда приходится обрабатывать быстро и с наименьшими затратами фактический материал, даже если получаются менее точные результаты. В таких случаях для установления зависимости между признаками используется ранговая корреляция.
Процесс упорядочения вариант по какому-либо признаку называют ранжированием. Каждому члену ранжированного ряда присваивается ранг. Для обозначения рангов, как правило, используются числа в пределах единиц и десятков, например: 1, 2, 3, ..., n. Следует иметь в виду, что одни и те же варианты в зависимости от цели группировки могут иметь различные ранги. Величина ранга не позволяет нам судить о том, насколько близко друг к другу расположены на шкале измерения различные варианты совокупности или качественные признаки.
Ранговую корреляцию можно применять для всех упорядоченных признаков (например, экспертные оценки, баллы, бонитеты). Объем сопряженных выборок должен быть не менее пяти. Коэффициент ранговой корреляции характеризуется следующими свойствами.
Если ранжированные варианты выборочных совокупностей имеют один и тот же ранг независимо от цели ранжирования, то коэффициент корреляции должен быть равен +1, т. е. существует полная положительная функциональная зависимость:
N1 | |||||||
N2 |
Если ранги вариан<
Дата: 2016-10-02, просмотров: 196.