Каков
средний вес человека?
|
Основная идея
статистики заключается в том, что о населении в целом можно сказать что-то,
выяснив это для меньшей группы людей. Без этой идеи не было бы опросов
общественного мнения или предвыборных прогнозов, не было бы возможности
испытать новые медицинские препараты или исследовать безопасность мостов и т.
д. В значительной степени за факт, что мы можем делать все это и уменьшать
неопределенности прогнозов, отвечает центральная предельная теорема.
Чтобы понять, как
работает теорема, представим, что нужно узнать средний вес жителя
Великобритании. Вы выходите и измеряете вес, скажем, ста случайно выбранных
людей, и находите средний вес человека для этой группы — назовем это выборочным
средним. Теперь выборочное среднее должно дать достаточно точное представление
о среднем по стране. Но что, если вам в выборке попались только полные люди
или, наоборот, только очень худые?
Чтобы получить
представление о том, насколько типичным будет полученное среднее значение,
нужно знать, как средний вес выборки из 100 человек варьируется в зависимости
от населения: если вы взяли очень много групп из 100 человек и нашли средний
вес для каждой группы, то насколько будут различаться найденные числа? И
насколько его среднее (среднее средних) будет совпадать с истинным средним
весом человека в популяции?
Например, предположим,
что если выбрать очень много групп из 100 человек и записать средний вес каждой
группы, получатся бы все значения от 10 кг до 300 кг в равных количествах.
Тогда ваш метод оценки общего среднего по одной выборке из 100 человек не очень
хороший, потому что слишком большой разброс значений — вы можете получить любое
из возможных значений, поэтому нельзя сказать, какое из них ближе всего к
истинному среднему весу в популяции.
Итак, как мы можем
говорить что-либо о распределении средних значений масс 100 человек —
называемом распределением выборки — когда мы ничего не знаем о распределении
масс всего населения? В этом и заключается центральная предельная теорема: в
ней говорится, что для достаточно большой выборки распределение выборки
аппроксимируется нормальным распределением — это распределение, имеющее
известную форму колокола. (Обычно считается, что размер выборки 30 достаточно
хорош.)
Среднее этого
нормального распределения (среднее из средних значений, соответствующих вершине
колокола) такое же, как среднее по всему населению (средний вес популяции).
Дисперсия этого нормального распределения, то есть насколько вес отклоняется от
среднего (определяется шириной колокола), зависит от размера выборки: чем
больше выборка, тем меньше дисперсия. Существует уравнение, которое дает точное
соотношение.
Поэтому, если ваш
размер выборки достаточно велик (100, конечно, подойдет, так как это больше
30), то относительно небольшая дисперсия нормального распределения выборки
означает, что средний вес, который вы наблюдаете, близок к среднему значению
этого нормального распределения (поскольку колокол довольно узкий). И так как
среднее этого нормального распределения равно истинному среднему весу во всей
популяции, наблюдаемый средний показатель является хорошим приближением к
истинному среднему.
Вы можете сделать все это точно, например, вы можете сказать, насколько вы уверены
в том, что истинное среднее значение удалено от выборочного среднего, и вы
также можете использовать результат для расчета того, насколько большой образец
вам нужен, чтобы получить оценку с определенной степенью точности. Именно
центральная предельная теорема отвечает за точность статистического вывода, и
именно она стоит за широкой распространенностью нормального распределения.
На самом деле, центральная предельная теорема немного более общая, чем здесь
представлено. Вот ее точная формулировка.