Известно значений случайной величины Х – , , … . Для удобства последующего анализа эти значения обычно сортируют по возрастающей, в электронных таблицах эта операция выполняется практически мгновенно. В случае если выборка большая, а случайная величина дискретная, то в выборке может оказаться большое число повторяющихся значений, и в этом случае выборку удобнее представить в виде двух рядов чисел:
и
где: – значения случайной величины;
– число повторений каждого i-го значения.
Второй вариант представления выборки дискретной случайной величины – рассчитать вероятность появления i-го значения случайной величины по формуле:
и представить выборку в виде , .
Основной частью предварительного анализа данных является построение гистограммы случайной величины по данным выборки. Гистограмма – это столбчатая диаграмма по горизонтальной оси которой нанесены обычно равномерные интервалы случайной величины, а по вертикальной – число попаданий случайной величины в эти интервалы.
|
|
В случае если полученная гистограмма имеет более одной вершины (рис 5, а), то это является сигналом того, что исходные данные представляют собой выборку не одной случайной величины, а являются суммой двух выборок двух разных случайных величин. Например, вместо перекрестных данных одного и того же класса имеются данные об объектах принадлежащих двум разным классам, или данные о состоянии объекта прогнозирования в прошлом относятся к двум его разным состояниям – до каких либо структурных изменений и после этих изменений. Во всех подобных случаях в прогнозирование будет введена существенная ошибка, поскольку объект принадлежит к какому-то одному классу или находится в конкретном состоянии (после изменения) а не оба (до и после изменения). По этому при наличии у гистограммы более одной вершины исходные данные должны быть тщательно проанализированы на предмет удаления из них данных, не имеющих отношения к объекту прогнозирования.
Заслуживают тщательного внимания и выбросы на гистограмме (рис5, б), особенно если эти выбросы расположены на некотором расстоянии от основной фигуры гистограммы. Данные соответствующие выбросам полезно детально изучить так как они обычно сигнализируют о наличии сбоев в изучаемом процессе или иных отклонений от обычного хода дел, включая случаи злоупотреблений, воровства и т.д.
И наконец, внешний вид гистограммы позволяет приближенно судить о характере распределения случайной величины. В случае если гистограмма напоминает симметричную одновершинную фигуру, то дальнейшая работа по прогнозированию может быть выполнена в предположении, что случайная величина имеет нормальное распределение работы с которым наиболее проста в виду хорошей теоретической изученности этого распределения и разнообразности разработанных для него приемов и методов обработки. В случае если это не так (рис 5, в), то необходимо воспользоваться каким либо другим специальным распределением, что обычно усложняет задачу анализа.
|
|
Рис 5. Гистограммы случайных величин.
Следует отметить, что визуальный анализ исходных данных по внешнему виду гистограммы является приближенным, так как, во-первых, внешний вид гистограммы может существенно изменяться при изменении числа интервалов на гистограмме, во-вторых, отсутствуют числовые критерии для диагностики того или иного предположения. Существуют более надежные статистические методы проверки обсуждавшихся выше предположений, но они требуют больших (обычно более 50 – 100 точек) выборок, что редко встречается в практике прогнозирования и специальных методов обработки. Визуальный анализ позволяет с минимальными затратами или получить результат или выявить те случаи когда требуются специальная статистическая обработка. По этому с учетом простоты построения гистограмм в электронных таблицах, следует считать, что он обязателен при построении прогноза.