Существует несколько подходов к анализу и обработке пространственно распределенных данных, которые можно условно разделить на три группы:
1) детерминистические модели (интерполяторы) - линейная интерполяция на основе триангуляции, метод обратных расстояний, мульти-квадратичные уравнения и т. п. (Каневский и др., 1996);
2) геостатистика — модели, базирующиеся на статистической интерпретации данных (Journel, Huijbregts, 1978);
3) алгоритмы, основанные на обучении — искусственные нейронные сети, генетические алгоритмы, статистическая теория обучения машин векторов поддержки (Support Vector Machines) (Vapnik, 1998).
Конечно, это деление до известной степени условно. Так, геостатистические модели можно изложить в детерминистической формулировке, и наоборот, некоторые детерминистические модели имеют близкие статистические аналоги. В свою очередь, статистический подход, на котором базируется геостатистика, включает регрессионные модели пространственных интерполяций (предсказаний) и методы стохастического моделирования, цели и задачи которых различны. Алгоритмы, основанные на обучении (или искусственный интеллект), также имеют статистическую интерпретацию.
Современная геостатистика — это широкий спектр статистических моделей и инструментов для анализа, обработки и представления пространственно распределенной информации.
Традиционные детерминистические методы, широко используемые для пространственной интерполяции, позволяют решать только первую и вторую задачи из приведенного выше списка. Геостатистическая теория позволяет решать весь набор задач, в том числе оценить неопределенность оценки и описать ее вариабельность.
Геостатистика возникла в начале 1960-х гг. как теория региональных переменных, сформулированная Ж. Матероном (Matheron) для анализа данных о природных ископаемых (горнорудное дело) (Matheron, 1963; Матерон, 1968). Он организовал Центр геостатистики в Фонтенбло (Франция). Этот центр внес заметный вклад в теоретические исследования и их практические применения.
Независимо от Ж. Матерона и практически в то же время советский ученый Л. С. Гандин сформулировал теорию оптимальной интерполяции для объективного анализа метеополей [Гандин, Каган, 1976]. В этой теории также приведены основы геостатистической теории. К сожалению, последующие работы российских ученых в этой области не нашли в то время широкой поддержки.
Современная геостатистика — это быстро развивающаяся область прикладной статистики с огромным набором методов, линейных и нелинейных, параметрических и непараметрических моделей для анализа, обработки и представления пространственной информации. Спектр ее применения весьма широк — от традиционного использования в области добычи ископаемых до современных приложений в экономике, финансах, окружающей среде, эпидемиологии (Goovaerts, 1997; Wackernagel, 1995).
Геостатистический анализ позволяет значительно повысить уровень надежности и качество решений, принимаемых на основе использования пространственно распределенной информации. Современные тенденции геостатистики связаны с развитием методов стохастического моделирования (пространственных аналогов методов Монте-Карло), методов, основанных на многоточечной статистике, гибридных моделей с использованием алгоритмов искусственного интеллекта, с использованием дополнительной информации различного вида и приложениями в области обработки и передачи изображений, с расширением на временной и пространственно- временной анализы и многими направлениями (Kanevski et al., 2007).
Важной составляющей традиционной геостатистики является пространственный корреляционный анализ, или вариография. Несмотря на кажущуюся простоту исходных формул, вариография позволяет сделать глубокие выводы о статистической природе данных и структуре адекватных моделей. Экспериментальная вариография, основанная на исходных данных, может быть использована в большинстве задач пространственного оценивания независимо от метода интерполяции наравне с традиционным статистическим анализом.
1.4. Основные этапы анализа и моделирования пространственных данных Первым и весьма важным этапом исследования является современный статистический анализ данных, позволяющий определить наличие ошибок и выбросов (outliers) в данных, оценить базовые статистические закономерности, провести корреляционный анализ при наличии нескольких переменных и т. п. Если данные собраны на нерегулярной кластерной сети мониторинга, может потребоваться пространственная декластеризация для получения репрезентативной глобальной статистики — средних, вариаций, гистограмм. Если сеть мониторинга имеет зоны с заметно более высокой плотностью измерений, чем остальная область, то сеть мониторинга кластерная. Если при этом зоны повышенной плотности измерений характеризуются более высокими (или, наоборот, низкими) значениями измерений, возникает необходимость в декластеризации. Иначе оценки всех статистических характеристик будут искажены, например оценка среднего будет завышена (или, наоборот, занижена). Процедура декластеризации ориентирована на устранение такого рода искажений. Можно рассматривать два основных типа декластеризации — выборочную и весовую. Выборочная декластеризация связана с выбором части данных из кластеров, весовая предполагает задание весов, с которыми используются измерения. Подробнее кластер- ность и декластеризация рассмотрены в Главе 2. Оценить некоторые пространственные особенности данных позволяет статистика с движущимся окном: область разбивается на подобласти, в каждой из которых проводится независимый статистический анализ. Дальнейший пространственный анализ предполагает исследование и моделирование пространственной корреляции между данными по одной или нескольким переменным. Мерой пространственной корреляции является вариограмма — статистический момент второго порядка. |
1.4. Основные этапы анализа и моделирования пространственных данных
Первым и весьма важным этапом исследования является статистический анализ данных, позволяющий определить наличие ошибок и выбросов (outliers) в данных, оценить базовые статистические закономерности, провести корреляционный анализ при наличии нескольких переменных и т.п.
Если данные собраны на нерегулярной кластерной сети мониторинга, может потребоваться пространственная декластеризация для получения репрезентативной глобальной статистики — средних, вариаций, гистограмм. Если сеть мониторинга имеет зоны с заметно более высокой плотностью измерений, чем остальная область, то такая сеть мониторинга - кластерная. Если при этом зоны повышенной плотности измерений характеризуются более высокими (или, наоборот, низкими) значениями измерений, возникает необходимость в декластеризации. В противном случае оценки всех статистических характеристик будут искажены, например, оценка среднего будет завышена (или, наоборот, занижена). Процедура декластеризации ориентирована на устранение такого рода искажений.
Можно рассматривать два основных типа декластеризации - выборочную и весовую. Выборочная декластеризация связана с выбором части данных из кластеров, весовая предполагает задание весов, с которыми используются измерения.
Оценить некоторые пространственные особенности данных позволяет статистика с движущимся окном, т.е. область разбивается на подобласти, в каждой из которых проводится независимый статистический анализ. Дальнейший пространственный анализ предполагает исследование и моделирование пространственной корреляции между данными по одной или нескольким переменным. Мерой пространственной корреляции является вариограмма — статистический момент второго порядка.
Для получения наилучшей в статистическом смысле пространственной оценки используются модели из семейства кригинга (kriging) — наилучшего линейного несмещенного оценивателя (best linear unbiased estimator — BLUE).
Кригинг является наилучшим оценивателем в статистическом смысле в классе линейных интерполяторов — его оценка обладает минимальной вариацией ошибки. Важное свойство кригинга — точное воспроизведение значений измерений в имеющихся точках (точный оцениватель). В отличие от многочисленных детерминистических методов, оценка кригинга сопровождается оценкой ошибки интерполяции в каждой точке. Полученная ошибка позволяет охарактеризовать неопределенность полученной оценки данных при помощи доверительных интервалов.
При применении любой модели интерполяции встает вопрос о подборе оптимальных модельно-зависимых параметров. Легко показать, что даже в случае использования одного и того же метода интерполяции можно получить качественно разные результаты в зависимости от выбора модельных параметров. Выбор оптимальных параметров модели опирается на пошаговое исследование характера и структуры данных. Эффективными инструментами подбора модельных параметров являются:
· методы кросс-валидации (cross- validation),
· складного ножа (jack-knife),
· бутстреп (bootstrap) (Armstrong, 1997).
Все они основаны на проведении оценки для части точек измерений, выбранных из основного набора по остальным данным с последующим вычислением ошибки оценки. После оценок по всем точкам, наборам или выборкам оценивается среднеквадратичная ошибка полученных оценок. По ней сравниваются различные методы или выбираются наилучшие параметры метода. В геостатистике традиционно более широко используется кросс-валидация.
При проведении анализа реальных данных эксперты часто сталкиваются с проблемой малого количества измерений по интересующей переменной, например, вследствие их дороговизны или небезопасности взятия проб. При этом в наличии может оказаться большое (избыточное) количество «дешевых» измерений переменной, которая достаточно сильно коррелированна с основной. Встает вопрос, как можно использовать «дешевую» информацию для улучшения оценки переменной, информация по которой «дорога»?
В рамках многопеременной геостатистики существует модель совместной пространственной интерполяции нескольких коррелированных переменных — кокригинг. Кокригинг позволяет значительно улучшить качество оценки, перейти из области экстраполяции в область интерполяции, уменьшить ошибку оценки за счет использования дополнительной «дешевой» информации по коррелированным переменным.
Часто результатом пространственного анализа данных в рамках квалифицированной поддержки принятия решений являются вероятностные карты. Вероятностное картирование дает возможность оценить уровень риска по превышению или непревышению заданного уровня значения пространственной переменной. Оно также используется при оптимизации решений, когда пространственный анализ данных является только промежуточным этапом. В рамках геостатистики для вероятностного картирования используются нелинейные модели кригинга, в частности индикаторный кригинг. Он позволяет рассчитать локальную функцию распределения в точке оценивания. В качестве результатов составляются карты вероятности, карты средних оценок, карты оценок с заданной вероятностью превышения, которые используются в процессе принятия решений.
Применение различных детерминистических или геостатистических моделей интерполяции/оценивания всегда дает единственное и сглаженное, не воспроизводящее изначальную вариабельность данных значение оценки в интересующей точке при выбранных модельных параметрах. Стохастическое моделирование является альтернативным подходом, дающим возможность воспроизвести исходную вариабельность и получить сколь угодно много равновероятных реализаций пространственной функции в области. Равновероятные реализации позволяют описать пространственную вариабельность (изменчивость) и неопределенность пространственной функции, оценить вероятности и риск. При использовании стохастического моделирования удается избежать «сглаженной» картины оценки, которая присуща большинству моделей интерполяции. Это позволяет получать корректные результаты в таких задачах, как, например, расчет объема нефтяного резервуара, «длины» береговой линии и т. п.
На основе описанных этапов анализа и моделирования пространственных данных можно сформулировать блок-схему пошагового анализа (рис. 2). В ее основе лежит методология, опробованная в различных исследованиях, в том числе и на данных радиоактивного Чернобыльского загрязнения (Каневский и др., 1999).
Рис. 1.2. Блок-схема методологии последовательного анализа и моделирования пространственно-распределенных данных
Обучаемые статистические модели, такие как искусственные нейронные сети и машины поддерживающих векторов (support vector machines), можно использовать наряду с геостатистическими моделями для решения задач пространственной регрессии и классификации (Kanevski, Maignan, 2004; Advanced..., 2008).