Подходы к анализу пространственно распределенных данных

Существует несколько подходов к анализу и обработке пространственно распределенных данных, которые можно условно разделить на три группы:

1) детерминистические модели (интерполяторы) - линейная интерпо­ляция на основе триангуляции, метод обратных расстояний, мульти-квадратичные уравнения и т. п. (Каневский и др., 1996);

2) геостатистика — модели, базирующиеся на статистической интерпрета­ции данных (Journel, Huijbregts, 1978);

3) алгоритмы, основанные на обученииискусственные нейронные сети, генетические алгоритмы, статистическая теория обучения машин векто­ров поддержки (Support Vector Machines) (Vapnik, 1998).

Конечно, это деление до известной степени условно. Так, геостатистические модели можно изложить в детерминистической формулировке, и наоборот, некоторые детерминистические модели имеют близкие статистические аналоги. В свою очередь, статистический подход, на котором базируется геостатистика, включает регрессионные модели пространственных интер­поляций (предсказаний) и методы стохастического моделирования, цели и задачи которых различны. Алгоритмы, основанные на обучении (или искус­ственный интеллект), также имеют статистическую интерпретацию.

Современная геостатистика — это широкий спектр статистических моде­лей и инструментов для анализа, обработки и представления простран­ственно распределенной информации.

Традиционные детерминистические методы, широко используемые для про­странственной интерполяции, позволяют решать только первую и вторую задачи из приведенного выше списка. Геостатистическая теория позволяет решать весь набор задач, в том числе оценить неопределенность оценки и описать ее вариабельность.

Геостатистика возникла в начале 1960-х гг. как теория региональных пере­менных, сформулированная Ж. Матероном (Matheron) для анализа данных о природных ископаемых (горнорудное дело) (Matheron, 1963; Матерон, 1968). Он организовал Центр геостатистики в Фонтенбло (Франция). Этот центр внес заметный вклад в теоретические исследования и их практические при­менения.

Независимо от Ж. Матерона и практически в то же время советский ученый Л. С. Гандин сфор­мулировал теорию оптимальной интерполяции для объективного анализа метеополей [Гандин, Каган, 1976]. В этой теории также приведены основы геостатистической теории. К сожалению, последующие работы российских ученых в этой области не нашли в то время широкой поддержки.

Современная геостатистика — это быстро развивающаяся область приклад­ной статистики с огромным набором методов, линейных и нелинейных, пара­метрических и непараметрических моделей для анализа, обработки и пред­ставления пространственной информации. Спектр ее применения весьма широк — от традиционного использования в области добычи ископаемых до современных приложений в экономике, финансах, окружающей среде, эпидемиологии (Goovaerts, 1997; Wackernagel, 1995).

Геостатистический анализ позволяет значительно повысить уровень на­дежности и качество решений, принимаемых на основе использования пространственно распределенной информации. Современные тенденции геостатистики связаны с развитием методов стохастического моделирова­ния (пространственных аналогов методов Монте-Карло), методов, основан­ных на многоточечной статистике, гибридных моделей с использованием алгоритмов искусственного интеллекта, с использованием дополнитель­ной информации различного вида и приложениями в области обработки и передачи изображений, с расширением на временной и пространственно- временной анализы и многими направлениями (Kanevski et al., 2007).

Важной составляющей традиционной геостатистики является пространственный корреляционный анализ, или вариография. Несмотря на кажущуюся простоту исходных формул, вариография позволяет сделать глубокие выводы о статистической природе данных и структуре адекват­ных моделей. Экспериментальная вариография, основанная на исходных данных, может быть использована в большинстве задач про­странственного оценивания независимо от метода интерполяции наравне с традиционным статистическим анализом.

1.4. Основные этапы анализа и моделирования пространственных данных Первым и весьма важным этапом исследования является современный статистический анализ данных, позволяющий определить наличие оши­бок и выбросов (outliers) в данных, оценить базовые статистические зако­номерности, провести корреляционный анализ при наличии нескольких переменных и т. п. Если данные собраны на нерегулярной кластерной сети мониторинга, мо­жет потребоваться пространственная декластеризация для получения ре­презентативной глобальной статистики — средних, вариаций, гистограмм. Если сеть мониторинга имеет зоны с заметно более высокой плотностью измерений, чем остальная область, то сеть мониторинга кластерная. Если при этом зоны повышенной плотности измерений характеризуются более высокими (или, наоборот, низкими) значениями измерений, возникает необходимость в декластеризации. Иначе оценки всех статистических ха­рактеристик будут искажены, например оценка среднего будет завышена (или, наоборот, занижена). Процедура декластеризации ориентирована на устранение такого рода искажений. Можно рассматривать два основных типа декластеризации — выборочную и весовую. Выборочная декластери­зация связана с выбором части данных из кластеров, весовая предполагает задание весов, с которыми используются измерения. Подробнее кластер- ность и декластеризация рассмотрены в Главе 2. Оценить некоторые пространственные особенности данных позволяет ста­тистика с движущимся окном: область разбивается на подобласти, в каж­дой из которых проводится независимый статистический анализ. Дальнейший пространственный анализ предполагает исследование и мо­делирование пространственной корреляции между данными по одной или нескольким переменным. Мерой пространственной корреляции является вариограмма — статистический момент второго порядка.

1.4. Основные этапы анализа и моделирования пространственных данных

Первым и весьма важным этапом исследования является статистический анализ данных, позволяющий определить наличие оши­бок и выбросов (outliers) в данных, оценить базовые статистические зако­номерности, провести корреляционный анализ при наличии нескольких переменных и т.п.

Если данные собраны на нерегулярной кластерной сети мониторинга, мо­жет потребоваться пространственная декластеризация для получения ре­презентативной глобальной статистики — средних, вариаций, гистограмм. Если сеть мониторинга имеет зоны с заметно более высокой плотностью измерений, чем остальная область, то такая сеть мониторинга - кластерная. Если при этом зоны повышенной плотности измерений характеризуются более высокими (или, наоборот, низкими) значениями измерений, возникает необходимость в декластеризации. В противном случае оценки всех статистических ха­рактеристик будут искажены, например, оценка среднего будет завышена (или, наоборот, занижена). Процедура декластеризации ориентирована на устранение такого рода искажений.

Можно рассматривать два основных типа декластеризации - выборочную и весовую. Выборочная декластери­зация связана с выбором части данных из кластеров, весовая предполагает задание весов, с которыми используются измерения.

Оценить некоторые пространственные особенности данных позволяет ста­тистика с движущимся окном, т.е. область разбивается на подобласти, в каж­дой из которых проводится независимый статистический анализ. Дальнейший пространственный анализ предполагает исследование и мо­делирование пространственной корреляции между данными по одной или нескольким переменным. Мерой пространственной корреляции является вариограмма — статистический момент второго порядка.

Для получения наилучшей в статистическом смысле пространственной оцен­ки используются модели из семейства кригинга (kriging) — наилучшего ли­нейного несмещенного оценивателя (best linear unbiased estimator — BLUE).

Кригинг является наилучшим оценивателем в статистическом смысле в классе линейных интерполяторов — его оценка обладает минимальной вариацией ошибки. Важное свойство кригинга — точное воспроизве­дение значений измерений в имеющихся точках (точный оцениватель). В отличие от многочисленных детерминистических методов, оценка кри­гинга сопровождается оценкой ошибки интерполяции в каждой точке. Полученная ошибка позволяет охарактеризовать неопределенность полу­ченной оценки данных при помощи доверительных интервалов.

При применении любой модели интерполяции встает вопрос о подборе оптимальных модельно-зависимых параметров. Легко показать, что даже в случае использования одного и того же метода интерполяции можно по­лучить качественно разные результаты в зависимости от выбора модельных параметров. Выбор оптимальных параметров модели опирается на пошаговое ис­следование характера и структуры данных. Эффективными инструментами подбора модельных параметров являются:

· методы кросс-валидации (cross- validation),

· складного ножа (jack-knife),

· бутстреп (bootstrap) (Armstrong, 1997).

Все они основаны на проведении оценки для части точек измере­ний, выбранных из основного набора по остальным данным с последующим вычислением ошибки оценки. После оценок по всем точкам, наборам или выборкам оценивается среднеквадратичная ошибка полученных оценок. По ней сравниваются различные методы или выбираются наилучшие па­раметры метода. В геостатистике традиционно более широко используется кросс-валидация.

При проведении анализа реальных данных эксперты часто сталкиваются с проблемой малого количества измерений по интересующей переменной, например, вследствие их дороговизны или небезопасности взятия проб. При этом в наличии может оказаться большое (избыточное) количество «дешевых» измерений переменной, которая достаточно сильно коррели­рованна с основной. Встает вопрос, как можно использовать «дешевую» информацию для улучшения оценки переменной, информация по которой «дорога»?

В рамках многопеременной геостатистики существует модель со­вместной пространственной интерполяции нескольких коррелированных переменных — кокригинг. Кокригинг позволяет значительно улучшить ка­чество оценки, перейти из области экстраполяции в область интерполяции, уменьшить ошибку оценки за счет использования дополнительной «деше­вой» информации по коррелированным переменным.

Часто результатом пространственного анализа данных в рамках квалифи­цированной поддержки принятия решений являются вероятностные карты. Вероятностное картирование дает возможность оценить уровень риска по превышению или непревышению заданного уровня значения простран­ственной переменной. Оно также используется при оптимизации решений, когда пространственный анализ данных является только промежуточным этапом. В рамках геостатистики для вероятностного картирования исполь­зуются нелинейные модели кригинга, в частности индикаторный кригинг. Он позволяет рассчитать локальную функцию распределения в точке оце­нивания. В качестве результатов составляются карты вероятности, карты средних оценок, карты оценок с заданной вероятностью превышения, кото­рые используются в процессе принятия решений.

Применение различных детерминистических или геостатистических моде­лей интерполяции/оценивания всегда дает единственное и сглаженное, не воспроизводящее изначальную вариабельность данных значение оценки в интересующей точке при выбранных модельных параметрах. Стохастиче­ское моделирование является альтернативным подходом, дающим возмож­ность воспроизвести исходную вариабельность и получить сколь угодно много равновероятных реализаций пространственной функции в области. Равновероятные реализации позволяют описать пространственную вариа­бельность (изменчивость) и неопределенность пространственной функции, оценить вероятности и риск. При использовании стохастического модели­рования удается избежать «сглаженной» картины оценки, которая присуща большинству моделей интерполяции. Это позволяет получать корректные результаты в таких задачах, как, например, расчет объема нефтяного резер­вуара, «длины» береговой линии и т. п.

На основе описанных этапов анализа и моделирования пространственных данных можно сформулировать блок-схему пошагового анализа (рис. 2). В ее основе лежит методология, опробованная в различных исследовани­ях, в том числе и на данных радиоактивного Чернобыльского загрязнения (Каневский и др., 1999).

 

Рис. 1.2. Блок-схема методологии последовательного анализа и моделирования пространственно-распределенных данных

Обучаемые статистические модели, такие как искусственные нейронные сети и машины поддерживающих векторов (support vector machines), можно использовать наряду с геостатистическими моделями для решения задач пространственной регрессии и классификации (Kanevski, Maignan, 2004; Advanced..., 2008).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: