Системы для фильтрования данных

Текстов в открытых источниках, как правило, много больше, чем способна проанализировать даже очень мощная разведывательная служба. Поэтому перед тем, как подвергнуться анализу, тексты обычно проходят фильтрование: разделение на скорее всего нужные и скорее всего ненужные.

Назначение программной системы для фильтрования данных - отбор текстов или текстовых фрагментов, содержащих требуемые сведения. Фильтрование может осуществляться формально (компьютерной программой) или неформально (оператором). Обычно сначала осуществляется формальное фильтрование, после чего полученные данные дополнительно проходят неформальный отбор. Также можно говорить о предварительном фильтровании, осуществляемом на уровне источников, авторов, заголовков, ключевых слов, резюме, и об окончательном фильтровании, осуществляемом на уровне полных текстов.

Программа формального отбора ищет тексты или текстовые фрагменты, содержащие указанные ключевые выражения. Программа должна узнавать ключевые выражения в различных вариантах их написания. Поиск может вестись в пределах файла, каталога, тома. На выходе программы может быть файл со строками или абзацами, содержащими нужные выражения, и ссылками на файлы, в которые эти строки или абзацы входят.

Системы поддержки неформального анализа текстов

В системах поддержки нетипового анализа больших массивов текстовых данных могут предлагаться следующие возможности:

- расцвечивание компонентов текста;

- поиск фрагментов текста;

- создание выборок фрагментов текста;

- параллельная демонстрация фрагментов текста;

- создание ссылок между фрагментами;

- размещение "закладок" различных типов;

- поддержка различных вариантов редакции фрагментов текста;

- поддержка различных вариантов структуризации для одного и того же набора фрагментов текста.

Возможные цели неформального анализа: выявление...

- замысла;

- представлений, лежащих в основе текста;

- слабых мест (противоречий, повторений, чрезмерных или недостаточных детализаций, очевидностей, неполноты или лишнего, неоптимальностей структуры);

- интеллектуального уровня, мыслительных парадигм и информированности авторов;

- состояния текста (законченный, почти законченный, далекий от завершения);

- перспективы доработки и использования текста.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: