Информационный поиск. Информационно-поисковые системы.
Лекция
В литературоведении и структурной поэтике близкие методы привлекаются для характеристики стиля писателя и особенностей его видения мира. Интересную информацию об идиолекте писателя дает изучение частотных характеристик служебных и модальных слов.
К настоящему времени разработаны алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста.
В процессе дешифровки могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении.
Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций.
Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования.
|
|
Дешифровка кодированного текста
Авторизация / атрибуция текста
Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии.
Авторизация / атрибуция текста
Используется, например, также авторская экспертиза текста, основанная на методике анализа синонимичных и квазисинонимичных слов.
Сущность методики заключается в выявлении авторских предпочтений в выборе из группы [квази]синонимов — близких по значению слов или устойчивых словосочетаний (фразеологизмов).
Авторизация / атрибуция текста
При атрибуции текста могут, к примеру, быть проанализированы группы [квази]синонимов следующих типов:
• наречия - а) едва и немного; б) вдруг, внезапно, неожиданно; в) очень и слишком.
• частицы - тоже и также
• вводные слова - конечно, разумеется, естественно,
• фразеологические выражения (идиомы) - специфические особенности использования фразеологизмов относятся к числу наиболее характерных стилевых особенностей.
• союзы и союзные слова.
Информационный поиск
Одно из важных следствий научно-технического прогресса — небывалый рост объемов информации.