Морфологический анализ и синтез форм слов

Реализация полного лингвистического анализа текстовой информации предполагает решение следующих задач:

• лексического анализа;

• морфологического анализа;

• синтаксического анализа;

• семантического анализа.

Перечень данных задач упорядочен по логическим этапам реализации полного лингвистического анализа текстовой информации. Каждая последующая задача является более трудоемкой, по сравнению с предыдущими, что обусловлено возрастающей сложностью ее формализации. Реализация задач лингвистического анализатора зависит от особенностей обрабатываемого/обрабатываемых языков, на которых изложена текстовая информация.

Таким образом, перспективные поисковые системы (машины) должны включать в свой состав программно-технические комплексы, реализующие полный перечень задач лингвистического анализа текстовой информации.

Лучшие из существующих поисковых систем выполняют функции морфологического анализа текстовой информации (как индексируемых текстов, так и запросов пользователей), а также выполняют отдельные элементы синтаксического анализа предложений. Алгоритмы работы существующих поисковых систем основаны на поиске в заранее проиндексированных текстах ключевых слов. Запрос пользователя поисковой системы состоит из ключевых слов, и может включать в себя управляющие символы формализованного языка запросов. Использование языка запросов обеспечивает более точные результаты поиска, однако, требует от пользователя его знания. Язык запросов для каждой поисковой системы уникален, поэтому на практике пользователи редко им пользуются. Это обуславливает снижение качества поиска за счет увеличения количества найденных документов с неадекватной информацией и необходимости их последующего просмотра и анализа.

Синтаксический анализ текстовой информации позволяет выделить семантические элементы предложения – именную группу, терминологическое целое, предикативную основу. Это позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления семантики информации. В настоящее время отсутствуют сложившиеся подходы к реализации задачи семантического анализа текстовой информации, что во много обусловлено недостаточно полной проработкой научного направления создания систем искусственного интеллекта.

Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: