Морфологический анализ (Part-of-Speech-tagging)

Задача морфологического анализа – автоматически распознать, какой части речи принадлежит каждое слово тексте (каждому слову поставить в соответствие лексико-грамматический класс).

Данная задача может быть выполнена для русского языка практически со стопроцентной точностью благодаря его развитой морфологии. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (синтаксическую часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка. Для проведения морфологического анализа русскоязычных текстов обычно используется компьютерная версия грамматического словаря Зализняка, а для проведения морфологического анализа англоязычных текстов используется компьютерная версия грамматического словаря Мюллера. Для улучшения точности морфологического анализа в случае определения частей речи многозначных слов используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов использует два источника информации:

• Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы.

• Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.

Алгоритмы, основанные на продукционных правилах, используют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами.

Оба подхода дают примерно одинаковый результат. При их использовании раздельно, либо в различных комбинациях, точность лексико-грамматического анализа улучшается до 96-98%. Поскольку точность при лексико-грамматическом анализа текста вручную также имеет определенную погрешность (0,5-2%), можно считать, что точность лексико-грамматического анализа в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: