Выбранная нейронная сеть

Актуальность

С ростом объемов текстовых данных, подлежащих обработке в рамках различных прикладных проблем, становится все более актуальной задача автоматического извлечения и обработки формализованных знаний. Задачи анализа текста многоаспектна и включает отдельные подзадачи, в частности: Извлечение сущностей (entity recognition), извлечение признаков (feature extraction), определение отношений между объектами. Объединение решения всех перечисленных задач позволяет извлекать формализованные знания о предметной области в виде понятий и структуры их взаимосвязей.

 

*Распознавание именованных сущностей (NER) (также известное как идентификация сущностей, разбиение на сущности и извлечение сущностей) - это подзадача извлечения информации, которая стремится найти и классифицировать именованную сущность, упомянутую в неструктурированном тексте, в заранее определенные категории, такие как имена людей, организации, местоположения, медицинские коды, выражения времени, количества, денежные значения, проценты и т. д.

 

*Извлечение признаков (feature extraction) — это процесс уменьшения размерности, посредством которого исходный набор необработанных данных сокращается до более управляемых групп для обработки. Характерной чертой этих больших наборов данных является большое количество переменных, для обработки которых требуется много вычислительных ресурсов. Извлечение признаков - это название методов, которые выбирают и / или объединяют переменные в функции, эффективно сокращая объем данных, которые должны быть обработаны, и в то же время точно и полностью описывают исходный набор данных.

 

(4 слайд)

Проблема цели и задачи

Проблема: не существует однозначного или достаточно приближенного метода установления зависимости лексико-семантического и синтаксического уровней языка

 

Цель: Создание программного модуля для автоматического извлечения знаний из неструктурированного текста с целью прикладного использования в задачах извлечения фактов, формирования и пополнения тезауруса, анализа согласованности документов.

 

Задачи:

• наработка начальной выборки данных;

• проверка гипотезы;

• обучение классификатора;

• создание модуля, использующего полученные ранее результаты.

 

(5 слайд)

Методы, гипотеза

Метод – экспериментальная работа

Гипотеза: существование связи лексико-семантического и синтаксического уровней языка

(6 слайд)

Практическая часть работы: Многоуровневость анализа

В данной работе используется автоматическое извлечение объектов, и их свойств и отношений путем многоуровнего анализа тематических текстов предметной области. Многоуровновость анализа заключается в комбинации статистических и лингвистических методов с целью взаимного уточнения результатов анализа. На первом этапе применяются методы дистрибутивного анализа текста – определение частотных характеристик каждого слова в рассматриваемой коллекции документов, учет статистики совместного употребления, определение контекстной близости слов.

Формируется взвешенная ассоциативная семантическая сеть, весовой коэффициент формируется исходя из частотных характеристик совместного употребления слов. Векторизация слов используется на данном этапе для оценки контекстной близости слов с целью определения устойчивых словосочетаний и денотатов каждого слова. Также векторизация позволяет проводить анализ относительно небольших наборов текстовых документов, уточняя результаты ассоциативного отношения. Показателем контекстной близости является косинусная близость между векторами слов, полученными дистрибутивными моделями на основе больших корпусов текстов.

На втором уровне производится формирование синтаксических деревьев исходных текстов, и последующая интеграция полученных деревьев в модель семантической сети с множественными связями. Для синтаксического и морфологического анализа использована основанная на машинном обучении библиотека SyntaxNet, включающая синтаксическую модель русского языка. Синтаксическую разметку составляют 44 отношения Universal Dependencies(UD). UD разметка упорядоченно представляет межъязыковые соответствия и основаннана на существующих стандартах разметки

Определение парадигматических отношений основано на предположении о существовании связи лексико-семантического и синтаксического уровней языка при актуализации оценочных значений языковых единиц. Интерпретация оценочных предикатов как особых лексико-грамматических классов слов предложена в работах Г.А. Золотовой.

(7 слайд)

Выборка данных для обучения (Википедия + Тренировочная часть данных SinTagRus)

Для определения морфологических и синтаксических характеристик, определяющих парадигматические отношения, было произведено построение взвешенной семантической сети, полученной на наборе аннотаций русскоязычных статей Википедии. Википедия была выбрана так как она наполнена отношениями миронимии, антонимии и т.д. Данные так же были дополнены обучающей частью тезауруса SinTagRus, для получения большего количества исходных данных.

Для определения и систематизации синтаксические, морфологические и статистические характеристики понятий мультиграфа, выражающих одно парадигматическое отношение, были сгруппированы. В качестве эталона парадигматических отношений общеупотребительной лексики использован тезаурус WordNet. Для приведения к формату списка двуместных отношений синонимичные ряды тезауруса были разложены на множества двуместных отношений. Парадигматические отношения тезауруса над синонимичными рядами при этом были установлены между каждой парой слов из различных синонимичных рядов. Далее получено пересечение множеств слов присутствующих в тезаурусе и семантической сети, а также двуместные отношения между словами.

Набор признаков, характеризующих экземпляры для распознавания, состоит из морфологических признаков главного и зависимого слов, соответствующих этим словам 300-мерных векторов Word2Vec, семантического (косинусного) расстояния между ними, типа соединяющего их UD-отношения и также параметры пары слов из тезауруса WordNet. Векторизация осуществлялась моделью ruwikirus-corpora_upos_skipgram_300_2_2019. Число определенных классов отношений в WordNet равно 16. Образованный таким образом обучающий набор включает в себя 3680 векторов по 627 параметров.

(8, 9, 10 слайды)

Полученные данные

В результате было получено 3680 бинарных отношений, в ходе анализа которых было отмечено превалирование определенных групп синтаксических отношений для некоторых парадигматических отношений тезауруса.

Вспомогательное предложение (auxiliary) в основном представляют отношение гиперонимии. (более 90%)

Номинальный модификатор (nominal modifier) представляет отношения гиперонимии и гипонимии с преобладанием вторых. (34 к 51 процентам)

Соединение (conjunct) практически в равных долях представляет отношения гиперонимии, гипонии и антонимии, с ее легким преобладанием.

Для разделения гипонимов и гиперонимов учитывается направление двуместного отношения. Отличить парадигматические отношения в рамках одной синтаксической роли предложено также за счет учета определенной Word2Vec контекстной близости. Также различные синтаксические роли имеют различные связи с другими вершинами семантической сети, в частности применимы с различными предлогами и пунктуацией. Пример антонимов («автомобиль, а не самолет», «автомобиль и другие транспортные средства»). Учитываются и морфологические свойства слов, определенные SyntaxNet. Получены классы объектов, связанные одним и тем же парадигматическим отношением и определенные в множество по схожим морфологическим признакам.

 

*Соединение (conjunct) — это отношение между двумя элементами, связанными координирующим соединением, таким как ‘и’, ‘или’, или запятая или другая пунктуация.

*Вспомогательное предложение (auxiliary) — это форма вспомогательного глагола «быть», который используется для построения перифрастического или условного будущего времени.

*Номинальный модификатор (nominal modifier) — это существительное (или словосочетание) функционирующее как non-core (косвенное) утверждение или дополнение. Это значит, что оно функционально соответствует обстоятельству, когда оно прилагается/присоединяется к глаголу, прилагательному или наречию. Но когда оно присоединяется к существительному, оно обычно соответствует несогласованному   признаку в родительном падеже.

 

*Гиперо́ним — слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков).

*hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog)

*Гиперонимы: Y является гиперным из X, если каждый X является (своего рода) Y (собачий/клык является гиперным из собак)

 

*Гипо́ним — понятие, выражающее частную сущность по отношению к другому, более общему понятию.

*hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)

*Гипонимы: Y является гипонимом X, если каждый Y является (своего рода) X (собака является гипонимом собачего)

 

(11 слайд)

Выбранная нейронная сеть

В качестве инструмента для реализации искусственной нейронной сети использовалась библиотека Keras. Приемлемые результаты были получены для сети, состоящей из четырех полносвязных слоев. Функции активации, используемые на каждом слое, были выбраны опытным путем - softmax, ReLu, сигмоид.

Обучение проводилось в 20 эпох на 2069 образцах и оценивалось на 690 образцах. Для оценки качества классификатора используются метрики точности полноты. Также была оценена F-мера - среднее гармоническое точности и отзыва (F-мера достигает максимума с полнотой и точностью, равной единице, и близка к нулю, если один из аргументов близок к нулю). На контрольном наборе точность составила 79%.

 

(12 слайд)


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: