Тексты документов, запросов, как известно, представляют собой совокупность концептографической и фактографической информации, выраженную словами на естественном языке в виде некоторых конструкций, представленных предложениями. Слова в предложении делятся на части речи: существительное, прилагательное, глагол, причастие, деепричастие, местоимение, наречие, междометие, предлоги и союзы.
Распознавание частей речи в предложении не представляет никаких трудностей, а сами по себе части речи в предложении образуют некоторую структуру, т.е. части речи в предложении находятся во взаимном расположении и связи между собою. Таким образом, есть основание утверждать, что тексты документов представляют собой не только сложную структуру, но и взаимосвязи взаимоотношения слов друг с другом. Они составляют основу формализованных методов обработки документов.
Как известно, имя существительное в грамматике обозначает предмет и выражает значение предметности. Имя прилагательное обозначает качество, свойство, принадлежность предмета и выражает это значение. Числительное - слово (существительное или прилагательное) обозначает количество или количественный признак, порядок при счете. Причастие в грамматике - форма глагола, обладающая наряду с категориями глагола (время, залог, вид) категориями прилагательного. Такие же части речи, как глаголы, местоимения, междометия, наречия, предлоги, союзы при структурно-семантическом анализе текстов документов (запросов) не принимаются во внимание потому, что они практически слабо связаны с раскрытием содержания предмета.
|
|
Сущность семантического анализа текстов заглавия информационного продукта рассматривается как технологическая операция на начальном этапе создания информационного продукта, и заключается в подчеркивании (выделении) ключевых слов, терминов и научных понятий заглавий темы (обзора). Ключевые слова, термины и понятия могут быть выражены словом или словосочетанием (в виде имя сущ.+имя прилаг., сущ.+прилаг.+прилаг, сущ.+сущ.). В заглавии темы информационного продукта ключевые слова выделяют только тогда, когда они раскрывают предметное содержание.
Выделенные ключевые слова (термины, понятия) необходимы для того, чтобы на последующем этапе создания информационного продукта обеспечить поиск тех документов, которые содержат выделенные ключевые слова (термины, понятия), передают содержание документа.