Ключевые понятия и термины для работы с информационными массивами

Лекция третья (конспект)

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ.

План.

Часть 1.

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Часть 2.

План второй части.

2. Теоретические основы поиска информации.

       – 2.1. Некоторые понятия и термины теории информации.

                   – 2.1.1.Текст.

                   – 2.1.2. Информационный массив.

2.1.2.1. Ключевые понятия и термины для работы с информационными массивами

    2.1.2.1.1. Индексирование документов

           2.1.2.1.1.1. Автоматизированное индексирование

           2.1.2.1.1.2. Автоматическое индексирование

           2.1.2.1.1.3 Информационно-поисковый язык

           2.1.2.1.1.4. Информационный запрос

           2.1.2.1.1 5. Классификационное индексирование

           2.1.2.1.1.6. Контролируемое индексирование

           2.1.2.1.1.7. Координатное индексирование

           2.1.2.1.1.8. Полнота индексирования

           2.1.2.1.1 9. Предметизация

           2.1.2.1.1 10. Предметное индексирование

           2.1.2.1.1 11. Свободное индексирование

           2.1.2.1.1 12. Служба индексирования

           2.1.2.1.1 13. Специфичность индексирования

           2.1.2.1.1 14. Фактографическое индексирование

                   – 2.1.3. Структурированность.

                              – 2.1.3.1. Структурированный информационный массив.

                              – 2.1.3.2. Неструктурированный информационный массив.

                              – 2.1.3.3. Слабоструктурированный информационный массив.

                              – 2.1.3.4. Централизованная база данных.

Часть 3.

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Часть 4.

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Часть 5.

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

__________________________________________

 

Теоретические основы поиска информации.

Без каких-либо разъяснений понятно, что для решения вопросов, связанных с автоматическим извлечением информации, её нужно вначале найти по каким-то глобальным характеристикам (например, если меня интересует функционирование собственных имён в рассказе А. П. Чехова «Лошадиная фамилия», текст рассказа нужно найти по фамилии автора, названию и пр., затем ввести в компьютер самостоятельно или найти его публикацию в Интернете), и лишь потом, имея в удобном для автоматической обработки виде, решать вопросы поиска нужного и извлечения его из корпуса текстов. Поэтому начнём с уточнения некоторых понятий которыми будем пользоваться при освоении темы. Именно эта часть занятия, являясь сравнительно простой с точки зрения логики, представляется наиболее трудоёмкой для запоминания, поскольку изобилует многочисленными понятиями, терминами и терминированными сочетаниями. Однако без этой базы овладение основной частью темы – извлечение информации – не представляется возможным.

 

Все понятия и термины в последующем изложении сравнены с официальным документом: ГОСТ 7.74-96 Информационно-поисковые языки. Термины и определения.

Некоторые понятия и термины теории информации

Любая наука для своих целей разрабатывает систему терминов и понятий, которыми однозначно пользуется при осуществлении научных исследований и внедрении их результатов в практику. Совокупность терминов, понятий и способов оперирования ими в любой научной дисциплине принято называть метаязыком. Для начала нам понадобятся термины текст, информационный массив ипонятие структурированность. В дальнейшем мы будем расширять метаязыковую базу дисциплины, не просто применяя те или иные термины, а обязательно давая им дефиниции, накапливая таким образом лексические средства метаязыка науки.

В системе терминов любой науки между терминами, терминированными сочетаниями и понятиями складываются субординационные отношения, формируется их соподчинённость, директивные и комплементарные отношения. В изложении этой части лекции использован приём организации информации по принципу “дерева смыслов”, что можно сопоставить с деревом каталогов и файловой структурой организации информации в компьютере.

Текст.

В бытовом смысле под текстом принято понимать словесное произведение, напечатанное, написанное или бытующее в устной форме; произведение литературы, фольклора, любое произведение письменности.

В языкознании текст – это последовательность из нескольких (или многих) предложений, построенных согласно правилам языка. Раньше задачи лингвистики как науки ограничивались исследованием предложений. Текст же, т.е. произведение большего, чем предложение объёма, объектом исследований стал в 60-70-е годы прошлого века. Возникло новое лингвистическое направление, которое именовали по-разному: металингвистика (М.М. Бахтин), транслингвистика (Р. Барт), лингвистика текста (В. Дреслер, В. Штемпель), анализ речи (З. Харрис) и др.. В более широком и более обобщённом смысле под текстом в лингвистике понимается любая последовательность знаков, построенная по правилам данной системы языка.

Существует ещё литературоведческое понимание текста как словесного произведения, построенного по правилам данного языка, состоящего из знаков естественного языка (слов) и сложных эстетических знаков (слагаемых поэтического языка, сюжета, композиции и т.д.) без комментариев и приложений к нему.

И, наконец, под текстом понимается всякая запечатлённая в письменности или в памяти (в том числе, на компьютерных дисках и иных носителях) речь, написанные или сказанные кем-нибудь слова, которые можно воспроизвести, повторить в том же виде.

Информационный массив.

Информационный массив – это совокупность зафиксированной информации, предназначенная для хранения и использования и рассматриваемая как единое целое. Информация может быть зафиксирована в виде разнообразных (научных, политических, экономических, учебных, популярных, художественных) публикаций, отчетов, электронных записей, микрокопий и т.д., т.е. в широком смысле слова, в виде текстов.

В информационных технологиях разработана система понятий и терминов, необходимых для непротиворечивой (однозначной) характеристики различных свойств массивов, способов обращения к ним, автоматической обработки, поиска и извлечения из них нужных пользователю сведений.

Ключевые понятия и термины для работы с информационными массивами.

2.1.2.1.1. Индексирование документов. – в информационном поиске – процесс описания документов и запросов в терминах информационно-поискового языка. По результатам индексирования каждому документу назначается набор ключевых слов, отражающих его смысловое содержание.

2.1.2.1.1.1. Автоматизированное индексирование – индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и включает применение интеллектуальных процедур при принятии основных решений о составе поискового образа.

2.1.2.1.1.2. Автоматическое индексирование – индексирование, технология которого предусматривает использование только формальных процедур обработки текста, осуществляемых с помощью вычислительной техники.

2.1.2.1.1.2. Информационно-поисковый язык – формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. При описании информационно-поискового языка специалисты по теории информации используют ряд терминов и понятий, имеющих строгие дефиниции. В этом ряду могут быть названы ключевые понятия:

Вербальный информационно-поисковый язык – Вербальный информационно-поисковый язык - информационно-поисковый язык, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме.

Дескрипторный информационно-поисковый язык – Дескрипторный информационно-поисковый язык - информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов.

Документальный информационно-поисковый язык – Документальный информационно-поисковый язык - информационно-поисковый язык, предназначенный для индексирования (частей) документов с целью последующего хранения и поиска.

Классификационный индекс – это поисковый образ, построенный средствами классификационного информационно- поискового языка. Существует несколько типов классификационных индексов: простой, составной, сложный и комбинированный.

Простой индекс – это классификационный индекс, содержащий один код класса без сочетания с кодами других классов.

Сложный индекс – это классификационный индекс, образованный из сочетания кода класса основной таблицы классификации с кодами классов вспомогательных таблиц классификации.

Составной индекс – это комбинированный индекс, включающий в себя один или более сложных индексов.

Комбинированный индекс - это классификационный индекс, образованный из двух или более кодов класса основной таблицы классификации.

Классификационный информационно-поисковый язык – Классификационный информационно- поисковый язык - информационно-поисковый язык, предназначенный для индексирования (частей) документов и информационных запросов посредством понятий и кодов некоторой выбранной классификации документов (классификационной системы). Классификационные информационно- поисковые языки эффективно используются в автоматизированных ИПС промышленного назначения.

Лексическая единица информационно-поискового языка (ИПЯ) – Лексическая единица информационно- поискового языка - обозначение отдельного понятия, принятое в информационно-поисковом языке и неделимое в этой функции.

Лексические единицы могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка.

В зону метаязыка, связанного с понятием лексическая единица входят термины и терминированные словосочетания

Идеографический словарь – Идеографический словарь - это лингвистический словарь, в котором лексический состав языка представлен в виде систематизированных групп слов, в той или иной степени близких в смысловом отношении. Идеографические словари представляют и объясняют смысловое содержание лексических единиц, но в решении этой задачи идут не от отдельного слова, а от понятия к выражению этого понятия в словах. Основная задача таких словарей – описать совокупности слов, объединённых общим понятием; это облегчает читателю выбор наиболее подходящих средств для адекватного выражения мысли и способствует активному владению языком.

Информативное слово – это слово, словосочетание или специальное обозначение в тексте документа или запроса, выражающее понятие, существенное для передачи содержания документа.

Разделительный символ – Разделительный символ - вспомогательный символ, используемый для разделения отдельных лексических единиц или функциональных элементов в лексических единицах.

Релятор – Релятор - символ или слово, используемое для различения значений многозначного термина. Релятор не является независимой лексической единицей информационно- поискового языка.

Указатель роли – Указатель роли - вспомогательный символ, выбираемый из фиксированного списка и присоединяемый к лексическим единицам для обозначения логической роли их в поисковом образе.

Указатель связи – Указатель связи - вспомогательный символ, выбираемый из фиксированного списка и присоединяемый к лексическим единицам для выражения синтагматических отношений между ними в поисковом образе. Указатели связи объединяют различные лексические единицы, выражающие в заданном поисковом образе единое понятие, и указывают на их роли при выражении этого понятия.

Объектно-признаковый информационно-поисковый язык – Объектно-признаковый информационно- поисковый язык - фактографический информационно-поисковый язык, предназначенный для индексирования описаний фактов в виде перечня объектов (предметов) с указанием относящихся к ним признаков (свойств) и соответствующих значений признаков.

Предметная рубрика – элемент информационно-поискового языка, представляющий собой краткую формулировку темы на естественном языке. С этим элементом связаны ключевые понятия, терминированные сочетания и термины:

Адекватная предметная рубрика – предметная рубрика, формулировка которой выражает объем понятия, наиболее точно соответствующего объему понятия о предмете документа.

Ведущее слово предметной рубрики – первое слово предметной рубрики: - определяющее ее местонахождение в предметном каталоге; и - объединяющее предметные рубрики в комплекс предметных рубрик.

Комплекс предметных рубрик – совокупность предметных рубрик, объединенных некоторой тематикой.

Обобщающая предметная рубрика – предметная рубрика, выражающая объем понятия существенно более широкий, чем объем понятия о предмете документа.

Предметизационная формула – унифицированный порядок расположения лексических единиц в предметной рубрике, определяющий предметизационное решение.

Предметизация – предметное индексирование средствами языка предметных рубрик.

Фактографический информационно-поисковый язык – информационно-поисковый язык, предназначенный для индексирования описаний фактов и информационного поиска в фактографических информационных массивах.

Язык ключевых слов – информационно- поисковый язык, предназначенный для индексирования документов и информационных запросов посредством ключевых слов.

Язык предметных рубрик – информационно- поисковый язык, предназначенный для индексирования (частей) документов и информационных запросов посредством предметных рубрик


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: