Факт, что в документальных БД поиск обычно проводится по многим ключам доступа, означает, что с точки зрения системы хранение записей в последовательности, определенной единичным ключом доступа, непрактично. Вообще на процессы поиска и выдачи последовательность записей в файле не оказывает большого влияния. Определенная последовательность может быть важна для пользователя только при выводе (например, выданные записи должны быть выведены в алфавитном порядке по автору). Это делается функцией сортировки при генерировании выдачи или отчета.
Программное обеспечение для документальных БД обычно содержит записи в том порядке, в котором они добавляются в файл. Таким образом, пополнение файла происходит по мере добавления новых записей в конец файла. Такой файл называется последовательным, или линейным.
Ниже приводятся две записи из линейного файла библиографической БД:
| AN
|
|
| TI
| The Three Little Pigs
|
| AU
| Mother Goose
|
| PU
| Wee Press
|
| CY
| London
|
| PY
|
|
| AB
| Real-life testing of house construction methods Demonstrates advantages and disadvantages of straw, sticks, and bricks
|
| DE
| Swine, Miniature, Residential Auhitecture
|
| ID
| Wolf, Big Bad
|
| AN
|
|
| TI
| The House That Jack Built
|
| AU
| Mother Goose PU Children's Book Company Inc.
|
| CY
| New York
|
| PY
|
|
| AB
| Construction tips for novices. Describes occupants of Jack's house.
|
| DE
| Residential Architecture; Animals in fiction
|
| ID
| Jack
|
Если БД содержит небольшое количество записей, поиск в БД может проводиться путем поочередного перебора значений в каждом поле и в каждой записи во всем массиве линейного файла. Например, чтобы найти записи, содержащие термин „construction", система начнет поиск с номера записи 001. Начиная с первого поля (AN - номер доступа) компьютер будет по очереди перебирать каждый символ, пока не найдет в поле „реферат" (АВ) набор знаков, составляющих слово CONSTRUCTION. Система доложит пользователю, что данная запись содержит искомое слово. В зависимости от используемого программного обеспечения система затем или немедленно выдаст на экран найденную запись, или запомнит ее для выдачи всего списка найденных записей после окончания поиска, а пока продолжит последовательный поиск в линейном файле. Как видно, такой подход несколько непрактичен. Использование логических комбинаций (например, CONSTRUCTION and TESTING) еще более увеличит временные затраты на поиск.
Для ускорения процесса выдачи и предоставления более обширных поисковых функций практически все информационно-поисковые системы сегодня используют инвертированную индексацию. Инвертированные индексы (также называемые словарными файлами) представляют собой список выбранных из линейного файла поисковых слов или фраз, помещенный в отдельный, организованный в алфавитном порядке файл, со ссылками на определенную часть записи в линейном файле. Ниже приводится пример инвертированного файла, который поддерживает доступ к отдельным элементам данных.
| ЭЛЕМЕНТ»
| ЗАПИСЬ
| ПОЛЕ
| ПОЗИЦИЯ ДАННЫХ
|
|
|
| PV
|
|
|
|
| РУ
|
|
| advantages
|
| ab
|
|
| animals
|
| dc
|
|
| animals in fiction
|
| dc
| 03-05
|
| architecture
|
| dc
|
|
|
|
| dc
|
|
| bad
|
| id
|
|
| big
|
| id
|
|
| bricks
|
| ab
|
|
| built
|
| ti
|
|
| construction
|
| ab
|
|
|
|
| ab
|
|
| Элемент
| Запись
| Поле
| Позиция данных
|
| demonstrates
|
| ab
|
|
| describes
|
| ab
|
|
| disadvantages
|
| ab
|
|
| fiction
|
| de
|
|
| house
|
| ab
|
|
|
|
| ti
|
|
|
|
| ab
|
|
| lack
|
| h
|
|
|
|
| id
|
|
| lack s
|
| ab
|
|
| hfc
|
| ab
|
|
| little
|
| h
|
|
| methods
|
| ab
|
|
| miniature
|
| de
|
|
| mother goose
|
| a u
|
|
|
|
| an
|
|
| novices
|
| ab
|
|
| occupants
|
| ab
|
|
| pigs
|
| ti
|
|
| real-life
|
| ab
|
|
| residential
|
| dc
|
|
|
|
| dc
|
|
| residential
|
|
|
|
| architecture
|
| de
| 03 04
|
|
|
| di
| 01 02
|
| wolf, big bad
|
| id
| 01 03
|