Интеграция с другими базами данных

СОДЕРЖАНИЕ

 

СОДЕРЖАНИЕ.. 2

ВВЕДЕНИЕ.. 3

1. БАЗА ДАННЫХ SWISS-PROT. 4

1.1 Aннотирование. 4

1.2 Минимальная избыточность. 5

1.3 Интеграция с другими базами данных. 5

1.4 Модельные организмы.. 6

1.5 Файлы документации. 7

1.6 TREMBL, аннотированное дополнение к SWISS-PROT. 8

2. УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ИСПОЛЬЗУЕМЫЕ В БАЗЕ ДАННЫХ.. 10

2.1 Общая структура базы данных. 10

2.2 Классы данных. 10

2.3 Структура записи последовательности. 11

СПИСОК ЛИТЕРАТУРЫ... 17

 

 

ВВЕДЕНИЕ

 

В конце 70-х годов ДНК и белковые последовательности начали довольно легко получать, и с ними возникла необходимость в инструментах для хранения и анализа. Первые разработанные компьютерные программы были направлены на сравнение белков разных видов, чтобы понять, что они делают. Это было самое начало биоинформатики. Фактически этот термин впервые появился в 1970 году и относился к изучению информационных процессов в биотических системах, поэтому в действительности это не означает то, что сейчас называется биоинформатикой. В 80-х годах Амос Байроч - сегодня руководитель группы в SIB- почувствовал необходимость усовершенствования существующего банка данных по белковым последовательностям. Работая над докторской диссертацией, он начал «аннотировать» белки, добавляя такую ​​информацию, как их структура и патологические роли, и адаптировал базу данных к компьютерам. Swiss-Prot, аннотированная база данных последовательностей белков, появилась на свет! Это было в 1986 году. В то время различные версии распространялись на магнитных лентах EMBL-Гейдельберг. Это было начало длительного сотрудничества. Банк данных последовательности белка SWISS-PROT состоит из записей последовательности. Записи последовательности состоят из разных типов линий, каждый из которых имеет свой собственный формат. Для целей стандартизации формат SWISS-PROT максимально приближен к формату базы данных нуклеотидных последовательностей EMBL. База данных SWISS-PROT отличается от других баз данных последовательностей белков по трем различным критериям.

 

 

БАЗА ДАННЫХ SWISS-PROT

 

С появлением микрокомпьютеров и постоянным увеличением потока данных о белках Swiss-Prot потребовались специализированные аннотаторы, также называемые биокураторами. Биокурация, то есть деятельность по извлечению, организации и обеспечению доступности биологической информации как для людей, так и для компьютеров, стала необходимой. База данных Swiss-Prot росла в геометрической прогрессии и использовалась во всем мире, в то время как курирование белка шло полным ходом как в Гейдельберге / Хинкстоне, так и в Женеве. К концу 90-х годов швейцарской команде не хватало средств из-за разнородного характера проекта: он был как национальным, так и международным. В 1996 году правительство Швейцарии и Швейцарский национальный фонд, тем не менее, признали научную ценность Swiss-Prot и согласились финансировать проект в течение двух лет, но не дольше. Для решения этой проблемы в 1998 году был создан Швейцарский институт биоинформатики SIB: у швейцарской группы Swiss-Prot появился новый дом, и ее задачей было продолжать разработку базы данных. Сотрудничество с командой в EMBL-EBI может продолжаться.

 

Aннотирование

 

В SWISS-PROT, как и в большинстве других последовательных баз данных, можно выделить два класса данных: базовые данные и аннотацию. Для каждой записи последовательности основные данные состоят из данных последовательности, информации о цитировании (библиографические ссылки) и таксономических данных (описание биологического источника белка), тогда как аннотация состоит из описания следующих элементов: (i) функция (и) белка; (ii) посттрансляционная модификация (и), например углеводы, фосфорилирование, ацетилирование, GPI-якорь и т.д.; (iii) домены и сайты, например области связывания кальция, сайты связывания АТФ, цинковые пальцы, гомеобокс, крингл и т.д.; (iv) вторичная структура; (v) четвертичная структура; (vi) сходство с другими белками; (vii) заболевание (я), связанное с дефицитом белка; (viii) конфликты последовательностей, варианты и т. д. пытались включить как можно больше аннотаций в SWISS-PROT. Для получения этой информации мы используем, в дополнение к публикациям, в которых сообщается о новых данных о последовательности, обзор статей для периодического обновления аннотаций семейств или групп белков. Мы также привлекаем внешних экспертов, которые были наняты для отправки нам своих комментариев и обновлений, касающихся конкретных групп белков. Систематическое использование как публикаций, не относящихся к основным данным, так и тематических рецензентов - уникальная и полезная особенность SWISS-PROT. В SWISS-PROT аннотация встречается в основном в строках комментариев (CC), в таблице объектов (FT) и в строках ключевых слов (KW). Большинство комментариев классифицируются по «темам» - подходу, который позволяет легко извлекать определенные категории данных из базы данных.

 

Минимальная избыточность

 

Многие базы данных последовательностей содержат для данной последовательности белка отдельные записи, которые соответствуют различным литературным отчетам. В SWISS-PROT мы стараемся максимально объединить все эти данные, чтобы минимизировать избыточность базы данных. Если между различными отчетами о последовательностях существуют конфликты, они указываются в таблице функций соответствующей записи.

 

Интеграция с другими базами данных

 

Важно предоставить пользователям биомолекулярных баз данных определенную степень интеграции между тремя типами баз данных, связанных с последовательностями (последовательности нуклеиновых кислот, последовательности белков и третичные структуры белка), а также со специализированными сборами данных. SWISS-PROT в настоящее время имеет перекрестные ссылки с 24 различными базами данных. Перекрестные ссылки предоставляются в форме указателей на информацию, связанную с записями SWISS-PROT, и обнаруживаются в коллекциях данных, отличных от SWISS-PROT. Например, примерная последовательность, показанная на рисунке 1, содержит справочные линии банка данных (DR), которые указывают на EMBL, PIR, OMIM и PROSITE. Таким образом, в этом конкретном примере можно получить последовательность (и) нуклеиновой кислоты, которая кодирует этот белок (EMBL), описание генетического заболевания (й), ассоциированного с этим белком (OMIM), или паттерн, специфичный для этого семейства белков (PROSITE).

 

Рис. 1 Образец записи от SWISS-PROT.

 

Модельные организмы

 

Был выбран ряд организмов, которые являются целью проектов секвенирования и / или картирования генома и для которых мы намерены: (i) быть максимально полными (все последовательности, доступные в данное время, должны быть немедленно включены в SWISS- PROT, включая исправления и обновления последовательности); (ii) обеспечить более высокий уровень аннотации; (iii) перекрестные ссылки на специализированные базы данных, которые содержат, среди прочего, некоторую генетическую информацию о генах, которые кодируют эти белки; (iv) предоставить конкретные индексы или документы.

В 1996 году были отобраны следующие организмы: Arabidopsis thaliana (мышиный кресс); Bacillus subtilis; Caenorhabditis elegans (червь); Dictyostelium discoideum (слизистая плесень); Drosophila melanogaster (фруктовая муха); Кишечная палочка; Haemophilus influenzae; Homo Sapiens (человек); Saccharomyces cerevisiae (почкующиеся дрожжи); Salmonella typhimurium; Schizosaccharomyces pombe (делящиеся дрожжи); Sulfolobus solfataricus. Детали записей базы данных для этих организмов приведены в Таблице 1.

Файлы документации

 

SWISS-PROT распространяется с большим количеством файлов документации. Некоторые из этих файлов были доступны в течение длительного времени (руководство пользователя, заметки о выпуске, различные индексы для авторов, цитаты, ключевые слова и т. Д.) Но многие из них были созданы недавно, и мы постоянно добавляем новые файлы.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: