Trembl, аннотированное дополнение к SWISS-PROT

 

Текущие проекты секвенирования и картирования генома значительно увеличили количество последовательностей белков, которые будут включены в SWISS-PROT. Поскольку мы не хотим ослаблять стандарты качества SWISS-PROT путем включения последовательностей без надлежащего анализа последовательностей и аннотаций, мы не можем ускорить включение новых входящих данных на неопределенный срок. Однако, поскольку мы также хотим сделать эти последовательности доступными как можно быстрее, мы представим в SWISS-PROT Release 33 аннотированное дополнение к SWISS-PROT. Это дополнение состоит из записей в SWISS-PROT-подобном формате, полученных из трансляции всех кодирующих последовательностей (CDS) в базе данных нуклеотидных последовательностей EMBL, кроме CDS, уже включенных в SWISS-PROT. Это дополнение было названо TREMBL (TRanslation от EMBL), поскольку инструменты перевода, используемые для создания переводов CDS, основаны на программе «TREMBL», написанной Туре Эцольдом в EMBL в Гейдельберге. Трансляция всех CDS в выпуске 44 базы данных нуклеотидных последовательностей EMBL привела к созданию 145 000 предварительных записей TREMBL. Около 65 000 этих предварительных записей уже присутствовали в виде отчетов о последовательностях в SWISS-PROT и были исключены из TREMBL. Оставшиеся 80 000 записей последовательности были автоматически объединены, когда это возможно, чтобы уменьшить избыточность в TREMBL. Этот шаг привел к 70000 записей TREMBL, которые дополняют SWISS-PROT.

Создание TREMBL в качестве дополнения к SWISS-PROT имело целью не только создание более полной и современной коллекции белковых последовательностей. Мы использовали эту задачу для достижения более глубокой интеграции базы данных нуклеотидных последовательностей EMBL с SWISS-PROT + TREMBL. В качестве идентификатора записей TREMBL, созданных из этих CDS, использовался PID, идентификационный номер белка, найденный в квалификаторе / dbxref, помеченный для каждого CDS в базе данных нуклеотидных последовательностей EMBL. Во всех 65 000 случаев, когда CDS базы данных нуклеотидных последовательностей EMBL уже присутствовал в виде отчета о последовательности в SWISS-PROT, строки DR SWISS-PROT соответствующих записей SWISS-PROT были обновлены путем указания номера AC EMBL в качестве основного идентификатора и PID в качестве вторичного идентификатора. Во всех случаях, когда PID уже интегрирован в SWISS-PROT, спецификатор / db xref со ссылкой на соответствующую запись SWISS-PROT добавляется в базу данных нуклеотидных последовательностей EMBL, помеченную этим PID.

Этот подход позволяет нам точно указать от заданной записи SWISS-PROT к одному из потенциально многих CDS в соответствующей записи EMBL, и наоборот. Это изменение позволит разработать программные средства, которые автоматически извлекают ту часть записи нуклеотидной последовательности, которая кодирует конкретный белок. Это будет особенно полезно в контексте Всемирной паутины, поскольку это сделает устаревшей текущую ситуацию, когда, например, необходимо извлечь полную последовательность хромосомы дрожжей, когда нужно, чтобы нуклеотидная последовательность кодировала определенный белок, кодируемый на этой хромосоме.

 

 

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ИСПОЛЬЗУЕМЫЕ В БАЗЕ ДАННЫХ

 

В следующих разделах описываются общие соглашения, используемые в SWISS-PROT для достижения единообразия представления. Опытные пользователи базы данных EMBL могут пропустить эти разделы и напрямую обратиться к Приложению C, в котором перечислены незначительные различия в формате между двумя наборами данных.

 

Общая структура базы данных.

 

База данных белковых последовательностей SWISS-PROT состоит из записей последовательностей. Каждая запись соответствует одной непрерывной последовательности, внесенной в банк или сообщенной в литературе. В некоторых случаях записи были собраны из нескольких статей, в которых сообщается о перекрывающихся областях последовательности. И наоборот, один документ может предоставить данные для нескольких записей, например, когда сообщается о последовательностях из разных организмов. Ссылки на позиции в последовательности делаются с использованием последовательной нумерации, начиная с 1 на N-конце конца последовательности. За исключением N-концевых остатков метионина инициатора, которые не включены в последовательность, когда доказано их отсутствие в зрелой последовательности, данные последовательности соответствуют предшествующей форме белка перед посттрансляционными модификациями и обработкой.

 

Классы данных

 

Чтобы попытаться сделать данные доступными для пользователей как можно быстрее после публикации, SWISS-PROT теперь распространяется с приложением под названием TrEMBL, где записи публикуются до того, как все их детали будут окончательно определены. Чтобы различать полностью аннотированные записи и записи в TrEMBL, «класс» каждой записи указывается в первой строке (ID) записи. Двумя определенными классами являются: СТАНДАРТНЫЕ Данные, которые соответствуют стандартам, установленным базой данных SWISS-PROT. ПРЕДВАРИТЕЛЬНЫЕ Записи последовательности, которые еще не были аннотированы персоналом SWISS-PROT в соответствии со стандартами, установленными SWISS-PROT. Эти записи исключительно найдено в TrEMBL.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: