Текущие проекты секвенирования и картирования генома значительно увеличили количество последовательностей белков, которые будут включены в SWISS-PROT. Поскольку мы не хотим ослаблять стандарты качества SWISS-PROT путем включения последовательностей без надлежащего анализа последовательностей и аннотаций, мы не можем ускорить включение новых входящих данных на неопределенный срок. Однако, поскольку мы также хотим сделать эти последовательности доступными как можно быстрее, мы представим в SWISS-PROT Release 33 аннотированное дополнение к SWISS-PROT. Это дополнение состоит из записей в SWISS-PROT-подобном формате, полученных из трансляции всех кодирующих последовательностей (CDS) в базе данных нуклеотидных последовательностей EMBL, кроме CDS, уже включенных в SWISS-PROT. Это дополнение было названо TREMBL (TRanslation от EMBL), поскольку инструменты перевода, используемые для создания переводов CDS, основаны на программе «TREMBL», написанной Туре Эцольдом в EMBL в Гейдельберге. Трансляция всех CDS в выпуске 44 базы данных нуклеотидных последовательностей EMBL привела к созданию 145 000 предварительных записей TREMBL. Около 65 000 этих предварительных записей уже присутствовали в виде отчетов о последовательностях в SWISS-PROT и были исключены из TREMBL. Оставшиеся 80 000 записей последовательности были автоматически объединены, когда это возможно, чтобы уменьшить избыточность в TREMBL. Этот шаг привел к 70000 записей TREMBL, которые дополняют SWISS-PROT.
|
|
Создание TREMBL в качестве дополнения к SWISS-PROT имело целью не только создание более полной и современной коллекции белковых последовательностей. Мы использовали эту задачу для достижения более глубокой интеграции базы данных нуклеотидных последовательностей EMBL с SWISS-PROT + TREMBL. В качестве идентификатора записей TREMBL, созданных из этих CDS, использовался PID, идентификационный номер белка, найденный в квалификаторе / dbxref, помеченный для каждого CDS в базе данных нуклеотидных последовательностей EMBL. Во всех 65 000 случаев, когда CDS базы данных нуклеотидных последовательностей EMBL уже присутствовал в виде отчета о последовательности в SWISS-PROT, строки DR SWISS-PROT соответствующих записей SWISS-PROT были обновлены путем указания номера AC EMBL в качестве основного идентификатора и PID в качестве вторичного идентификатора. Во всех случаях, когда PID уже интегрирован в SWISS-PROT, спецификатор / db xref со ссылкой на соответствующую запись SWISS-PROT добавляется в базу данных нуклеотидных последовательностей EMBL, помеченную этим PID.
Этот подход позволяет нам точно указать от заданной записи SWISS-PROT к одному из потенциально многих CDS в соответствующей записи EMBL, и наоборот. Это изменение позволит разработать программные средства, которые автоматически извлекают ту часть записи нуклеотидной последовательности, которая кодирует конкретный белок. Это будет особенно полезно в контексте Всемирной паутины, поскольку это сделает устаревшей текущую ситуацию, когда, например, необходимо извлечь полную последовательность хромосомы дрожжей, когда нужно, чтобы нуклеотидная последовательность кодировала определенный белок, кодируемый на этой хромосоме.
|
|
УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ИСПОЛЬЗУЕМЫЕ В БАЗЕ ДАННЫХ
В следующих разделах описываются общие соглашения, используемые в SWISS-PROT для достижения единообразия представления. Опытные пользователи базы данных EMBL могут пропустить эти разделы и напрямую обратиться к Приложению C, в котором перечислены незначительные различия в формате между двумя наборами данных.
Общая структура базы данных.
База данных белковых последовательностей SWISS-PROT состоит из записей последовательностей. Каждая запись соответствует одной непрерывной последовательности, внесенной в банк или сообщенной в литературе. В некоторых случаях записи были собраны из нескольких статей, в которых сообщается о перекрывающихся областях последовательности. И наоборот, один документ может предоставить данные для нескольких записей, например, когда сообщается о последовательностях из разных организмов. Ссылки на позиции в последовательности делаются с использованием последовательной нумерации, начиная с 1 на N-конце конца последовательности. За исключением N-концевых остатков метионина инициатора, которые не включены в последовательность, когда доказано их отсутствие в зрелой последовательности, данные последовательности соответствуют предшествующей форме белка перед посттрансляционными модификациями и обработкой.
Классы данных
Чтобы попытаться сделать данные доступными для пользователей как можно быстрее после публикации, SWISS-PROT теперь распространяется с приложением под названием TrEMBL, где записи публикуются до того, как все их детали будут окончательно определены. Чтобы различать полностью аннотированные записи и записи в TrEMBL, «класс» каждой записи указывается в первой строке (ID) записи. Двумя определенными классами являются: СТАНДАРТНЫЕ Данные, которые соответствуют стандартам, установленным базой данных SWISS-PROT. ПРЕДВАРИТЕЛЬНЫЕ Записи последовательности, которые еще не были аннотированы персоналом SWISS-PROT в соответствии со стандартами, установленными SWISS-PROT. Эти записи исключительно найдено в TrEMBL.