Визуализация секвенирования данных
Интерпретация первичных данных из машинного секвенирования начинается с автоматизированной обработки данных. База вызова и качество расчетов следует в случае последовательной сборки геномов или считывания регулировки по ссылке в случае рессеквенирования. Последние инновации в технологии секвенирования сопровождались ростом новой сборки и согласованию программ, чтобы справится с более короткими длинами считывания и большим числом операций считывания (для обзоров см.раб.1,2), но стандартов не было достигнуто. Для некоторых задач анализ визуальной проверки ценен в толковании и проверке автоматизированных мероприятий, им можно управлять с помощью как биологического, так и алгоритмического пути.
Например, выявление автоматизированного однонуклеотидного полиморфизма на основе данных секвенирования остается незавершенным, и визуальный осмотр используется до сих пор для оценки отдельных случаев и для биологических результатов и технических наблюдений, которые могут быть использованы для улучшения прогнозирования алгоритма. В этом разделе говорится о сообщениях, которые освещают графические средства для анализа последовательности.
Визуализация выравнивания
Анализ узлов и считывания выравнивания часто предусматривает анализ последовательности собственно считывания, а все средства, перечисленные в таблице 1, обеспечивают осмотр унифицированных считываний основ. Считывание последовательности, как правило, предоставлено в виде строки, происходит горизонтально слева направо и укладывается вертикально. В случае ассемблирования, пользователь может сканировать считыванием из стека соответствующего столбца.
Основное свойство часто идентифицируется с градацией серого и основывается на противоречии с согласованием, придающим особое значение цветам. Некоторые инструменты минимизировали визуальные помехи, в стеке считывания выделяя только противоречия и скрывая все последовательные пары оснований (например, программа интегративной геномики, Национальный центр биотехнологической информации, просмотр программы архива ассамблеи, выравнивание текста в программе просмотра SAM tools). Большинство средств, построенных до появления следующего поколения последовательности, продолжают оказывать поддержку визуализации основных первичных данных для Сэнгер считывания отдельных следов просмотра. Например, в популярной программе Consed «след» окна может быть запущен из «соответствующего окна» и движение курсора синхронизируется. Этот режим позволяет пользователю проверять позиции конфликтующих баз и выявляет источник неопределенности в рамках первичных следов напрямую.
В значительной степени NGS данные изменились настолько, что пользователь сможет оценить неопределенность основных консенсусов. Например, Consed позволяет пользователю проверять недоработанную Рош 454 последовательности данных, а в случае Illumina и Applied Biosystems обеспечивает надежность информации, в случае если нет недоработанных следов считывания, а есть только данные в виде изображения (Подробная информация об этих технологиях секвенирования рассматривается в другом месте). Consed и аналогичные программы не отображают первичные изображения данных, в частности потому, что их большие размеры делают их слишком дорогими для того, чтобы хранить их в сети, а также медленно отображаются на экране
Однако высокая скорость считывания, граничащая с генерированием NGS часто, облегчает, возможность пристально изучать какое-либо считывание. Пользователь может обнаруживать или вычислять одно подозрительное основание на протяжении одного считывания , сравнивать с соответствующим основанием в других считываниях выравнивания размещенных в других местах.
Устройство вывода автоматического секвенирования собирает незавершенные программы и повторяет место считывания, считывая на расстоянии.
Следующий шаг «завершения» включает в себя исключение пробелов, исправление неправильно собранных и возможность исправления ошибок согласованных основных компонентов. Специализированная обработка программного обеспечения упрощает этот процесс за счет автоматизации и позволяет пользователю выполнять вышеперечисленные задачи. В некоторых случаях автоматической обработки достаточно, например, в исполнении Autofinish, так как эта программа, рассматривает выход собраний программ и предлагает введение лабораторных данных (например, специфических праймеров для ПЦР).
Тем не менее, в других ситуациях ручной проверки и редактирования необходимо к дополнению по автоматизации пробелов Consed и коммерчески доступных Sequencher (ген кодирующая корпорация) и Lasergene (DNASTAR) широко использовать обрабатывающие программы, которые предоставляют богатые функциональные возможности редактирования и отслеживания истории и позволяют пользователю отдельно, вручную присоединяться к соседнему, что отличает их от статистического выравнивания программ просмотра, которые нельзя редактировать (таблица 1).
В большинстве последовательностей протоколов диапазон размеров фрагментов генома неизвестно. Последовательность считывания, получена из разных концов одного и того же источника геномного фрагмента («математической пары»), поэтому предполагаем интервал («вставить размер») и полагаем ориентацию (1 верхняя нить считывания и одна нижняя нить считывания). Одна из пар, которая нарушают эти пространственные ограничения, может быть использована для выявления несобранных, а одна из последовательных пар может быть использована для их присоединения.
Consed собрание программ просмотра «изображает одну из пары как цветные линии, охватывающие соседние, изображая последние горизонтально ориентированными блоками. Этот дисплей визуально разделяет «последовательные» пары (те, которые предполагаемого размера и ориентации) путем построения их выше или ниже наборов генов считывания, которые связаны друг с другом перекрыванием их последовательностей, что позволяет выявить неправильную сборку (рисунок1а). Одно из преимуществ этого метода, является то, что он позволяет вести интерактивную фильтрацию отображаемых данных (наборов генов считывания, аналогичных последовательностей и т.д.). Несмотря на это у фильтрации есть одно ограничение, это то, что изображение может быстро портится, так как число пар увеличивается.
Например, в Consed иногда желательно отключать изображения всех согласованных пар внутреннего набора генов считывания, так как их количество перегружает изображение.
В дополнении к одной из пар последовательности сходство может быть использовано для выявления всевозможных генов считывания и для проверки выхода «окно сравнения наборов генов считывания». Аналогичные функции существуют и в других обрабатывающих программах обеспечения, например Gap4 присоединенный редактор наборов генов считывания. Эти предоставленные последовательности дополняющие обзор показывают, как Gap4 использует точечные графики, изображающие каждую из осей, которые указывают на позиции вдоль длины наборов генов считывания, и разделяет точки в местах совместимости выше границ подобной последовательности.
Пользователь может интерактивно исследовать последовательность взаимосвязи между различными наборами генов считывания и просматривать результаты поисковых операций, таких как «найти, повтор». Собрание изображений Consed может отображать выход утилита сравнения называемого «пара крестов», используя для этого связывание областей с подобной последовательностью между пользователем наборов генов считывания
Различные цвета означают такие функции как направление повторяющиеся из интернированных повторов. Одним из преимуществ просмотра сходства последовательностей в сборке изображения является возможность интегрирования считывания участков, которые могут выявлять неожиданно высокие регионы действия и часто указывают на аналогичные последовательности, которые были ошибочно разрушены и собраны в одну. Пользователь может выбрать для изучения последовательности сходства на основном уровне, и снова нажимая, изучает, то, что лежит в основе сообщения. Существуют также автономные инструменты функций, относящиеся например к Miropeats, широко используемые для ранних геномных проектов секвенирования.
UNIXC – оболочки, которые генерируют статистические картинки с использованием дуговых изображений для обозначения различных повторов.
Просмотр генов
Конечным продуктом секвенирования генома, сборки и обработки циклов являются высокосмежные последовательности, в котором большинство наборов генов имеют длины, что на порядок больше, чем при считывании. Как может исследователь управлять этой последовательностью и обнаруживать интересующие в ней области.
Последовательность содержит справочную систему координат и природную платформу, на которой собираются научные аннотации и геном отображается набором данных из различных источников.
Геномы браузеров были изначально разработаны для отображения данных на ранних собраниях проектов, таких как Элеганс геном и позднее на других модельных организмах (например, в Университете Калифорнийском Санта Круз, UCSC геномный браузер, Ассамблеи геномного браузера и NCBI карт изображений). Эти браузеры имеют много функций и их основные различия были рассмотрены в другом месте. Сегодня браузеры стали стандартными инструментами для изучения геномов, облегчают анализ геномной информации и обеспечивают общую платформу для исследований, обеспечивают хранение и публикацию научных открытий (таблица 2).
Проблемы
Некоторые ключевые проблемы в области генного анализа данных, появились в последние годы, в том числе и вопросы: объемы данных, тип данных и представления данных. Несколько новых геномных браузеров, которые были, упомянуты выше, решают некоторые из этих вопросов, однако согласованности пока недостигнуто. Кроме того, важно то, что новые геномные браузеры построены с помощью успешных инструментов, включая легкий доступ кросс платформенных данных и отображения настройки и возможности выполнять мгновенные вычисления и визуализацию.
Геномные Браузеры начинают взаимодействовать с конфиденциальной информацией, так как общество осознает проблемы защиты данных. Личная информация, закодированная в геномном ДНК, клинические параметры, а также другая информация личного характера требует тщательной защиты.
Геномным обозревателем могут воспользоваться многие системы безопасности, разработанные для электронной информации с целью обеспечения доступа только для авторизованных исследователей.
Кроме того, эти средства способны максимизировать служебные программы, обеспечивая конфиденциальность данных, представляя в их анонимной форме, например, в виде совокупности или суммарности, не допуская при этом извлечения личной информации от таких агрегатов.
Сравнения геномов
Последнее наличие большого числа полностью секвенированных геномов их ассамблея стимулировала активные исследования в области сравнительной геномики. Это включает разработку алгоритмов и средств для парного и множественного выравнивания очень длинных геномных промежутков и полных геномов. Среди целей этой работы были выявлены такие функциональные элементы, 1)такие как экзоны или усиливающие агенты 2)исследование крупномасштабных перестроек и эволюции индивидуальных геномов и их ссылок в ходе ассемблирования и завершения. Визуализация согласованных данных является критически важной для каждой из этих целей, но является сложной задачей из-за графических трудностей выявления взаимосвязи интересующих хромосом в разных геномах на многократно повторяющихся шкалах. В этом разделе мы рассмотрим различные методы, которые будут разработаны для того, чтобы помочь исследователям в направлении последовательностей между двумя и более геномами.
Визуализация генов: методы и проблемы
Поскольку наши способности генерирования последовательностей данных продолжают расти, анализ данных, генерирование данных является лимитирующей стадией в области геномики.
Здесь мы предлагаем руководство по визуализации данных, геномные средства, которые облегчают анализирование задач и позволяют исследовать, изучать, толковать и управлять своими данными, а в некоторых случаях выполнять вычисления мгновенно. Мы будем обсуждать графические методы, предназначенные для анализа de novo последовательностей и считывания выравнивания, геномного просмотра в будущем. Изучение геномов в значительной степени позволило говорить о геномике, как о цифровой науки, и сделало возможным с появлением технологии секвенирования, выявлять геномные последовательности для нуклеотидного анализа. Появление обширных данных о геномной последовательности ресурсов открыло новый интерфейс компьютерной науки, которая используется в таких областях как биоинформатика и предоставляет возможности решения биологических задач с помощью вычислений. Последние инновации в области технологии секвенирования обеспечивают беспрецедентную способность для генерации данных. Сейчас более чем когда-либо нам необходимы интуитивные и оперативные данные исследований для анализа.
Хотя множество геномных анализов для данных задач могут быть выполнены с помощью автоматических процессов, но некоторые действия еще по-прежнему требуют человеческих суждений и часто с ограниченной скоростью. Визуализация может усилить наши способности рассуждать о сложности данных, тем самым повышая эффективность ручного анализа.
В некоторых случаях, соответствующее изображение дает очевидное решение.
Учитывая важность человеческих интерпретаций в особенности на ранних этапах гипотезы поколений биологических исследований, визуальные средства могут также стать ценным дополнением к автоматизированным вычислительным методам и позволяют получать нам научное понимание о крупных геномных наборах данных. Визуальные и автоматизированные подходы являются особенно мощным средством, когда используются в сочетании, например, пользователь может легко контролировать и проводить расчеты по этим данным, многократно их, уточняя и анализируя.
Одна из проблем при разработки визуальных средств состоит в принятии решения графического представления по существу, т.е. как данные кодируются по цветам, форме или преобразованы на различных уровнях. Выбор представления может либо помогать, либо мешать возможностям для пользователей к интерпретации данных и в идеале должен быть разработан так, чтобы облегчить анализ задачи. Например, перестройку генома можно более легко представить как дуги на кругу, чем на линии. Геномные данные, взятые, с различных источников при использовании различных методов сопровождаются экспериментальными погрешностями. Важно, что визуально представлены и зафиксированы эти технические неопределенности и любые несоответствия.
Существует также значительное биологическое различие между индивидуумами, которые необходимо отличать от технических изменений описанных выше. К дополнению к задачам выбора соответствующего визуального представления, некоторые виды первичных данных не представлены из-за чрезмерных требований хранения в сети и позволяют в режиме реального времени взаимодействовать с большими наборами данных, которые являются нетривиальными.
Этот обзор приводит примеры трех основных пользовательских задач:1)анализ последовательности данных, как в контексте сборки заново и рессеквенирование экспериментов; 2)просмотр аннотаций и сопоставление экспериментальных данных со ссылкой геномов, и наконец, 3)сравнения последовательностей из разных организмов или отдельных индивидуумов.
Методы визуализации в этих областях находятся на разных стадиях развития, и мы будем обсуждать их преимущества и недостатки. Одним из важных моментов является то, что область геномики быстро развивается. Хотя мы пытались обеспечить руководство по методам в этой области, но вполне вероятно, что новые инструменты и форматы данных появятся, в самом ближайшем будущем и мы обсудим некоторые из соответствующих проблем. Мы призываем читателей, принять во внимание ресурсы онлайн, такие как SEQanswer , где описаны наиболее современные средства развития.
Дата: 2019-07-30, просмотров: 248.