BLANCO
-> П
Поиск по тегу "mitohg"
.mitohg
В mitohg я использую стороннюю программу для выравнивания последовательностей: MUSCLE. Она очень и очень часто используется в научных работах и распространяется абсолютно свободно. Но всё-таки мне хочется реализовать выравнивание последовательностей самому и так, чтобы оно работало быстрее.
 
Пример выравнивания:

 
Думаю, идея ясна: на входе две последовательности; на выходе - они же, но сдвинуты и "разорваны" так, чтобы совпадало как можно большее число букв. Самая нижняя строчка - это карта выравнивания. Показывает, где совпало, где есть мутация (замена символа), а где делеция (не хватает символа).
 
Пока я повторил алгоритм Нидлмана-Вунша, но на моих последовательностях длиной ~17kb работает он довольно медленно.
 
Если у вас есть идеи - буду рад их услышать Smile
Автор: stasundr | O-- | .мыслей 0 [ +1 ]
.mitohg
Очередное продолжение истории про mitohg Smile
По всей России проходят конкурсы УМНИК. Я тоже решил поучаствовать в секции "Информационные технологии".
 
В этот раз конкурс проходил в три этапа: 1) отборочный (когда ты готовишь заявку и подаешь её по интернету); 2) полуфинал (выступление перед экспертами и другими участниками); 3) финал (тоже самое, что и полуфинал, для прошедших предыдущий этап).
Мне сложно оценить количество участников на нашей секции. Но, думаю, где-то в районе 40 человек дошло до полуфинала. Из них в финал перешло 12 участников, в котором определили 5 победителей.
 
Смысл участвовать есть, так как победитель получает финансирование в размере 400 000р в течение двух лет (по 200k в год, соответственно). Я победил Smile
В добавок к деньгам подарили сертификат на консультацию и помощь в оформлении патента (в моем случае на разрабатываемое ПО).
 
В общем, очень рекомендую участвовать вам в будущих конкурсах, если у вас есть интересные проекты ;)
Автор: stasundr | O-- | .мыслей 6 [ +3 ]
.mitohg
Продолжая историю об ohg, которую для благозвучности я переименовал в mitohg.
 
Моя программа "победила" программу Ника по точности определения митохондриальных гаплогрупп. В первую очередь, это связано с тем, что у Ника (haplotree) используется устаревшая номенклатура, которой полтора года. Была еще третья программа из другой лаборатории (HaploGrep) - у нее совершенно другой принцип работы, но результаты с mitohg совпадают практически полностью. В итоге, для статьи выбрали именно mitohg. Приятно Smile Хотя немного переживаю, что прога еще сырая и там могут встречаться ошибки. Можно будет вздохнуть спокойно, когда статья пройдет рецензию.
 
Теперь хочу написать модуль, который будет по мтДНК строить красивые (именно красивые, чтобы можно было в публикациях использовать) филогенетические деревья. Опять же, все через js Smile
 
Автор: stasundr | O-- | .мыслей 1 [ +4 ]
.ohg
Если помните, я писал про программу http://stasundr.name/?id_news=191, по определению гаплогруппы митохондриальной ДНК. В том случае у меня были полные митогеномы (по ~16570 букв). Теперь передо мной стоит задача оптимизировать эту прогу для определения гаплогрупп у образцов древней ДНК. Теперь (в зависимости от состояния образца) я получаю либо одну целую последовательность (редко), либо несколько фрагментов этой последовательности из большого количества коротких фрагментов (обычно, несколько десятков тысяч последовательностей по ~50 букв). То есть все становится сложнее и интереснее Smile
Из-за того, что пробелы в последовательностях могут быть в очень важных местах, часто бывает невозможно точно определить гаплогруппу. В таком случае, ее нужно научиться предсказывать.
 
Update: ребята, вот это поворот! Оказывается, кроме меня, над созданием такой программы работал Nick Patterson - крайне интересная личность, учитывая, что до работы в области популяционной генетики, он работал на британское и американское правительство и взламывал какие-то там шифры (пруф). Скоро мы сравним наши алгоритмы в работе Happy Вот такая интрига %)
Автор: stasundr | O-- | .мыслей 3 [ +2 ]
.ohg
Написал для лабораторных нужд программу для определения гаплогруппы митохондриального генома.
Если описать задачу человеческим языком, то у нас есть текстовая последовательность длиной около 17кб, которую мы считаем образцом и другая последовательность примерно такого же размера, чью гаплогруппу мы хотим определить.
Чтобы определить гаплогруппу нужно сравнить эти последовательности и узнать различия между ними. Зная эти различия нужно найти, куда они попадают на сайте phylotree - там находится огромное филогенетическое дерево (древовидный граф), в котором около 5000 гаплогрупп.
Парсить это огромное дерево было весело Smile Очень подружился с регулярными выражениями - прям зауважал их.
 

Автор: stasundr | O-- | .мыслей 2 [ +2 ]