|
|
|
|
Создание сверх-компактного метода записи данных |
|
|
Оцифровка генома человека. математический анализ полученных данных |
|
Автор: Шумилов Е.А.
Цель проекта: .Создание сверх-компактного
метода записи данных
Задачи проекта: Запись заданного
файла длиной 100 байт на ДНК. Считывание файла, верификация и отображение
данных.
Перспективы: Разработка нано-молекулярного
стримера.
Как известно, на протяжении 3.5 миллиардов
лет на земле существует жизнь. Рождаясь и умирая , развиваясь и изменясь,
сменив бесчисленное число своих форм живая природа была неизменна
в одном – ДНК. ДНК –ключ жизни и летопись эволюции. ДНК везде, повсюду,
без нее не обойдется ни бактерия ни человек. Можно сказать, что живая природа
пользует ДНК все то время, когда она стала живой! Какую еще пользу может
принести современному человеческому обществу молекула ДНК, этот живой современник
Архейской эпохи?
По моим расчетам ДНК представляет собой
самый компактный существующий в природе носитель информации, небольшое
ее количество содержит в себе информацию о структуре десятков тысяч белков,
видовых признаках, и даже инстинктах. Кроме того он самый древний и самый
устойчивый носитель. Эволюционная способность ДНК к само-репарации (заживлению)
означает дополнительную ошибкоустойчивость носителя. Все эти ее свойства
дали ей право быть кандидатом №1 в моих разработках.
Прежде чем записывать данные на молекулу
ДНК,
нам пришлось решать вопрос о совместимости этих данных со структурой ДНК.
С этой целью мы разработали алгоритм моделирующий двунаправленную запись
данных из файла источника на молекулу ДНК. На его основе была создана программа
DNA-Codec для среды Windows.
Для проверки программы мы эмулировали
процесс записи на ДНК. То есть для эксперимента использовали два файла.
Файл №1 – Источник, содержит
полезную информацию (документ MS-Word, Фотография. и тд.)
Файл №2 – ДНК-образ, содержит результат
- упорядоченные последовательности нуклеиновых кислот.
Затем произвели действие обратное первому
– эмулировали считывание файла с ДНК. В результате мы получили исходный
файл №1, без изменений и без ошибок. Таким образом мы имеем универсальный
протокол передачи данных с компьютера на ДНК.
Для дальнейших исследований необходимо
синтезировать искусственную ДНК содержащую заданный файл, клонировать ее,
а затем дешифровать ее и получить исходный файл без ошибок и изменений.
Если это станет возможным в ближайшее время, то есть повод говорить, что
мы создали новою технологию записи информации.
1) Лаборатория синтеза ДНК
2) Реактивы и расходные
3) Компьютерный ДНК-секвенсор
P.S. На данный момент в лаборатории удалось записать на молекулу файл размером в 8 байт!!!!. Образец ДНК на данный момент находится в холодильнике, и ожидает стадии секвенсирования. Олигонуклиотид состоит из следующих последовательностей.
5’-AAGCATTGACAAATCAATTAATCGATCCACAT
Эти 8 байт в формате текста содержат следующую запись: “Shumilov”
Для решения поставленной задачи требуется совсем немного средств, но много энтузиазма!
Известно, что проект HUGO (секвенсирование
генома человека
http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/hum_srch?chr=hum_chr.inf&query
) накопил огромные базы данных расшифрованных генов и хромосом. Нам остается
только разделить между собой участки ДНК, а затем скачивать и преобразовывать
их программой DNA-Codec (см. Download ) в цифровой
формат.
1) ФИО
2) Возраст
3) Профессия
4) E-mail
5) Участие в АГЧ: "Я хочу исследовать
хромосому N (номер), гены AAA-ZZZ (такие-то)"
6) Могу оказать помощь проекту
(заполнять по желанию) :
После этого вы будете зарегистрированы в нашей базе данных исследователей-разработчиков. И займете место в списке Разработчиков.
Что бы избежать путаницы, мы будем вести
карту генома человека. где будут отмечены следующие участки:
красный |
Не исследованные и не
занятые участки
|
желтый |
Занятые участки, но не
исследованные
|
зеленый |
Исследованные участки
ДНК
|
Теперь вы можете приступать к работе.
http://www.ncbi.nlm.nih.gov
- здесь вы сможете скачать выбранный ген.
Когда вы доберетесь до, собственно, кода
ДНК, его нужно будет сохранить в отдельном файле и в определенном формате.
Например:
FT
tRNA
15423..15496
FT
/anticodon=(pos:15456..15459,aa:Thr)
FT
tRNA
complement(15495..15580)
FT
/anticodon=(pos:15548..15550,aa:Pro)
FT
tRNA
15589..15658
FT
/anticodon=(pos:15622..15624,aa:Phe)
FT
misc_feature 15659..16646FT
/note="control region"XX
SQ
Sequence 16646 BP; 5200 A; 4911 C; 2252 G; 4283 T; 0 other;
caacagactt agtcctggtc ttttcattag ctagtactca acttatacat gcaagcatcc
60
gcgaaccagt gagaacaccc tacaagtctg acagacgaat ggagccggca tcaggcacat
120
caaccgatag cccaaaacgc ctagcccagc cacaccccca agggtctcag cagtgattaa
180
ccttaaacca taagcgaaag cttgatttag ttagagtaga tatagaggcg gtcaactctc
240
gtgccagcaa ccgcggttag acgaaaacct caagttaatt gacaaacggc gtaaattgtg
300
gctagaactc tatctccccc attagtgcag atacggtatc acagtagtga taaacttcat
360
cacaccgcaa acatcaacac aaaactggcc ctaatctcaa agatgtactc gattccacga
420
aagctgagaa acaaactggg attagatacc ccactatgct cagcccttaa cattggtgta
480
gtacacaaca gactaccctc gccagagaat tacgagcccc gcttaaaact caaaggactt
540
gacggcactt taaacccccc tagaggagcc tgtcctataa tcgacagtac acgttacacc
600
cgaccacctt tagcctactc agtctgtata ccgccgtcgc aagcccgtcc catttgaggg
660
aaacaaaacg cgcgcaacag ctcaaccgag ctaacacgtc aggtcaaggt gcagccaaca
720
aggtggaaga gatgggctac attttctcaa catgtagaaa tattcaacgg agagccctat
780
Такой формат нам не нужен. Вверху есть опция отображения, вам нужно выбрать в ней параметр "FASTA" и кликнуть на рядом стоящей кнопке. Тогда вы будете получать участки генов в более пригодном виде
Other
Formats:
Links:
>gi|3831434|gb|AC005914.1|AC005914
Homo sapiens chromosome 5, Bac clone 189 (LBNL H135), complete sequence
CATATGTGTGTGTATTTTTTTGTCTGTTTTTGAGATGGAGTCTCGCTCTGTCGCCCAGGCTGAAGTGCAG
TGGTGTGATCTTGGCTCACTGCAACCTCTGCCCCCCGGGTTCAACCGATTCTCCTGCCTCAGCCTCCCAA
GTAGCTGAGACTACAGGCATGTGCCACCACACCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTT
GCAGTGTTGACCAGGCTGGTCTCGAACTCCCGACCTCAGGTAATCCGCCCACCTCAGCCTCCCAAAGTGC
TGGGATTGCAGGCGTGAGCCACCATGCCTGGCCATGTTTTTTTGTTTTTAATTAGTTAGAAGCCCTTTGT
TTTTTGGAGGAAAAAAGTATATCCATCCATCCAATGCAGGTAAAATGTAAATCAGTACAACCTTTGGGGG
GGTGCATTTGACAGCATGCATCATGAGCCTTAAAAATATATCACTTTTTGATGACATCGGCACTCTTCAA
AATACATAGGATTACTTTTACTCCAGTATTTCACTGCTAGGAATTTATCTTGTGTAAATAACATGAAAAA
GAAAGAAAGAGAGAGGGTGGGAGAAGGAGAGAGGGAGAGAGGAAAAAAATACAACCAGAATGTCTGGCAA
TGGGAGACTGTTTAAATGTTCCCTGGTAGAATATGAAATAGCTCTTTCATTTATTCATTCATTCATTCAT
TCATTTTGCGACAGGGTCTCATTATGTCACCCATGCTGGAGTGCAGTGGCACGATCATAGCTTACTACAG
CCTCAAACTCTTGGGCTCAAGCAACCCTCCTGCCTCAGCCTCCCAAGTAGTTGGGACAACAGGCACACGC
Так же нужно избавляться от заголовков, оставлять только код. Куски кода надо склеевать и сохранять в отдельном файле, а файл именовать так "НазваниеГена.DNA" .
Затем откройте файл с помощью программы
DNA-Codec и переведите в цифровую форму.
Полученный новый файл отправте нам по
E-mail:
garrett48k@hotmail.com
После того как наберется достаточное количество
таких файлов мы сможем заняться их обработкой