SEQanswers

Go Back   SEQanswers > Sequencing Technologies/Companies > Pacific Biosciences



Similar Threads
Thread Thread Starter Forum Replies Last Post
Combining fasta file and bed file into a different file using biopython,python surachit Introductions 0 10-25-2015 11:55 PM
vcf convert to fasta, the fasta file is not an alingment file wangxueqin Bioinformatics 1 09-04-2015 11:36 PM
Creating Transcriptome File for Use With BWA from GTF file and genomic fasta file PolPittacus7 Bioinformatics 4 07-17-2015 10:45 AM
Convert sam file to fasta file. thh32 Bioinformatics 2 12-18-2014 02:42 PM
Convert WIG file into Fasta file kumardeep Bioinformatics 3 08-23-2012 05:56 AM

Reply
 
Thread Tools
Old 12-14-2015, 04:17 AM   #1
Marcela Uliano
Member
 
Location: Berlin, Germany

Join Date: Apr 2012
Posts: 18
Default GFA to fasta file

Hey guys!

Can someone help me writing a awk line for extracting FASTA sequences from a GFA file? (I lack programming skills and will take a long time to do it!!)

I've done a miniasm assembly with some PacBio reads I got, the unitigs are great and I would like to do some mappings and further analysis with them in the fasta format.

Thanks a lot a lot!
Marcela Uliano is offline   Reply With Quote
Old 12-14-2015, 06:41 AM   #2
GenoMax
Senior Member
 
Location: East Coast USA

Join Date: Feb 2008
Posts: 7,002
Default

Can you provide some additional information? Both the assembler and the format (Graphical Fragment Assembly format fro Heng Li?) you have mentioned are new for me.
GenoMax is offline   Reply With Quote
Old 12-14-2015, 06:57 AM   #3
Marcela Uliano
Member
 
Location: Berlin, Germany

Join Date: Apr 2012
Posts: 18
Default

Yes! Its a very new tool!

Basically miniasm takes all-vs-all read self-mappings (typically by minimap) as input and outputs an assembly graph in the GFA format. (https://github.com/lh3/miniasm)

So, I past here for you a partial file, so you can see how the file looks like!

Thanks a lot!!

Code:
a	utg000017c	0	all.subreads._205152_1/1226_10261:18-9017	+	116
a	utg000017c	116	all.subreads._36376_1/83_9849:25-9707	+	922
S	utg000018c	GGAGTATTTTTCCCATTTATTGTCTTCTTCTATCTTTTATAGTTTTTGAGTTAATGATAACAAGATTGGAGAAATGGATTATATAATTAAACCGTCATGTATGATTAGCAATGTTTGCTCTGTCGTCACCAACATATAATATCAGGGACTAAAGTCCTTCTTTTATGCACACCTTTAAATGATGTAGAAGTCATATTTTAGGACGTTCCTGGCCATGGTTGTAATTAAGTAAGTTGCAGACGACTCGATTTCATTGAATTTGTTTGAATTTCTAGATTCATTTGACCTTTAAATAGATATGGAACACTAAGAATAGCATACATAGTAACGATATGCATGTACATTTGATAGAATATTTTAGAAAATATCAAGCATCAGACGAAACCTTTGGACCACATTTTCTTGATATTATGCTACTATGATTCTGAAATACCTGTGTACTTATTTTTGATGGGGAAAAAACAAAAATGAGTCTCAACAGCATTAAATATGTCAAATTTAATAATTACACAATAAGGAAAAGTGGGATACTTTTTAAAAAAAATCTCTTTTTTTTCAAGTAAGGCTACTATGTATGTCACAGTGTTACATATTTTTCATGAAAATCTTAGTTTAGTGTAAAATTTTTTAAGAACTTGCATTTCAATTGCTAATTATTTATTATTTCTGTATAAATGTGTAAGTTAACATTATTTCAATCATTTTTATGACTAGCACATTTGGTTTAATATATATTAATTATTAGTATTTTTTTGCGCGAGACAAGGATTATCAGGTCTATATCAGATGAGCTCGTAGAGCGAATCTGATATGGACCTGATAATCCTTGTCGAGCGAAAAAAAAAATACTAATAATTTTTTTATCGGTAATTTCTCAATTTAAATACAACTTTTTTTATTTGTTTTCGTTTTTTCACATATTTGAGGTTATTTTGCTTTGTAATAGTGCCGTTTTTACGGTAAGAATCTGTGCACTACTTCTTTTGTACAATTTTTATGCGTAATGCAGTCTGACATGACGTCACTCCTACCTCAATCATTCAAAAACTTCAAGCGATTATGCGGACGGAGCCGGAGGGAATTTCAAATGAATGGAGAGGAAATGTCAATCTGAAACCATTTACAGCGTTACGAAAAAGTTTATCTCAAATGCATACCCCAATCTAAGACAAAAAGTACTAATATCTTGATACAGGGATATAAATCTGCCATTAGGTAAGCATTTTATTATAAAATACATAAGAATTTTCATTCTTGTGCCTCAATATACTTGATTTAATACTCGATATAGAACAGATTGATAAAAATCAAATCTATGGTTCCGTGTATTAAACCAAGGCTCAAAACACTGATTCTGTTTAATATGCATGTCTATTACAGTATCTGTAATGGTTTACAAGTTACGAGTCAAGAACCACATTCTGTAATGATTCAAGGGCAATAACTGAAAATCGACTAATGGTACCTACTGCTTTTCCTTTCAAATATTTGTATATTTTTGAAAAGTCCAACATTTTTCCTATTTATTGTCTACTTTCAAACTTGTATAGTTTTTATATTATTTTATAAAAACAGTAAATGATAGAGAACATTTTGAAAATGGCAACCCATAATGATATGACTTTGGTCTTGAATTGAATGTCTTGACTTGTTTATCACAGTCATCCTATATGTTTTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACTGAATAACCAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAAAACAGTCTGGACCTAATGATACTAAATGAAGGTCTTGATGAGAGGATCACTTTATGTATACTTGTTTACTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACCAAATAACCGAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCCTGGACCCAATTATACTAATGAAGGTCTTGATGAGAGGATCACTTTATGTATACTTGTTTACTATATTATCTCCGTTTTCGAGTTAAAAGCCAAAAACGAATAACCGAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCCTGGACCTAATTATACTAAATGAAGGTCTTGATGAGAGGATCACTTTATGTATTTGTTTACTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACCGAATAACCGAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCTCAGACCTTATACTAAATGAAGGTCTTAATGAGAGGATCACTTTATGTATATTTGTTTACTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACCGAATAACCGAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCTTGGACCCAATTATACTAAATGAAGGTCTTGATGAGAGGATCACTTTATGTATTTGTTTACTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACCGAATAACCAAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCTGGACCCAATTATACTAAATGAAGGTCTTGATGAGAGGATCACTTTATGTATACTTGTTTACTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACCGAATAACCGAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCTTGGACCCTTATACTAAATGAAGGTCTTGATGAGAGGATCACTTTATGTATACTTGTTTACTATATTATCTCTAACCGTTTTCGAGTTAAAAGCCAAAAACCGAAACCGAAACACATCAAGGCCAATAACTCGAAAACGGTTCATAGAACAGTCTTGGACCCAATTATACTAAATGAAGGTCTTCCCAGATACCTTTATGAACTTAATTTTTCTTCATCTCTTGTTGTGAACTTACTACATAAGTTACTGGCCATTTTGTAGGCGGAATAGACTATTTCTGTTGTCCTGAGTAAAAAAATATATGGTTGTCAAGGACTTTTGTGGCGTTGCTAAGGACAAAATGCAACTTCCGGTTGTAAAAATGACATATTTTAGTAAAGTACATCATCCTGATTTAAAAAATATATGGTTGCTAAGGACTTTTGTAATGGTGACCTGGTTGCTATGGTATGACCTTGACCTGTGACCTTTGAATTTGGGCTCAAATTGAAGGCCTTTACTTGGTGATCATGTTAAACCTATATGTTTACTATATTATCTGTAACGGTTTTTCAAGTAGTATGCCAAAAACTGATTTACCGAAATGAGTCAAGGGCCGAACTCGAAAACGGTTCATCGCACAGTTTCGGACCAAATGTATCAAATGAAGGCCATGATGAG	LN:i:6420
a	utg000018c	0	all.subreads_705750_1/3558_11624:26-8057	+	461
a	utg000018c	461	all.subreads_705751_1/1147_8941:33-7716	-	1299
a	utg000018c	1760	all.subreads_751504_1/482_7590:4-7105	-	357
a	utg000018c	2117	all.subreads_1388538_1/36_8268:19-8228	-	3825
a	utg000018c	5942	all.subreads_705749_1/1975_9802:1-7826	-	478
S	utg000019l	CGTGCAAATAGAAAAAAAGCGTGCATGTATTAATATCTGTGATTGTCAACTCGTAAGTGTCTTTGCATATGAAAGTTTGTTTATTGTAGTGTTTATACTTGATATTTATCCATTTATATATTTACGCTAATATTTAAAAACAAGCATCTTTTGAAGTAAGAGGAAATTAGTGTACGGCAGGTAAATTGCAAAAAAATTATATTTCTTGCTGTTTAGCATTGATTAGCAAAAACGCATAAACTACTTATAGGTGCTGTTTATTAATTTATGTATTGAATTATATAAAAATCGTTACTTCTCTTCCTACACTGTATTTTATGAAATATCATTAAAATTTTCAATTGACGTTATCTTTAGACTATAATCTTTTTCAAAAATGTATGATTTTTTCATTGCACTAAAGTGGGTGATATTCATTAATAAATTGCTCAAATAAAAATGGGAAAGCATTCACACTTAGATAAAGTCTTAAAATTACATAATAAGTGTCAATTTGCCCCCAAGTCCTACATTACCTAATATAATGTTTGATAAAGAAGAAAAAAACCTCTTGGGTATTATGTTATTTTAAGAATTACTTGCCAGATACAAATTACAAGAGCATGTATATATTTTATATTACAGTTTTCTTTGTCTTGCATGCAATATGGTGAATGAATTGATGATCATTTTGGTTTTACTTGTCTCCCCCTGTTAAAAGTTCTGCGGTACAATATTTCTCTGAAATCGTTAAAATGAGTATGTGTAGTTATTATTTTCTTGGCATATGTCATCTAAAACCATTATAGCCGAGCCATATCTAATAGTCCTTGAAGTAAATCTGGATTTCATTCAAATAATATTATCCAATTTACAAATAGATGTGCTTGAAGGAGATAATTTTCTTTGCCACCATACAATACTAGTACTAGTATCTTTAAGTGTTTAGTTGTTTCCTGATTATATTTACTAATAATAATGATAAAGTTTTTATTGTAAATTAAAAAAATAAATACAGTATTTTTTATTATATAATACCATTAATGTAATTATTTAGGAGTAATATTAATTTTCTATTCTAGTCCTATTGCCTTTTGACCACGTGACTGTGTACTGAAATCCAATCCTTACTGACCAGGATTGCCAGTTTCCTGCAGCAGGTAACAGTAAATTAAAATGAGATTGGGGTTCATTTCTCGCTGGTGGCAAGGTGCACTTCACCTTAATCTTAATTCAAAAGATTACCAGTTTTCTAACAAAGGTCTGGGGTTTTACCAGTTACTCCGGTTCCTCTGTAAATAAAAACGACACTATGCATATGATATATCTGAAAAATTGTTGGTAGTGGTGTTAAACAACATCAAACAGAACAAACTTGTTTTCAAACACATGTATCTGATGAGGGATAAATTACAAAAATATGAACTATGTACACACTTTTGAAAAGGGAGTTAATTTAGTATTGTGTGAAACATTGCTTTACTGGACTAATCTTTTTATTATACAGATTACATTGAAAAAAGTCATCATTTTTGTGTTTTAGATTGCTGTCATTGAACTACATTGTGATAAACTGAATAAACAGTAGCCATCTGGTAAGTTGAGTTAGAAGTAATGCAAAAAGTTAAATTTTGTATGCTTTATTTTATAAGATACTTTTTTTTTAATAGCATACAGTATAATGCTAAAATGTCCATGTGTTGTTTGTTTCATTTGTTAACTTCATGAATATTATATAACAACTTGAAATTAACTTATCATGAATTGTAGTTGAAGGGAGATAATTTTTTCACCACCATAAAATACTAGTACTAGAATCTTTGAAGTGTGTAGTTGTTTCTTGATTATAGTTGCTAATAATAATGATAAAGTTTGATTTATTAATTAAGAAAATGAAATACAGTATTTTATATTATATAATACCATCAAATTATATAATTATATAGAGAGTCTTATTTTCTATTATAGTCCTTCGCTATTTTTTAATGATGCGCGGCAGCATTAAAGTGCCACTTTCTTAACATGAGTACTTCAGTGTTGAAACTGACTCAGAAATTGAAGAACAATTAAATAATCCAACAACACAGACATGCATTTGTAAAGACTTAGAGTTTGGTGATACTATTTATTCACAGATTTTGTTCATATCACCAACTCCTTTATAGGATTAAAACACCGTTTTCAATGGATTTATCGGTATATCAACAAGACCAACTCACTCACAAACAAATAAAAGTCCGAAGGGACTTTTATTTGTTTGTGAGTGAGTTGGTCTTGTTGAAGGGACTTTTATTTGTTTGTGAGTGAGTTTGGTCTTGTTGATATACCGATAAATCCATTGAAAACGGTGTTTAATCCTTATAATTCTTTAAAATTGCATTAAGAAATTAATTTATCTAACGTGTTTCTCAACTTCATATTTCTTGTGTATTTGGTAGCGGGATTGACTGAACGTATGAATATTTTGTTTATTTTTAAACGTACGATTATTTTCATAAACCATTTTCTGATTTTTTATTTTTACATCAATCTGTAACCTTATTTTCTGTATCGAACACAAGGAAAGTTTTAAATTTAACAAATCATTAATGATAATTCATCAAACAAATAATTTGTAAGTTGATCGCTACTTTCAATATTGAAAGCCGCCATCTTTGTTTACATTGGTTACGCTAAAAATAGTTCTGTCAACTGTGTTATCCTAAAATAAATGGAGTTAACTTCATTTCAAAAAATATATTTCGTTAAAAACCTCAACCGGAAGTAATCTAGACCAATCAATATAAACATATTTCTAAATATGCAAATCATATTAGATAATCTATATATATTAGTTCTAATGACACTACAAAAAATAGGACATCAATCAAATGAGGAAACACTTATTTCAAACACATCTGAATCTAATTTTTACCAATCAGATTCAGATGTGTTTAATTTATCATTTTCCTCATCTGTTTACATTGAATCTACTGATGAAGATGATTGCAAGAGAATGATGATGACACTGAATGTACAGAATCAGTTAGTTTATGTGTCTAAACTCTGCAGTGATAAATTGGAATACAAATGTACTAAATATATCTTAAACTCCATATCAATAACAAAACTAATATCATAAGACTTGTACTAATAAACAGTTAACCACCTATTATTTTGCACCTTCCACTCAGAAAGGCTTCTGTCTCATTTAATACACTGAATACATCAGATTCATTTTATTTGCCTAAATTGCTATGTCGATAAACGAATGTATTAAAGGTAGGAATGATTTTATTTGTAAACTTTTCACATCACTGGCCAAATTGAAACCAAACTAACATTGTGTAGGCAAAACTAACCAAAAATGTCCATGTGCATAAGCATGATGATTATCCTACTGTTTACTGCATGAATGATTCCTTTTAGATATTGTGTTGTAAGTGATATATTTTCATTCAGATTTAACCAAATGGTGTACAGGAAAAACAAGGGAGGCAACTTTTACTGAATGCTCATTTGATTATTTTAGTTTTTAGCTCACCTGACCCGAAGGGTCAGGTGAGCTATTGCCATCACTTGGCGTCCGTGGTCGTCCGTCGTCGTCGTCATCGTCATCGTCGTCGTTAACTTTTCTTCAAAAATCTTCTCCTCCAAAACCACTGAAGGGATTGCTTTGAAATTTTGCATACATCATCAGTAAAATGCCCTCTACCAAGTTTGCCCAAATCAAGGCCTCAGATCAACCAACATGGCCGCCATGGCTAAAAATAGAACAGAGGGGTCAAAATACAGTTTTTGCTTATAGTTCAAAAAGTATAACAGATACAGGAAAACCGAAGAGACCTTCCTCTTTCACCATCTAAAGCTCTACAAAACACTCCATTGGGTCAAAGTTGTATGATGACTCCTTGTAGGAGTTATTGCCCTTTAATTGTCAAAATTGATGATTTTTGCCATTTTTGCTTCAAAATCTTGAAAATTATTAGAACTAGAGAAAAAGTTAGCATTGCTTAATTGTTCTGCTCTATAAGGGCTACAAAAATGAAGAAAAAAAAAAGGGTCAAGATTGTCTGATTAGCCGTTTAAGAGTTATTCCCCTTGAACTGTTTTTTTTTAATCAGTTTAATTGATATTTTAAAATCTTCTCCTCTGAAACAACTGAAAGTACTGCTTTGAAACTTTGTACTTATCATCTGTCAAATGTCCTCAACCAAGTTTGCACCAACCATGGCTGCAGATTAACCAACATGGCCACCATGGCTAAAAATAGGATGGGGGGGGCGGTAAAATACAGTTTTTGGCTTATATTTAAAGAAGTGTAACAGATACATGAAAACCGAAGAGACATGCCTTCATCTGCATCAAAAGCTCTACGAAACACTCCATTGGGTTGAAGTTGTATGATGACTCCTTATAGGAGTATTGCCCTTTAATTGTCGAAATAGATTTTTGACATTTTGCCTCAAAATCTTGAAAATTATTAGAACTAGAGAAAAAAGTTAGCATTGCTTAATTGTTCTGCTCTATGAGGGCTAAAAAAAATGACTTAATGGGTCAAGATTGACTGATAAACCGTTTAAGAATTATTCTCCTTGAACATTTTTTTAATCAATTTTACTTGATTTTTAAAAATCTTCTCCTCTTAAACCAATGAAAGGACTGCTTTGAAACATTGCACACATCATCTTTAGGATGTCCTCTACCAAAATTGTGCAAATCATGACACCTGACTACCTACATAGCTACGTTGGATTAAAATAGAAAAAATGAAAAGGGGGGGGGGGGTCAAGAGAGTTTTCGACTGATAGTTAAAAAAGTATAACAGGTACAGCAAATTTGAAGTGAACCTCCCTTCTTGCTCTAACCATCAAAAGATCCTCCTTATAGGAGTTATTTCCTTAAAAGGTCAAAATTAATGATTTTTGCAGAAGTTGGGCAATTCCTTATAGCAAAGAAAAGCTGGATAAAAAAGGGTTGTTGGTTTCAGGTTCAGGTGAGCGATACAGGCTCTTGGGAGCCTCTAGTTTAACACAGTTTTTCTGCTTTATCATGGCATTTGTTTATTTTTTTGGGTAGGGTTGGAAGGGAGAAGCCAGAGTGTCCAGTGAAAACACAGTAGCATTGGCAGGAAAAATGGCAATCGTTGCTATAAAAATTGTAGTCTACCAAACCCTGCTTTCAGTATGGCTCGTTTTCAAAAACCTCAGAATTGACTGGCATGTGATTAATAGTAGATGACTTATTCAGCCACTGAGGTCCACATCTTTTATTGCATTGTTAATCAGAGAAATTATTAGTAATCGTACATGTTTTTATACTTTTATAACAAGAACCAATCTAATTAAAATTAAATCTTTCACTTGCTCCCCCTTTCGTTATTGGTCGCTGTGTTATAACACGCAGCGACCATAGCAAAAAGGGGAGAGCAAGTGAAAGATTTACTTTTAATTAGATTGAACAATAACAAAATTTCCAGATATTTCTTTTTACAATGCCACATGTTAATTTAGTTTAGTTTTTTCTTTCAGATATAAAACAGGTACATAGTTCAAACATTTCTATCAAGTTCAGCCTTACAAGAATGAGGTAAATAAATGATGTAGAATTTTTTTTTCCAAGATTGGCAATGAAAAGAAAATTACAGGCCGTGGCAGATAATGCCTGCATTTTGCCTGAAAGACAATTCCAAATCTTCTAAATAATTAACTAATTAAGAAGATCTTCATTTAGAATTGGAGTTCAATGGCAGTAATGACAATAATACATGTACTGAAAATGACAAAATACTAAATTTTCGTTAAATGAAAAAGGCAAACCCCTATAATGAAAAACTGCAAAAACTGCATTATTTATTTTTGAGTAGGCGAAACATGTACTGAAAATGACAAAATTCTAAATTTTCGTTTAAATGAAAAGGCAAACCCTATAATGAAAAACTGCAAAAACTGCATTATTTATTTTTGAGTAGGCGAATAGGGTTGCAACATATTCAACCAATAATTAAGGGTTTTCTTTCACTGGTAGACTTTTGAAATTGACCAGTTGCCAAGCATAAGCACTGCATCAAAAATGTTTCATGAATTGGGAACTATTTCAAGACAACAGATTAAGATGAATTATCAAATGCAAAAAACATTACTATGCAGGGATTCAACTTCAAAAAAGGAAGTAACTTTTATGGAATTGAATACTCTACAGAAAATGGTAAAACTTTGACAACAGGTCTCAGAGAAGTGTCATATGGAAAATTGGAAACTTATGTCAGTTGTGTTCATGAATTTTTCCGACGCAGTCGGTATTATATTCACTTTTTACCCTTTTGACTCATGACACTTCACCTCTCGTAATTCTGTTTCTTGATTGGTTAAAAACCAATTGGACGGGGGTTCGGAACAGGGTGGTAAATTGGACAAGGGCTCGGAACAGGTGGTAATTCACCTTTCAAATTGTGTACTATTATTATTAGATTTTGCCGTCTGTTTGTTTATAAAATTATTTCATAGTGCAATTTAAGTAAAAAGAATGATAGAGATGAGCTGCAGTTTGTAAATTTTATTGACGGGGGTTCGAAACAGGGTGGTAAATTGGACAGGGGTCGGAACAGGGTGGTAATTCACCTTTCAAATTGTGTACTATTATTATTAGATTTTGCCGTCTGTTTGTTTATAAAATTATTTCATAGTGAAATTTAAGTAAAGAACGATAGAGATGAGCTGCAGTTTGTAAAATTTTATATCAAACAACTTGTACAAAAATGTTAATATTTTTTATTTGAAGTACAGCGCAAATTAAATGCATATAAACACGCTGGATTTTAGCGGGCTTTTATGGAGGTAAAAAGACGAAGAGAAGAAATTTTAATTAATTTCTAAATACAAATTAACAATCATTTTATATTCATGTTGATATTAAATCAAATGTATTATTGTTCTTGGGCGTCCGTCGTAGTACACACATAGATAGAGAGTTGTGGCTCTAATTGTAAAGTATACTTTGCTTATTCAGTAAATTTTAAGCTATAAACATTTATTAAAAAATTTCTAATATTCAATTTGTTTACATTATTGTATAACTGCTTTGGTGCTCGCAGAAAAATTCATTTCTATATCTTAGGCATTGGGTTTCAATACATAATAGCAATAAACTTTCTGGAATACATGTACATGTACAGCAAAGTAAATGTAGTTGTATGTACATTATCAATTTTAGGTTAACTGTATGCTTGGTAAATCTGTTAATATCGAAAACACGTAAATAAAAGGGTGCACACATGTATAAATGAATAATTTCAAACTTTTCACCTGGGACTAGTGTTAATTTATAGTTCATGATTTCATTCACGTAGTAATAATTGTCCGTCAGTACTCCCTTCCCCCCCAAAAAAAATCCATGAAACATTACTGGTCTATTGAAACGGGGAATTTGTATGACAATAAAGGCGATTCGTAATTCAATGCATAACTCAATTTATATCTTTACTGCGTCGGTTATCTTTTTTAAAGATAGTACTTGTTTAAAGATGCATCTGGTGATTCGTCAACTGCAAACATCTAATCAATAGAAAACTCCATTTTACATAAAAGGAATGACACTGAAACATGACTAGAGAACAAATGAGAGAATGGGCAAGGAAACATAATATCATCCTAATGAAGGTCTGGGGTTTTCTCCAGTTATTATTTAAGGTTTGTTCTCTCAATCATGATCATATCTGAAAAAATTGCTACAAGTGGCATTAAACAACATGGAACAGAATAAACTTGAAAATTTTTAACAAGTAAAGATTAACCTTTCATGAATCATAGTGATTTTTTACAAAATATTTATATAGAAATCAAACTTGTTTGGTAAGTATATATAATATTACGCATGTACTCAGTTGGGACTGTTAAAAATACCTTTTTTTTTAAGATTATGTTGAGAACAGCTTTTTGGGCATATTCGTTCTTTCAAACACCTGAATCTGATGAGGGATGTATTTAGTTGTATAATGCACAGCAGCATTAACCCATTCTCACCTTATGTATCATTTAGGCACCCTCATATATATACCAGATGTATCCTTAAGGCACCACCGTGTTTCTACCGAAAGTATCCTTAATAAGGATACCCGAGCATTGATTTTCAGCGCATTAAACTTCAAACATTTTCTTTTGCAACATTCAACAATTGCAATACATTTTTCCGACGCAGTCGGTATATTTTTCAAATTGTGACCTTTGAACTAAAAGATGCTTACCTATGGTAACATACTATAATTGAAGACAAACTTGCATTCTGATTGGATAAAAATAGTAAAAAATTTCTGTGTTCGAACAATCTACTATAGTATACTCTGAAAGTATCCCTATTTGCATTTCTAAATTATTATTCCTGCAGTCTGGTGTTTTTAAACAATTGGTGTCGTAATTAAACTTTAAAAAATGATTTTTATGCAAAGAATGCTATTTAGGACTGATAAACAATTTGTAATTTTTTTCGCATTTCTTGGTAGAATTATATTTGCTTTGGACCAACAACAACAATGTTTATTAGTACCAATCAAGGTGCCATTTTGAGCGAATCAAAATCACATTTTGCATCTTTCCTTAATGCACATTGGTGATACAAATATTTATTGTCATGTGATGAAGAATAACAATTTGTAATAAATGTTAAAGTTTTCCTGTCAGTTGTACAACACATGTTGATAGGAAGTACTTTTAAGTAGAATAAGTGGGAACTATTTTTAGAGCTTATTTCCAGTATTGAATACATTCATCAATTATAAATGTTAAAATAAACATTGTATCAATATTAAGTATCATTAATTTGCTTTGCTATTGTTCTTGCTAACTTCTTTCTGAATTAATGTTGTCTTGCTGCTTCTAATAAAAAAACAATTACAATAATATTATCATTTTATAGGTAAAATACTGGAGCGAAGGAGAAATGGATGAAGATTGCTTTGACGTCACCAACAAAAGACCTCATATCTGACTATAAAGAGGGCTCTCTGAAATTTAATTAAGGTAATTATGAGACAATTGATTTACTTTTCAAGAGATCAAATATATAAAAAATACCATATTAACAATATGAAATGTAAATATTCTTATTGTGGATACACAAAATAAACAAAATATTATGTTCATTTCATCAGGAAAAGTAGCATTAATACAGAATCTGCAATAAACCATGCTTGCCATTATTATTACTATTAATAAATCTGTTCCATTCCTGTACAATATTCGCTCATATTTTATTTAAGAAATAAACCAGTTTCAATATATGAAAAGACGGCTGTGTGCGGAAAGCCAACATTTTGAAAGATCAAAGAACATTGTAGGCTCTCATTAGTGAGGATTAAGGGTCCCCATACAGCTAGTGTAATTGATTAACTGTAAAGGTAAAATTTTGTAATATTGTACTAGTGGTAATGATTTACATGAGTTAGTATTTGTATATTTGTATTGTGAATTTAAAATTGTCTTCAATCAATAAATATTTAACAAAATTATAAATTTTAAAACAGATTTCAAGAAATATTTGTTATAAAAATACTTTAAATAATAAATAGATATATGTATATTTTGAAGAAAAGAGTCTTCTATTTTTGTTGAATATGACCATTGGGTAAGAACAGTCTGTAAAAGTTGTACTGGCAAGTTGGTGTCTACTAAGTCTTGTAGTGTAACCAGATGGCATCTTCTACTTGTTGGACTGGAACAATACAATCTGGTTGTAGTATGGTCCACTTGCCATTAAACTGGATGTCTGTAATGGTGTTGGGTAACTTGGATGTCTGCTTGCACCGGGCTCTGTACAATACTGATTTTGCAGAGTTGAATGTCATTATCTTCTCAAGAGGTTTTCTCAGGTACTCCGGCTTCCTACCCCAATAAAAACTGGATGCCATGATATAGCTGAAAAATTGCTGAAAATATCAAACAAACAAACAAAATCTTCTCAAGAACTTTTAACATTTTTAACAAAATTTAGTTTGATGCTTCAAAATATATGTTATTTATTTATTTTTTTTTTTTTATTTATTTATTTATTTATTTATTTATTTATTTATTTATTTATTTATGTCGCCCTTTTCTGTATCAAATTTATTGTACCCATTTCATTTTTTCTGTTGCAATAACTGCACATTAGTATGATTATACCCATTTCAATTAGAAGAATAATCAACACCCTTGTTGTACCCCTTTTTAACCACTCAAACAAAAAGACTATAGATTTTAAGTGCAACTTAAGTTACTCCTTTATGAAATATTCTGTGTGATATTGACTAGAGTTGTCTTTCTTTAATCACTGGAGGTGATTGCACACACATTTTGAATTTAGCCCCAAATTTAGATTATTATGAACCAATTAAAAAAAGTTTTACAAAAATTTCATTGATGGACATACACAACTGTTTAAAATATTTCTATTGGATGAACTTCATGTTTAAAATTAGCGAAAAATCTATGTACTACTATGCATAGTCTCGATCATCCTGACGCTTTAATTGCATTTGTGCGTCATGATTCATCTCTATATATATTGAACTTGTTATCATTACCACCAACAATTGGCAAAAGTTTTTGATTGGATGGTATTTTTATTGTGTAAAAATTACTTCTATTCATATCACGAAATGTGTAAAAATTGTACCAAAGTTTATATTTGAATATTTTTATAAAATATTACTTTATCAATTATTTAAACAAATATTATTGTTATGCACAATCAAGAAGAATTTTACTGTAACGTCATTTTATAAGTCTAGACATGTTGTCATGGTTTTCATGGTCTAAAAATAGAATGATTGTTTTGTCTCTACCTATTGGTAGCGAAATTACAACAAGGTGATCCCAGACACAATTCTGTATGCGTCTGGGTGATCGAGACTACAATGGGAACATCTCTCGGCCATTTCCATCAAGGTAGGGATGTTCATGTTGGCACCCATAGCTGATCAGATCAGGAAGTAAATAACTATTGCAGTCCAGTAACATACATTTAGTGGTCATGTTATATTGTTTCATCTAAAATATAATATAATTAAAACTGCATCATAATTCAGTGTAGGTTAGTTTAAGGACTCAATTTAAAACACACAAAGACACATTGGGTGATAACTGTAATCTAAGTTTACATCCATTTCTTAACAGTCCAACTCTTAAGATTTTTGTACGTTACAAATTTGCAAGCTTTGATAATACATCAGCAATAAATTTGTAAAGAAAG	LN:i:17868

Last edited by GenoMax; 12-14-2015 at 07:28 AM. Reason: added CODE tags to improve readability
Marcela Uliano is offline   Reply With Quote
Old 12-14-2015, 07:47 AM   #4
Marcela Uliano
Member
 
Location: Berlin, Germany

Join Date: Apr 2012
Posts: 18
Default

Hi GenoMax, I got an answer already:

awk '/^S/{print ">"$2"\n"$3}' in.gfa | fold > out.fa

Thank you so so much!
Marcela Uliano is offline   Reply With Quote
Old 12-14-2015, 08:17 AM   #5
GenoMax
Senior Member
 
Location: East Coast USA

Join Date: Feb 2008
Posts: 7,002
Default

That turned out to be simple. The line with the sequence is all one needs then.
GenoMax is offline   Reply With Quote
Reply

Tags
fasta, gfa, miniasm, pacbio

Thread Tools

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off




All times are GMT -8. The time now is 12:55 PM.


Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.
Single Sign On provided by vBSSO