SEQanswers

Go Back   SEQanswers > Bioinformatics > Bioinformatics



Similar Threads
Thread Thread Starter Forum Replies Last Post
Larger size TruSeq nano prep anna_m Sample Prep / Library Generation 5 10-30-2014 07:42 AM
bam file increases in size following base recalibration lre1234 Bioinformatics 2 08-25-2013 05:01 PM
Insert mean size in *.rsem.sorted.bam.stats file AsoBioInfo Bioinformatics 0 08-25-2012 09:57 PM
what is the file size for a 30X human genome sequencing file, raw and BAM? RNA-seq Illumina/Solexa 2 04-15-2011 11:27 AM

Reply
 
Thread Tools
Old 10-28-2014, 01:42 PM   #1
newbird
Junior Member
 
Location: Tennessee, USA

Join Date: Oct 2014
Posts: 8
Default Vendor provided .Bam file size is much larger in size but # of reads are same

Hi there!

Recently I obtained .bam files processed by CIDRSeqSuite. One .bam file size is 15.2 GB (it is a Whole Exome Seq data). I performed the following steps:
1. SamToFastq to convert .bam to FastQ file.
2. bwa aln and bwa sampe
3. MergeSamfiles and then sort it using samtools
4. Used GATK for realign
5. Used Picard for Fixmate and MarkDuplicate

My question is the generated .bam file size is ~6.8 GB. I checked the mapping quality using SAMTOOLS FLAGSTATE. QC passed reads for the two .bam files are identical.

Can anyone suggest me what is the reason for such a huge difference of two .bam files? For you kind information: the .bam file comprised of 4 read groups and after converting to .bam to FastQ, each FastQ file size is ~4 GB.

I am very new in analyzing Whole Exome Sequence data. It is highly appreciated if anyone can help me to figure it out.

Thanks.
newbird is offline   Reply With Quote
Old 10-29-2014, 09:36 AM   #2
Brian Bushnell
Super Moderator
 
Location: Walnut Creek, CA

Join Date: Jan 2014
Posts: 2,707
Default

Bam is a compressed format. The compression is more efficient when the file is sorted. So, a sorted bam is potentially much smaller than an unsorted bam.
Brian Bushnell is offline   Reply With Quote
Old 10-29-2014, 11:19 AM   #3
newbird
Junior Member
 
Location: Tennessee, USA

Join Date: Oct 2014
Posts: 8
Default

Hello Brian,

I appreciate your prompt reply and willingness to help me. I can confirm that the .bam file sent by CIDRSeqSuite is already in sorted form. Even though it's size is 15.2 GB, while my .bam file, after converting to FastQ and followed subsequent analyses mentioned in my previous post, size is ~6.8 GB. I am afraid that I am doing something wrong.

Best,
Newbird
newbird is offline   Reply With Quote
Old 10-29-2014, 11:27 AM   #4
Richard Finney
Senior Member
 
Location: bethesda

Join Date: Feb 2009
Posts: 700
Default

Sorted by location?

Can you use samtools view to post the first few aligned reads for each bam?

How different are they?
Richard Finney is offline   Reply With Quote
Old 10-29-2014, 12:55 PM   #5
Brian Bushnell
Super Moderator
 
Location: Walnut Creek, CA

Join Date: Jan 2014
Posts: 2,707
Default

As Richard implied, there are various sort criteria in sam/bam - particularly, coordinate or name. Name-sorting will not help compression much, while coordinate-ordering will. So in addition to the first few reads, the bam file headers would be useful as they should indicate the sorting method.

Also, sam files have various compression levels, so even two files with identical contents and sort order could be drastically different sizes.
Brian Bushnell is offline   Reply With Quote
Old 10-29-2014, 04:54 PM   #6
newbird
Junior Member
 
Location: Tennessee, USA

Join Date: Oct 2014
Posts: 8
Default

Hi Richard and Brian,

Please find below a few lines from the two bam files. I think both the bam files were sorted based on coordinate.

Thanks for your reply.


Vendor provided bam:
----------------------------
@HD VN:1.0 GO:none SO:coordinate
@SQ SN:1 LN:249250621
@SQ SN:2 LN:243199373
@SQ SN:3 LN:198022430
@SQ SN:4 LN:191154276
@SQ SN:5 LN:180915260
@SQ SN:6 LN:171115067
@SQ SN:7 LN:159138663
@SQ SN:8 LN:146364022
@SQ SN:9 LN:141213431
@SQ SN:10 LN:135534747
@SQ SN:11 LN:135006516
@SQ SN:12 LN:133851895
@SQ SN:13 LN:115169878
@SQ SN:14 LN:107349540
@SQ SN:15 LN:102531392
@SQ SN:16 LN:90354753
@SQ SN:17 LN:81195210
@SQ SN:18 LN:78077248
@SQ SN:19 LN:59128983
@SQ SN:20 LN:63025520
@SQ SN:21 LN:48129895
@SQ SN:22 LN:51304566
@SQ SN:X LN:155270560
@SQ SN:Y LN:59373566
@SQ SN:MT LN:16569
@SQ SN:GL000207.1 LN:4262
@SQ SN:GL000226.1 LN:15008
@SQ SN:GL000229.1 LN:19913
@SQ SN:GL000231.1 LN:27386
@SQ SN:GL000210.1 LN:27682
@SQ SN:GL000239.1 LN:33824
@SQ SN:GL000235.1 LN:34474
@SQ SN:GL000201.1 LN:36148
@SQ SN:GL000247.1 LN:36422
@SQ SN:GL000245.1 LN:36651
@SQ SN:GL000197.1 LN:37175
@SQ SN:GL000203.1 LN:37498
@SQ SN:GL000246.1 LN:38154
@SQ SN:GL000249.1 LN:38502
@SQ SN:GL000196.1 LN:38914
@SQ SN:GL000248.1 LN:39786
@SQ SN:GL000244.1 LN:39929
@SQ SN:GL000238.1 LN:39939
@SQ SN:GL000202.1 LN:40103
@SQ SN:GL000234.1 LN:40531
@SQ SN:GL000232.1 LN:40652
@SQ SN:GL000206.1 LN:41001
@SQ SN:GL000240.1 LN:41933
@SQ SN:GL000236.1 LN:41934
@SQ SN:GL000241.1 LN:42152
@SQ SN:GL000243.1 LN:43341
@SQ SN:GL000242.1 LN:43523
@SQ SN:GL000230.1 LN:43691
@SQ SN:GL000237.1 LN:45867
@SQ SN:GL000233.1 LN:45941
@SQ SN:GL000204.1 LN:81310
@SQ SN:GL000198.1 LN:90085
@SQ SN:GL000208.1 LN:92689
@SQ SN:GL000191.1 LN:106433
@SQ SN:GL000227.1 LN:128374
@SQ SN:GL000228.1 LN:129120
@SQ SN:GL000214.1 LN:137718
@SQ SN:GL000221.1 LN:155397
@SQ SN:GL000209.1 LN:159169
@SQ SN:GL000218.1 LN:161147
@SQ SN:GL000220.1 LN:161802
@SQ SN:GL000213.1 LN:164239
@SQ SN:GL000211.1 LN:166566
@SQ SN:GL000199.1 LN:169874
@SQ SN:GL000217.1 LN:172149
@SQ SN:GL000216.1 LN:172294
@SQ SN:GL000215.1 LN:172545
@SQ SN:GL000205.1 LN:174588
@SQ SN:GL000219.1 LN:179198
@SQ SN:GL000224.1 LN:179693
@SQ SN:GL000223.1 LN:180455
@SQ SN:GL000195.1 LN:182896
@SQ SN:GL000212.1 LN:186858
@SQ SN:GL000222.1 LN:186861
@SQ SN:GL000200.1 LN:187035
@SQ SN:GL000193.1 LN:189789
@SQ SN:GL000194.1 LN:191469
@SQ SN:GL000225.1 LN:211173
@SQ SN:GL000192.1 LN:547496
@SQ SN:NC_007605 LN:171823
@SQ SN:hs37d5 LN:35477943
@RG ID:XXXXXXXXX_1 PL:ILLUMINA PU:XXXXXXXXX_1_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-12T10:00:00-0400 SM:1111@1111 CN:CIDR
@RG ID:XXXXXXXXX_2 PL:ILLUMINA PU:XXXXXXXXX_2_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-12T10:00:00-0400 SM:1111@1111 CN:CIDR
@PG ID:GATK IndelRealigner VN:2.3-9-ge5ebf34 CL:knownAlleles=[] targetIntervals=/LOCAL_REALIGNMENT_INTERVALS.intervals LODThresholdForCleaning=5.0 consensusDeterminationModel=USE_READS entropyThreshold=0.15 maxReadsInMemory=150000 maxIsizeForMovement=3000 maxPositionalMoveAllowed=200 maxConsensuses=30 maxReadsForConsensuses=120 maxReadsForRealignment=20000 noOriginalAlignmentTags=false nWayOut=null generate_nWayOut_md5s=false check_early=false noPGTag=false keepPGTags=false indelsFileForDebugging=null statisticsFileForDebugging=null SNPsFileForDebugging=null
@PG ID:bwa PN:bwa VN:0.5.10-tpx
42CIDR3AAAAAAAA:2:2207:15922:64042 163 1 10001 0 100M = 10031 130 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC A??BBCEBDDCBDBBCBBDBCCBBDBCDBBDCCDBBDCCDBCECCDDCEBDDDDECDEAA/ACEDEF=DBAEF?>ECF?>>:A=DC?CAA3>?3=<@=A@ X0:i:333 BD:Z:MMMNOKNMLMMIMLKMMILLKMMIMMLMNJMMLNNJNNLNNJNNMNNJNNMNOKNNMNOKNNMNOKNNMNOKNNMOOKOOMOOKOONOPKOONOPMNNMN MD:Z:100 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OONPPLPOMOOKOOLNOKOOMOPKPOMOPLPPMPPLQPMPQLQPNPQLQPNPQMQQNPQMQQNQRMQQOQRMRQOQRMRQOQRNRQNPOIMMKOQNQPNP AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:20 OQ:Z:CCCFFFFFHHHGHIJJJIIJJJJJGIJJJIGIJJJJGIIIJHFHIJFIEGHGCFCGEE@@(=AEEFD@CABCE??ABD=?<9<<AC??AB1??288<CC@ XT:A:R
42CIDR3AAAAAAAA:1:1103:9373:33751 163 1 10003 5 70M1I23M6S = 10352 437 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTTAACCCTAAACCTAACCCTAACCCTAAGC AA=ACBCDBCDCCCBBDBBCBBDBCCBBDBCCBCDCCDCCDBCDCCDCCDCCDCDDCCABCDDD;?D<BCC7>DECCD@E)=4=;9,8>DBAB####### XA:Z:hs37d5,+6743813,100M,3;5,+11515,100M,3; XC:i:94 BD:Z:MMNJONLMMIMLKMMILLKMMIMMLMMJMMLMNJMMLNNJMMLNNJNNLNOKNNMNOKNNMNOKNNMOOKNMMMOOKOOMFOOOONOOLOOMONOOMMMM MD:Z:79C13 RG:Z:XXXXXXXXX_1 XG:i:1 BI:Z:OOQLPOMOOKOOLNOKOOLOOKPOLOPLPOMPPLPPMPQLQPNPQLQPNQQMQPNQQMQQNQQMQQNQQMQQPORRNRQOIQRRQOQPKNMJNNPQOOOO AM:i:5 NM:i:2 SM:i:5 XM:i:1 XO:i:1 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@NFH@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:5 OQ:Z:B@@FFFFFGHHHHJJIIJJIJIIJJJJJJJJGJIIIJDHIGGIEHIDHGGHGEHIGGG@DAAEH9@C;@A@3>CCAB??C(:35:5(59?C?A####### XT:A:M
42CIDR3AAAAAAAA:2:2204:8073:66152 163 1 10006 0 86M14S = 10016 110 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAAACCTAACCTTAA AB<AC3DD@BCCCDBBCBADBCCCBDBCC@CB@CDBCA@@7@DDADDDCECCADDA@DDDEEBE=ACCBDBBBD=C?7<>@(>9B############### X0:i:1 X1:i:360 XC:i:86 BD:Z:MMNMOOJMMLMMILLKMMILLKMMIMMLMNJMMLNNJNNLNNJNNMNNJNNMNOKNNMNOKNNMNOKNNMNOKNNMOOKOOMOOKNNNNNNNNNOOMMMM MD:Z:85T0 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOPNPPKPOLNOKOOLOOKOOMOPKPOMPQLPPMPQLQPNPQLQPNPQMQPNPQMQPNPQMQQNQRMQQOQRMRQOQRMRQOQRMPPONLLLMOPQOOOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:18 OQ:Z:@@@FD8DFDFFHHGGIFDEHHHEHIGIHE?C?CFDGH>BB2BFGEHIFGIII=FF;@EAHC?EE6@BBCCAAAA??;;=<A(99A############### XT:A:U
42CIDR3AAAAAAAA:1:1210:3411:46167 99 1 10008 0 99M1S = 10180 214 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACC AA>ABDABDCCCBBCB@BBBCBBCA:CBCDBBDCBDBBCBDEC@DC@CCCDC@ECCDDCEA@<B?BABDA6>A9><9?ACDB?ABE>BBA=?*4<A<=## X0:i:336 XC:i:99 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOKNNMOOKOOMOOLOOMFOPPNLMM MD:Z:92C6 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSOSSPSSOSSPQQKNLJGQSUPNOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@@<DDDDDHFHGHIFHBEHIJIIGGDGGFGGGFFEHHIJIDEHBGH==FGHG@GGIJEGAA;;A;;@@?>6;@3;;5;A??<9<CC9AB8<9(39?C@## XT:A:R
42CIDR3AAAAAAAA:1:1216:18376:18644 161 1 10010 0 100M hs37d5 6743522 0 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAACCCTAACCCA A?=B?CEDCEBCDBBDBBCBBDBCCBCEBC?CBDCCDBC>>CDAC8BCEC6=?CCDD7>=AAA6?D=;*0(A*(1>?EE@CEC7=6:.+9B>@???A>># X0:i:1 X1:i:335 BD:Z:MMJNOMNNJMMKMMILLKMMIMMKMMJMMLMNJMMLNNJNMLNNJNNMNNKNNMNNKNNMNOKNNMNOKNNMOOKONMOOKOONOPLPOFOOLOPONNJM MD:Z:87T12 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOLQPMOOKOOLOOJOOLOOKOOMOPKPOMPPLPPNPPLQPMPQLQPNQQMQPNQQMQQNQQMQQNQRMQQOQRNRQOQRMRQOQRMQMFMMJPQOPQLO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ OQ:Z:@@@FDFDFHHGHHIIIIIIIIGJIIIEHIG@HGGIIGII?BFGBG9FFDH26@D@FH2@7=>?2@D;;(((;((,;=CB<ABD3955((2<8<8C?B?B# XT:A:U
42CIDR3AAAAAAAA:1:2206:1844:57150 99 1 10011 0 97M3S = 10180 211 CCTAACCCTGACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACCCTAACCCTAACCCTA @=?>?CADE,:BB??=?ABBCBBCB:>B@CBCBAAB@BDCBD>;C@@=>)?4A,*(9@-+77:ACDB<D?A@??BBC(@?EBD3C=DA?CAAB=?@#### X0:i:340 XC:i:97 BD:Z:MMNNNOOKNOOOMIMLKLMILLKMMIMMKMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNNJNNLNOKNNMNOKNNMFOOONMOOKOONOOKOONPMMMM MD:Z:9A67C19 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOQPNPPLPRQQPLPOMPPLPPMPQLQPNQQMQQNQQMQQOQRMQQORRNRRORRNRRORRNRRORSNSRPRSOSSPKSSSSPSSNRPLMMIOQPTOOOO AM:i:0 NM:i:2 SM:i:0 XM:i:2 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:;=:BBABDH22ADC;?@DFHFHGICE?F@EGHAEDBBHGIDG@8??;9=(83=(((.=)(..6AA?B;@;@>;;=C=(>;ACC,?9?C9?<<??<B#### XT:A:R
42CIDR3AAAAAAAA:1:1110:20282:75910 99 1 10013 0 85M15S = 10182 217 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCGCAAC <<>BBBD@CDCCDABCBBDBBCBADABCBBDBCDCBDBCDCCDCCCDC>ADDCEE1BFCDFB*+;:><B9?B0;:?9>73?DCC################ X0:i:360 XC:i:85 BD:Z:MMLNPKNNLMNJMLKMMILLKLMIMLKMMJMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNNKNNMNOKNNMNOKNNMOOKNNNNNNNNNNOOMMMM MD:Z:85 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OONPQLPPMPPLPPMPPLPPMPPLQPNQQMQQNQQMQQOQRMRQNQRMRQORRNRQORRNRRORSNSRPRSNSRPSSOSRPSSORQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:=<<BDADDFHHHHGGIIIIIIIIGIIIGIIIIFIHGCHGGIIGIICDC;=FHGDG3@DAHEC)(666;B2>A(55=5=2,9ABA################ XT:A:R
42CIDR3AAAAAAAA:2:2115:17014:80060 99 1 10015 0 91M9S = 10179 217 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC AA@BC@BDCBCBCBBBCACCBBCABCBBDABDCBDBC=BBDBCCCDEAC7A?C@EDC/=BA5;9C<@>B:C?7<>AD@E,<?B;AA<<@@########## X0:i:349 XC:i:91 BD:Z:MMNJOOMNNJMMLMMIMLKMMIMMKMMIMMLMNJMMLMNJMMLMNJMMLNNJMMLNNOONMNNJNNMNOKNNMNOKNNMOOKONMOOKOONNNNOOMMMM MD:Z:57C33 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOQLQQNPPLPPMPPKPOMPPLPPNPQLQPNQQMQQNQQMQQOQRMRQOQRNRQOQRSSQORSNRRORSOSRPRSOSRPSSOSSPSSMOMLLNPQSOOOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@@CFFADDHGGHHFHEGGHHFHGGGIHGGGGHHIJIGEGIGIJGCFDCF2B@@=FCG)7D@.76=;;;?2>>.6;===C(9<<9<<999A########## XT:A:R
42CIDR3AAAAAAAA:2:2204:8073:66152 83 1 10016 18 100M = 10006 -110 CCCTAACCCTATCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTA 86=9;<@A>48-C>C;>DFFEBECDEEBDCDBDABCEEGBDCDDD?DCDDEBABDCD?A@BCBB@<CCB>@ACCEA@>ABD>@ABCD?BACCD@BCA?<A X0:i:1 X1:i:3 XA:Z:12,+95588,100M,3;12,+95624,100M,3;1,-10010,100M,3; BD:Z:KOOLPQLPPNONLPPMNOKOOMNOKOOMNOKOOLMOKOOLMNJOOLMNJNOLMNJNNLMNJNNLMNJNNKLNINNKLMIMMKLMINNKLNJOOOPLOOMM MD:Z:11A81A6 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:MPPPSTMNMLMOMRSRSTORSRRTORRRRTORRQQSNRRQQSNQQQQSNQQQQSNQQPQRNPQPPRMPQPPRMPPPOQLOPOOQLOOOOQLOPPRMPPOO AM:i:0 NM:i:2 SM:i:18 XM:i:2 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:238<23AA9+3(?9?99>DDBBA;BCBBA@A>A?B>FFFEA=GHC@FFHHHFB=FCDB?9GGHFB?GEDADFGHHFC9CGFCCCBHGBFFDFDDDFD?;@ XT:A:U
42CIDR3AAAAAAAA:2:1216:14599:23267 99 1 10017 0 88M12S = 10182 209 CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA A@?:A4>CBB>CCBCBB>>CB;:ACACBB>@ACA7DB@D7CDC*B*@CADDCCE=AF@@ED=D@B@8>D4+6*8D>8?>@EABDCBE############# X0:i:351 XC:i:88 BD:Z:MMNNNOOKNMLMMIMMKMMILLKMMIMMLMMJMMLMNJMMLNNJMMLNNJNMLNNJNNLNNJNNMNOKNNMOOKNNMNOKNOMOOKONNNNNNNOOMMMM MD:Z:88 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOQPNPQLPPMPPLPOMOPLPPMPQLQPNPQMQQNQQMQQNQRMRQOQRNRQOQRNRQORRNSRORSNRRPRSOSSPRSOSSPSTOSPNLLLNPQSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:<?<;D3ADAFABFIIIG@@FB?9CHGGIG@?CDFGHH;FHI(?)BB=FBFGF;=D@>EE;==@96;@3(.(5=;3;;<????BB@############# XT:A:R
42CIDR3AAAAAAAA:1:1113:1479:44698 99 1 10020 0 84M16S = 10182 209 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCAAACC A@?ABEABDCCCBBCBB@A@CBCBBACBBDBCCBBDBADBCDCBEC@ECDDCDC@>FEAEA@B;CC9BCCB1?C@BC@;EFFC################# X0:i:362 XC:i:84 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOKNNMOOKNNNNNNNNNNNOOMMMM MD:Z:84 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSOSSPSSORRQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@<?DDBDDHHHGHIHGGBGDHHHEHIIEGIIICIIIIEGGFFICDE@FFHIIC@@=DC=C?>A9?>7@@AA.;?=AB=;CBDB################# XT:A:R
42CIDR3AAAAAAAA:1:2115:17575:25773 99 1 10020 0 83M17S = 10186 204 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACC @??A@D9BDBCDBB?@BBAB>BBCA>AA@DBADCB8<:>C@C4<CDC8=CE>D8@CADEDBD<B>@>BGB<-;<@BC=;??C################## X0:i:365 XC:i:83 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOKNNMOONNNNNNNNNNNNOOMMMM MD:Z:83 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSOSSPSSRRRQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:??=DBD;DDDFHHI?BEEGEAGIGEGCA?EFCDDE3:?AB98BFG2==F;F2@F>ED@CH;A96;@D@;(65=AB9;99?################## XT:A:R
42CIDR3AAAAAAAA:2:2105:10920:6269 99 1 10025 5 100M = 10181 194 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTAACCCTAACC A??@CBD@CDCBDB:CAADBBCBBDBAAAAD?CDBBDA=BCCEA>=?AC?@A8@@A-@EDEB=CAB@A?C=CAA8C+?A:>CBCB;><?B:8??>@8=>> X0:i:1 X1:i:2 XA:Z:12,-95579,100M,2;1,+10019,100M,2; BD:Z:MMMNPLNNLMNJMMKMMILLKMMIMMKMMIMMLMNJMMLMNJMMLNNJMMLNNJNNLNNJNNMNNKNNMNOKNNMOOKNNMOOKOOPOKONMOPLPNMNN MD:Z:84A15 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OONPQMQPMPPLPPMOPLPPMPQLQPNPQMQQNQQMQQNQRMRQOQRMRQOQRNRQOQRNRRPRRNRRORSOSRPSSOSSPSTOSSRQKNLJNQNTPNPQ AM:i:5 NM:i:1 SM:i:5 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:5 OQ:Z:?@@ADADDHHHGHH?FDGIIGIGIIIEBACGEHIIIIIBFCFHC>;@==@B@2@;C)=DECE7A@?;B;@;A;?3?(;;59???<999<>93<BB89A?? XT:A:U
42CIDR3AAAAAAAA:2:1116:10796:26835 99 1 10030 0 76M24S = 10186 204 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA ?B<>CD?BAA?CCC?BCBBCBBC=AD<@@<@9@BCBBCBCD>@DB@E)7C:A=DDDBDDC<E>EA@CD:A8=*@A######################### X0:i:380 XC:i:76 BD:Z:MMNMPOKNNLMNIMMKMMILLKMMIMMKMMIMMLMNJMMLMNJMMLNNJNNLNNJNNLNNJNNMNOKNNMNOKNNMMMMMMNNNNNNNNNNNNNOOMMMM MD:Z:76 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOPNQQLPPMPPKPPMOPLPPMPQLQPNQQMQQNPQMQQOQRMRQOQRNRQOQRNRQOQRNRRORSNRRPRSNSRRQRRRRRRRRRQPNLLLNPQSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z::???DDBBFDAHFGEHIIEGHIIAGHBC???8CGHHGIHID>BFF>D(.=8@;CCAEHII9A>E>@??7>2;(5?######################### XT:A:R
42CIDR3AAAAAAAA:2:2207:15922:64042 83 1 10031 20 100M = 10001 -130 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTAACCCTAACCCTAACC <=>>@A;?3BECABDDECBDBFEE@CDFBCABCEEF@DCEDEBCBCDB9A9CDE?CACCE>B9CCD<B0CDEAA=DBC;ABBDAB>CCEABADDE??>@A X0:i:1 X1:i:2 XA:Z:1,-10025,100M,2;12,+95573,100M,2; BD:Z:LMOKQQNNPKPPMNPKOPMNOKOOMNOKOOLMOKOOLMOKOOLMNJNNLMNJNNLMNJNNLMNJNNKLNJNNKLMINNMMIMMKLMINNKMNKOPNMOMM MD:Z:78A21 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:PPRMSRPNNIMOPRTOSSRRTORRRRTORRRQSNRRQRSNQQQQSNQQQQSNQQQQSNQQPPRMPPPPRMPQPPRMPPPQLOOOOQLOPOOQLPPPPROO AM:i:0 NM:i:1 SM:i:20 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:BB?BCB<8(?C?BBABC?AACA=B?D@AA>;FFD@C=FHGEA@IG@6=.GCH?HBIGGDGBIHF@C1IHHGE:HFC?AJIIGFCIHHFFDFDDDDBBB XT:A:U
42CIDR3AAAAAAAA:1:1214:14283:83035 99 1 10032 0 77M23S = 10188 200 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCGAACC AA@ABDABDBCDBCCBBB?ACBBBA@CBCDBCDCCD@BDBCD@@BADC@CADCECCDCDECEB??BB>7?>DBCCB######################## X0:i:379 XC:i:77 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOMNMNNNNNNNNNNNNNNNOOMMMM MD:Z:77 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSRRRRRRRRRQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@CCDDADDDDFHHJGFHEACHFEFGHGEHIFHGCFHCHHGGDD>?BF@BF>FGEGGGGCEEEA>;;C;.;=AC??A######################## XT:A:R
42CIDR3AAAAAAAA:1:2102:4550:53115 99 1 10034 37 86M14S = 10171 183 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAACCCTAACCCAACCCTAACCCTAACCCAAACCCTA AB?BABDDCDBCCABDBBCBBDBBCABDBBDBCDBCCBBDCACCCCB@CDAAC@EB9/@>DD6-A>CB?A==DC);*1;?:;CAD############### X0:i:1 X1:i:0 XC:i:86 BD:Z:MMJNOMONJMMLMMIMLKLMILLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNNJONFNOKNNMNOKONOOKONMOONNNNNNNNNOOMMMM MD:Z:63T22 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOLQPNPPLPPMOPLPPMPPLPPMPQLQPNQRMQQNQQMRQOQRMRQORRMRRORRNRRORRNSPJRSNSRPRSOTQSSOSSPSSQPPNLLLNPRSOOOO AM:i:0 NM:i:1 SM:i:37 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:23 OQ:Z:CCCFFDFFHHHHGGIIJJIJJJJJIIJJJGHIEHJJJJGEHAEHHBFBCHB;F;FG2(=7AE2(;6?B;6>;?A(5(,;;29?<A############### XT:A:U
42CIDR3AAAAAAAA:2:1112:11042:46898 99 1 10038 15 100M = 10159 204 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCC AA?BCE@CCCBDABCBBABBCABDBBCBBBB@CCBDB>CBCA@CDDBC@@DCEBDDDDCECAADBCBEECFEDGFF0;CDFDAAEE@CB@>4><8:=<<= X0:i:1 X1:i:1 XA:Z:15,-102521267,100M,1; BD:Z:MMNNLONMNNJMMKMMILLKMMIMMKMMIMMLMNJMMLMNJMMLNNJMMLNNJMMLNNJNNMNNKNNMNOKONNOKNNMOOKONMOOKOOMOOLPPMNNJ MD:Z:100 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPQLPPNPQMQQNPQMQQNQRMRQOQRMRQOQRNRQOQRNRRORRNRRORSOTQRSOSRPSSOSSPSSMOMJMOMSTNPQL AM:i:15 NM:i:0 SM:i:15 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:15 OQ:Z:@@@FDBDFFHGFGJIHGBHGIGEHHIJIICFCGCGIGGGII>DGHFG==BFHD@FEIHIAHB=EB@DEFADDCDDD(9AADA9?CB<A<A91<81<?<<B XT:A:U
42CIDR3AAAAAAAA:2:1205:10335:75509 73 1 10040 0 70M30S = 10040 0 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAATCCTAACCCTAACCCAAACCCTAACCCTAACCCTAACCCTAACCCT ?>.@*B>CCDABCA0CABCC=CAACBBA@BCC@B;?A>BB8@+:@/?@DEA9@D-B60;DED;D4AD8B############################### X0:i:2 X1:i:398 XC:i:70 BD:Z:MMJNONOOJMMLMMIMMKMMIMLKMMIMMLMMJMMLMNJMMLMNJMMLNNJNMLMONNNLNNJNNMNOKMMMMMMMMMMMMNNNNNNNNNNNNNOOMMMM MD:Z:54C15 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOLQQNPPLPPMOPLPOMPPLPPMPQLQQNPQMQPNQQMRQOQRMRQOQRNRQORRQRQORRNRRORSNRRRQRRRQRRRRRRRRRQPNLLLNPQSOOOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ OQ:Z::=+=+=ADFFFDBA3CFFFE@EFFCEFCEFFF?D@B?GFE9B)9?(?BBCB2@F)=4)7CEE9A3??2?############################### XT:A:R




My bam
------------
@HD VN:1.4 GO:none SO:coordinate
@SQ SN:chr1 LN:249250621
@SQ SN:chr2 LN:243199373
@SQ SN:chr3 LN:198022430
@SQ SN:chr4 LN:191154276
@SQ SN:chr5 LN:180915260
@SQ SN:chr6 LN:171115067
@SQ SN:chr7 LN:159138663
@SQ SN:chr8 LN:146364022
@SQ SN:chr9 LN:141213431
@SQ SN:chr10 LN:135534747
@SQ SN:chr11 LN:135006516
@SQ SN:chr12 LN:133851895
@SQ SN:chr13 LN:115169878
@SQ SN:chr14 LN:107349540
@SQ SN:chr15 LN:102531392
@SQ SN:chr16 LN:90354753
@SQ SN:chr17 LN:81195210
@SQ SN:chr18 LN:78077248
@SQ SN:chr19 LN:59128983
@SQ SN:chr20 LN:63025520
@SQ SN:chr21 LN:48129895
@SQ SN:chr22 LN:51304566
@SQ SN:chrX LN:155270560
@SQ SN:chrY LN:59373566
@SQ SN:chrM LN:16571
@RG ID:XXXXXXXXX_1 PL:ILLUMINA PU:XXXXXXXXX_1_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-27T19:00:00-0500 SM:1111@1111 CN:CIDR
@RG ID:XXXXXXXXX_2 PL:ILLUMINA PU:XXXXXXXXX_2_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-27T19:00:00-0500 SM:1111@1111 CN:CIDR
@PG ID:bwa PN:bwa VN:0.5.9-r16
@PG ID:GATK IndelRealigner CL:knownAlleles=[] targetIntervals=1111@1111.intervals LODThresholdForCleaning=5.0 consensusDeterminationModel=USE_READS entropyThreshold=0.15 maxReadsInMemory=150000 maxIsizeForMovement=3000 maxPositionalMoveAllowed=200 maxConsensuses=30 maxReadsForConsensuses=120 maxReadsForRealignment=20000 noOriginalAlignmentTags=false nWayOut=null generate_nWayOut_md5s=false check_early=false noPGTag=false keepPGTags=false indelsFileForDebugging=null statisticsFileForDebugging=null SNPsFileForDebugging=null
@PG ID:MarkDuplicates PN:MarkDuplicates VN:1.123(286a232caea2fdc8fdd88574c09c460b46386fff_1413818736) CLicard.sam.markduplicates.MarkDuplicates INPUT/xxx/xxx/xxx/1111@1111.FM.bam] OUTPUT=1111@1111.FM_DUP.bam METRICS_FILE=1111@1111.FM_DUP.Picard_Dup_Metrics.txt VALIDATION_STRINGENCY=SILENT MAX_SEQUENCES_FOR_DISK_READ_ENDS_MAP=50000 MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000 SORTING_COLLECTION_SIZE_RATIO=0.25 PROGRAM_RECORD_ID=MarkDuplicates PROGRAM_GROUP_NAME=MarkDuplicates REMOVE_DUPLICATES=false ASSUME_SORTED=false DUPLICATE_SCORING_STRATEGY=SUM_OF_BASE_QUALITIES READ_NAME_REGEX=[a-zA-Z0-9]+:[0-9][0-9]+)[0-9]+)[0-9]+).* OPTICAL_DUPLICATE_PIXEL_DISTANCE=100 VERBOSITY=INFO QUIET=false COMPRESSION_LEVEL=5 MAX_RECORDS_IN_RAM=500000 CREATE_INDEX=false CREATE_MD5_FILE=false
42CIDR3AAAAAAAA:2:2207:15922:64042 163 chr1 10001 0 100M = 10031 130 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC A??BBCEBDDCBDBBCBBDBCCBBDBCDBBDCCDBBDCCDBCECCDDCEBDDDDECDEAA/ACEDEF=DBAEF?>ECF?>>:A=DC?CAA3>?3=<@=A@ X0:i:361 MC:Z:100M MD:Z:100 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:20 XT:A:R
42CIDR3AAAAAAAA:1:1103:9373:33751 163 chr1 10003 2 70M1I23M6S = 10352 437 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTTAACCCTAAACCTAACCCTAACCCTAAGC AA=ACBCDBCDCCCBBDBBCBBDBCCBBDBCCBCDCCDCCDBCDCCDCCDCCDCDDCCABCDDD;?D<BCC7>DECCD@E)=4=;9,8>DBAB####### XA:Z:chr5,+11515,100M,3; MC:Z:12S88M XC:i:94 MD:Z:79C13 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:1 AM:i:2 NM:i:2 SM:i:2 XM:i:1 XO:i:1 MQ:i:2 XT:A:M
42CIDR3AAAAAAAA:1:2211:14663:16412 1097 chr1 10003 0 100M = 10003 0 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC A@>BBABDCCDBC=>BDBBCBBDBB;CBDBBCBBDBCCCBDBCDCCBACDCDECCDCCDBDEDD@?AEFF?@CE@BB?DEFC0:CECBCACCBA;9<>=? X0:i:363 MD:Z:100 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 XT:A:R
42CIDR3AAAAAAAA:1:2211:14663:16412 133 chr1 10003 0 * = 10003 0 GGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGT @@>=@C9<C=AC>B@=A??C9@?C=BD8AA:CCA@D>DB3=A?BDAB:4??>@><BAA9>8>C=AADBC22<=CC8>=C&7@B:?CDDC4@CB16':>?# MC:Z:100M PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1
42CIDR3AAAAAAAA:2:1112:16852:66959 1123 chr1 10003 17 94M6S = 10381 437 ACCCTAACCCTAACCCTAACCCTAACCCTTACCCTTACCCGAACCCGAACCCGAACCCGAACCCGAACCCGAACCCGAACCCTAACCCTAACCCGAACCC AA=B=A?DCCDBCCAACBBCBBCBCCABCBBCCBC@B:BB?ACDCC@A@DDD@CCF@B>BAFFF4>AB6>9@AC@B:>@>?704>D@BE;@@>?###### MC:Z:41S59M XC:i:95 MD:Z:29A5A4T5T5T5T5T5T5T17 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:17 NM:i:9 SM:i:17 XM:i:9 XO:i:0 MQ:i:17 XT:A:M
42CIDR3AAAAAAAA:2:2204:8073:66152 163 chr1 10006 0 86M14S = 10016 110 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAAACCTAACCTTAA AB<AC3DD@BCCCDBBCBADBCCCBDBCC@CB@CDBCA@@7@DDADDDCECCADDA@DDDEEBE=ACCBDBBBD=C?7<>@(>9B############### X0:i:1 X1:i:391 MC:Z:100M XC:i:86 MD:Z:85T0 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 MQ:i:18 XT:A:U
42CIDR3AAAAAAAA:1:1210:3411:46167 99 chr1 10008 0 99M1S = 10180 214 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACC AA>ABDABDCCCBBCB@BBBCBBCA:CBCDBBDCBDBBCBDEC@DC@CCCDC@ECCDDCEA@<B?BABDA6>A9><9?ACDB?ABE>BBA=?*4<A<=## X0:i:363 MC:Z:58S42M XC:i:99 MD:Z:92C6 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 MQ:i:0 XT:A:R
42CIDR3AAAAAAAA:2:2110:1650:22619 129 chr1 10008 0 93M7S chr7 100803991 0 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACC AA?ABDCCDCCDBCCBBDBCCBBDCCDBBDBCCBBD?BCDCEBCCCCDBDD@DEBDAEDFBEEAFFCCF??DBDCCB@9?A8;>8@)83==B######## X0:i:373 MC:Z:100M XC:i:93 MD:Z:93 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:37 XT:A:R
42CIDR3AAAAAAAA:2:2115:17014:80060 99 chr1 10009 0 91M9S = 10179 223 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC AA@BC@BDCBCBCBBBCACCBBCABCBBDABDCBDBC=BBDBCCCDEAC7A?C@EDC/=BA5;9C<@>B:C?7<>AD@E,<?B;AA<<@@########## X0:i:377 MC:Z:47S53M XC:i:91 MD:Z:57C33 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 MQ:i:0 XT:A:R
42CIDR3AAAAAAAA:1:1216:18376:18644 69 chr1 10010 0 * = 10010 0 GGGTTCGGGTTAGGGTTAGGGTTCGGGTTAGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTAGGGTTCGGGTTAGGGTTCGGGTTAGGGTTAGGGT A@>?@D@CDAB@D@BABBEBB=B1<?CBB?DBCBC.:ABBB.6BCAC.7<@?@.47@AC.8A?BC;CBDDD=?:&?8/1(8=@-:=>B@*<AA@>:?>>= MC:Z:100M PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1
42CIDR3AAAAAAAA:1:1216:18376:18644 137 chr1 10010 0 100M = 10010 0 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAACCCTAACCCA A?=B?CEDCEBCDBBDBBCBBDBCCBCEBC?CBDCCDBC>>CDAC8BCEC6=?CCDD7>=AAA6?D=;*0(A*(1>?EE@CEC7=6:.+9B>@???A>># X0:i:1 X1:i:364 MD:Z:87T12 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:U
42CIDR3AAAAAAAA:2:2111:19537:4530 117 chr1 10010 0 79M21S = 10010 0 TTCGGGTTAGGGTTAGGGTTCGGGTTAGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAG ######################CC@:A>=CB@*2877,0B;D@?(EAEBA1??6=C;BBCA;>BB;CBDC?CBBDBBCBBDBACBBDCCCACDDDCA=BA MC:Z:58S42M XC:i:79 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2
42CIDR3AAAAAAAA:2:2111:19537:4530 185 chr1 10010 0 58S42M = 10010 0 GTAACCCGAATACCAAGACGAACACGAACCCCAACCCCAACCCGCACCCGAACCCGATCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA ###########################################################CE?BACCDAAADCA:B@CBDAA?@CD@BAC?E>BACBB;AA X0:i:570 XC:i:42 MD:Z:42 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 XT:A:R
42CIDR3AAAAAAAA:1:2206:1844:57150 99 chr1 10011 0 97M3S = 10180 211 CCTAACCCTGACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACCCTAACCCTAACCCTA @=?>?CADE,:BB??=?ABBCBBCB:>B@CBCBAAB@BDCBD>;C@@=>)?4A,*(9@-+77:ACDB<D?A@??BBC(@?EBD3C=DA?CAAB=?@#### X0:i:370 MC:Z:58S42M XC:i:97 MD:Z:9A67C19 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:2 SM:i:0 XM:i:2 XO:i:0 MQ:i:0 XT:A:R
42CIDR3AAAAAAAA:1:1110:20282:75910 99 chr1 10013 0 85M15S = 10182 217 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCGCAAC <<>BBBD@CDCCDABCBBDBBCBADABCBBDBCDCBDBCDCCDCCCDC>ADDCEE1BFCDFB*+;:><B9?B0;:?9>73?DCC################ X0:i:391 MC:Z:52S48M XC:i:85 MD:Z:85 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:0 XT:A:R
42CIDR3AAAAAAAA:2:2204:8073:66152 83 chr1 10016 18 100M = 10006 -110 CCCTAACCCTATCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTA 86=9;<@A>48-C>C;>DFFEBECDEEBDCDBDABCEEGBDCDDD?DCDDEBABDCD?A@BCBB@<CCB>@ACCEA@>ABD>@ABCD?BACCD@BCA?<A X0:i:1 X1:i:3 XA:Z:chr12,+95588,100M,3;chr12,+95624,100M,3;chr1,-10010,100M,3; MC:Z:86M14S MD:Z:11A81A6 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:2 SM:i:18 XM:i:2 XO:i:0 MQ:i:0 XT:A:U
42CIDR3AAAAAAAA:2:1216:14599:23267 99 chr1 10017 0 88M12S = 10182 209 CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA A@?:A4>CBB>CCBCBB>>CB;:ACACBB>@ACA7DB@D7CDC*B*@CADDCCE=AF@@ED=D@B@8>D4+6*8D>8?>@EABDCBE############# X0:i:380 MC:Z:56S44M XC:i:88 MD:Z:88 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:0 XT:A:R
42CIDR3AAAAAAAA:2:1112:4118:66526 69 chr1 10019 0 99M1S = 10019 0 GGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTTAGGGTTAGGGTTAGGGTTAGGGTAGGGTT AA??CCDDDACDECBBCCEBBBDDCCCADDECCBCDEABADDECBBDDECCADDFDDBCEFDCCEDFEECDAFEFDCBGFFDCBCEC=A@DCB@=??>## MC:Z:96M4S XC:i:99 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2
42CIDR3AAAAAAAA:2:1112:4118:66526 137 chr1 10019 0 96M4S = 10019 0 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTAACC @?>BBCEBDDCCCBBCBBDBCCBBDBCDBBDCCDBBDCCDCCDCCDBBDCCDCBDCCDCCEBEEEEFBEEDFDBCGF>E>DGFBD<>DEAB@)7@##### X0:i:2 X1:i:372 XC:i:96 MD:Z:90A5 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:R
newbird is offline   Reply With Quote
Old 10-29-2014, 08:45 PM   #7
Brian Bushnell
Super Moderator
 
Location: Walnut Creek, CA

Join Date: Jan 2014
Posts: 2,707
Default

Oh. The first bam has a ton of optional fields that bloat the size. They don't look very useful to me, but it I'm sure it depends on the application.
Brian Bushnell is offline   Reply With Quote
Old 10-30-2014, 09:31 AM   #8
newbird
Junior Member
 
Location: Tennessee, USA

Join Date: Oct 2014
Posts: 8
Post

Hi Brian,
Thanks for your reply. BTW, can you please guide me how do I know which fields are required and which are optional in general?

Best regards,
Newbird
newbird is offline   Reply With Quote
Old 10-30-2014, 09:43 AM   #9
Brian Bushnell
Super Moderator
 
Location: Walnut Creek, CA

Join Date: Jan 2014
Posts: 2,707
Default

This is the sam format specification:
http://samtools.github.io/hts-specs/SAMv1.pdf

The first 11 columns are required. All the rest are optional. Section 1.5 lists the official optional tags, but the only ones that are commonly used (IMO) are AM, NH, NM, MD, RG, and SM. XM and XS are also common but custom fields with no official definition.

It is very bad practice for a program to require any optional fields, particularly custom ones. So, any well-written software will be able to process a sam file with no optional fields whatsoever, though the MD, NM, and NH are probably the most important and are necessary for some programs.

Last edited by Brian Bushnell; 10-30-2014 at 09:50 AM.
Brian Bushnell is offline   Reply With Quote
Old 10-30-2014, 10:06 AM   #10
newbird
Junior Member
 
Location: Tennessee, USA

Join Date: Oct 2014
Posts: 8
Default

Great help...Thanks...I am learning from you.
newbird is offline   Reply With Quote
Reply

Thread Tools

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off




All times are GMT -8. The time now is 02:33 PM.


Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2019, vBulletin Solutions, Inc.
Single Sign On provided by vBSSO