Seqanswers Leaderboard Ad

Collapse

Announcement

Collapse
No announcement yet.
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Vendor provided .Bam file size is much larger in size but # of reads are same

    Hi there!

    Recently I obtained .bam files processed by CIDRSeqSuite. One .bam file size is 15.2 GB (it is a Whole Exome Seq data). I performed the following steps:
    1. SamToFastq to convert .bam to FastQ file.
    2. bwa aln and bwa sampe
    3. MergeSamfiles and then sort it using samtools
    4. Used GATK for realign
    5. Used Picard for Fixmate and MarkDuplicate

    My question is the generated .bam file size is ~6.8 GB. I checked the mapping quality using SAMTOOLS FLAGSTATE. QC passed reads for the two .bam files are identical.

    Can anyone suggest me what is the reason for such a huge difference of two .bam files? For you kind information: the .bam file comprised of 4 read groups and after converting to .bam to FastQ, each FastQ file size is ~4 GB.

    I am very new in analyzing Whole Exome Sequence data. It is highly appreciated if anyone can help me to figure it out.

    Thanks.

  • #2
    Bam is a compressed format. The compression is more efficient when the file is sorted. So, a sorted bam is potentially much smaller than an unsorted bam.

    Comment


    • #3
      Hello Brian,

      I appreciate your prompt reply and willingness to help me. I can confirm that the .bam file sent by CIDRSeqSuite is already in sorted form. Even though it's size is 15.2 GB, while my .bam file, after converting to FastQ and followed subsequent analyses mentioned in my previous post, size is ~6.8 GB. I am afraid that I am doing something wrong.

      Best,
      Newbird

      Comment


      • #4
        Sorted by location?

        Can you use samtools view to post the first few aligned reads for each bam?

        How different are they?

        Comment


        • #5
          As Richard implied, there are various sort criteria in sam/bam - particularly, coordinate or name. Name-sorting will not help compression much, while coordinate-ordering will. So in addition to the first few reads, the bam file headers would be useful as they should indicate the sorting method.

          Also, sam files have various compression levels, so even two files with identical contents and sort order could be drastically different sizes.

          Comment


          • #6
            Hi Richard and Brian,

            Please find below a few lines from the two bam files. I think both the bam files were sorted based on coordinate.

            Thanks for your reply.


            Vendor provided bam:
            ----------------------------
            @HD VN:1.0 GO:none SO:coordinate
            @SQ SN:1 LN:249250621
            @SQ SN:2 LN:243199373
            @SQ SN:3 LN:198022430
            @SQ SN:4 LN:191154276
            @SQ SN:5 LN:180915260
            @SQ SN:6 LN:171115067
            @SQ SN:7 LN:159138663
            @SQ SN:8 LN:146364022
            @SQ SN:9 LN:141213431
            @SQ SN:10 LN:135534747
            @SQ SN:11 LN:135006516
            @SQ SN:12 LN:133851895
            @SQ SN:13 LN:115169878
            @SQ SN:14 LN:107349540
            @SQ SN:15 LN:102531392
            @SQ SN:16 LN:90354753
            @SQ SN:17 LN:81195210
            @SQ SN:18 LN:78077248
            @SQ SN:19 LN:59128983
            @SQ SN:20 LN:63025520
            @SQ SN:21 LN:48129895
            @SQ SN:22 LN:51304566
            @SQ SN:X LN:155270560
            @SQ SN:Y LN:59373566
            @SQ SN:MT LN:16569
            @SQ SN:GL000207.1 LN:4262
            @SQ SN:GL000226.1 LN:15008
            @SQ SN:GL000229.1 LN:19913
            @SQ SN:GL000231.1 LN:27386
            @SQ SN:GL000210.1 LN:27682
            @SQ SN:GL000239.1 LN:33824
            @SQ SN:GL000235.1 LN:34474
            @SQ SN:GL000201.1 LN:36148
            @SQ SN:GL000247.1 LN:36422
            @SQ SN:GL000245.1 LN:36651
            @SQ SN:GL000197.1 LN:37175
            @SQ SN:GL000203.1 LN:37498
            @SQ SN:GL000246.1 LN:38154
            @SQ SN:GL000249.1 LN:38502
            @SQ SN:GL000196.1 LN:38914
            @SQ SN:GL000248.1 LN:39786
            @SQ SN:GL000244.1 LN:39929
            @SQ SN:GL000238.1 LN:39939
            @SQ SN:GL000202.1 LN:40103
            @SQ SN:GL000234.1 LN:40531
            @SQ SN:GL000232.1 LN:40652
            @SQ SN:GL000206.1 LN:41001
            @SQ SN:GL000240.1 LN:41933
            @SQ SN:GL000236.1 LN:41934
            @SQ SN:GL000241.1 LN:42152
            @SQ SN:GL000243.1 LN:43341
            @SQ SN:GL000242.1 LN:43523
            @SQ SN:GL000230.1 LN:43691
            @SQ SN:GL000237.1 LN:45867
            @SQ SN:GL000233.1 LN:45941
            @SQ SN:GL000204.1 LN:81310
            @SQ SN:GL000198.1 LN:90085
            @SQ SN:GL000208.1 LN:92689
            @SQ SN:GL000191.1 LN:106433
            @SQ SN:GL000227.1 LN:128374
            @SQ SN:GL000228.1 LN:129120
            @SQ SN:GL000214.1 LN:137718
            @SQ SN:GL000221.1 LN:155397
            @SQ SN:GL000209.1 LN:159169
            @SQ SN:GL000218.1 LN:161147
            @SQ SN:GL000220.1 LN:161802
            @SQ SN:GL000213.1 LN:164239
            @SQ SN:GL000211.1 LN:166566
            @SQ SN:GL000199.1 LN:169874
            @SQ SN:GL000217.1 LN:172149
            @SQ SN:GL000216.1 LN:172294
            @SQ SN:GL000215.1 LN:172545
            @SQ SN:GL000205.1 LN:174588
            @SQ SN:GL000219.1 LN:179198
            @SQ SN:GL000224.1 LN:179693
            @SQ SN:GL000223.1 LN:180455
            @SQ SN:GL000195.1 LN:182896
            @SQ SN:GL000212.1 LN:186858
            @SQ SN:GL000222.1 LN:186861
            @SQ SN:GL000200.1 LN:187035
            @SQ SN:GL000193.1 LN:189789
            @SQ SN:GL000194.1 LN:191469
            @SQ SN:GL000225.1 LN:211173
            @SQ SN:GL000192.1 LN:547496
            @SQ SN:NC_007605 LN:171823
            @SQ SN:hs37d5 LN:35477943
            @RG ID:XXXXXXXXX_1 PL:ILLUMINA PU:XXXXXXXXX_1_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-12T10:00:00-0400 SM:1111@1111 CN:CIDR
            @RG ID:XXXXXXXXX_2 PL:ILLUMINA PU:XXXXXXXXX_2_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-12T10:00:00-0400 SM:1111@1111 CN:CIDR
            @PG ID:GATK IndelRealigner VN:2.3-9-ge5ebf34 CL:knownAlleles=[] targetIntervals=/LOCAL_REALIGNMENT_INTERVALS.intervals LODThresholdForCleaning=5.0 consensusDeterminationModel=USE_READS entropyThreshold=0.15 maxReadsInMemory=150000 maxIsizeForMovement=3000 maxPositionalMoveAllowed=200 maxConsensuses=30 maxReadsForConsensuses=120 maxReadsForRealignment=20000 noOriginalAlignmentTags=false nWayOut=null generate_nWayOut_md5s=false check_early=false noPGTag=false keepPGTags=false indelsFileForDebugging=null statisticsFileForDebugging=null SNPsFileForDebugging=null
            @PG ID:bwa PN:bwa VN:0.5.10-tpx
            42CIDR3AAAAAAAA:2:2207:15922:64042 163 1 10001 0 100M = 10031 130 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC A??BBCEBDDCBDBBCBBDBCCBBDBCDBBDCCDBBDCCDBCECCDDCEBDDDDECDEAA/ACEDEF=DBAEF?>ECF?>>:A=DC?CAA3>?3=<@=A@ X0:i:333 BD:Z:MMMNOKNMLMMIMLKMMILLKMMIMMLMNJMMLNNJNNLNNJNNMNNJNNMNOKNNMNOKNNMNOKNNMNOKNNMOOKOOMOOKOONOPKOONOPMNNMN MD:Z:100 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OONPPLPOMOOKOOLNOKOOMOPKPOMOPLPPMPPLQPMPQLQPNPQLQPNPQMQQNPQMQQNQRMQQOQRMRQOQRMRQOQRNRQNPOIMMKOQNQPNP AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:20 OQ:Z:CCCFFFFFHHHGHIJJJIIJJJJJGIJJJIGIJJJJGIIIJHFHIJFIEGHGCFCGEE@@(=AEEFD@CABCE??ABD=?<9<<AC??AB1??288<CC@ XT:A:R
            42CIDR3AAAAAAAA:1:1103:9373:33751 163 1 10003 5 70M1I23M6S = 10352 437 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTTAACCCTAAACCTAACCCTAACCCTAAGC AA=ACBCDBCDCCCBBDBBCBBDBCCBBDBCCBCDCCDCCDBCDCCDCCDCCDCDDCCABCDDD;?D<BCC7>DECCD@E)=4=;9,8>DBAB####### XA:Z:hs37d5,+6743813,100M,3;5,+11515,100M,3; XC:i:94 BD:Z:MMNJONLMMIMLKMMILLKMMIMMLMMJMMLMNJMMLNNJMMLNNJNNLNOKNNMNOKNNMNOKNNMOOKNMMMOOKOOMFOOOONOOLOOMONOOMMMM MD:Z:79C13 RG:Z:XXXXXXXXX_1 XG:i:1 BI:Z:OOQLPOMOOKOOLNOKOOLOOKPOLOPLPOMPPLPPMPQLQPNPQLQPNQQMQPNQQMQQNQQMQQNQQMQQPORRNRQOIQRRQOQPKNMJNNPQOOOO AM:i:5 NM:i:2 SM:i:5 XM:i:1 XO:i:1 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@NFH@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:5 OQ:Z:B@@FFFFFGHHHHJJIIJJIJIIJJJJJJJJGJIIIJDHIGGIEHIDHGGHGEHIGGG@DAAEH9@C;@A@3>CCAB??C(:35:5(59?C?A####### XT:A:M
            42CIDR3AAAAAAAA:2:2204:8073:66152 163 1 10006 0 86M14S = 10016 110 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAAACCTAACCTTAA AB<AC3DD@BCCCDBBCBADBCCCBDBCC@CB@CDBCA@@7@DDADDDCECCADDA@DDDEEBE=ACCBDBBBD=C?7<>@(>9B############### X0:i:1 X1:i:360 XC:i:86 BD:Z:MMNMOOJMMLMMILLKMMILLKMMIMMLMNJMMLNNJNNLNNJNNMNNJNNMNOKNNMNOKNNMNOKNNMNOKNNMOOKOOMOOKNNNNNNNNNOOMMMM MD:Z:85T0 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOPNPPKPOLNOKOOLOOKOOMOPKPOMPQLPPMPQLQPNPQLQPNPQMQPNPQMQPNPQMQQNQRMQQOQRMRQOQRMRQOQRMPPONLLLMOPQOOOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:18 OQ:Z:@@@FD8DFDFFHHGGIFDEHHHEHIGIHE?C?CFDGH>BB2BFGEHIFGIII=FF;@EAHC?EE6@BBCCAAAA??;;=<A(99A############### XT:A:U
            42CIDR3AAAAAAAA:1:1210:3411:46167 99 1 10008 0 99M1S = 10180 214 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACC AA>ABDABDCCCBBCB@BBBCBBCA:CBCDBBDCBDBBCBDEC@DC@CCCDC@ECCDDCEA@<B?BABDA6>A9><9?ACDB?ABE>BBA=?*4<A<=## X0:i:336 XC:i:99 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOKNNMOOKOOMOOLOOMFOPPNLMM MD:Z:92C6 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSOSSPSSOSSPQQKNLJGQSUPNOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@@<DDDDDHFHGHIFHBEHIJIIGGDGGFGGGFFEHHIJIDEHBGH==FGHG@GGIJEGAA;;A;;@@?>6;@3;;5;A??<9<CC9AB8<9(39?C@## XT:A:R
            42CIDR3AAAAAAAA:1:1216:18376:18644 161 1 10010 0 100M hs37d5 6743522 0 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAACCCTAACCCA A?=B?CEDCEBCDBBDBBCBBDBCCBCEBC?CBDCCDBC>>CDAC8BCEC6=?CCDD7>=AAA6?D=;*0(A*(1>?EE@CEC7=6:.+9B>@???A>># X0:i:1 X1:i:335 BD:Z:MMJNOMNNJMMKMMILLKMMIMMKMMJMMLMNJMMLNNJNMLNNJNNMNNKNNMNNKNNMNOKNNMNOKNNMOOKONMOOKOONOPLPOFOOLOPONNJM MD:Z:87T12 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOLQPMOOKOOLOOJOOLOOKOOMOPKPOMPPLPPNPPLQPMPQLQPNQQMQPNQQMQQNQQMQQNQRMQQOQRNRQOQRMRQOQRMQMFMMJPQOPQLO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ OQ:Z:@@@FDFDFHHGHHIIIIIIIIGJIIIEHIG@HGGIIGII?BFGBG9FFDH26@D@FH2@7=>?2@D;;(((;((,;=CB<ABD3955((2<8<8C?B?B# XT:A:U
            42CIDR3AAAAAAAA:1:2206:1844:57150 99 1 10011 0 97M3S = 10180 211 CCTAACCCTGACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACCCTAACCCTAACCCTA @=?>?CADE,:BB??=?ABBCBBCB:>B@CBCBAAB@BDCBD>;C@@=>)?4A,*(9@-+77:ACDB<D?A@??BBC(@?EBD3C=DA?CAAB=?@#### X0:i:340 XC:i:97 BD:Z:MMNNNOOKNOOOMIMLKLMILLKMMIMMKMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNNJNNLNOKNNMNOKNNMFOOONMOOKOONOOKOONPMMMM MD:Z:9A67C19 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOQPNPPLPRQQPLPOMPPLPPMPQLQPNQQMQQNQQMQQOQRMQQORRNRRORRNRRORRNRRORSNSRPRSOSSPKSSSSPSSNRPLMMIOQPTOOOO AM:i:0 NM:i:2 SM:i:0 XM:i:2 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:;=:BBABDH22ADC;?@DFHFHGICE?F@EGHAEDBBHGIDG@8??;9=(83=(((.=)(..6AA?B;@;@>;;=C=(>;ACC,?9?C9?<<??<B#### XT:A:R
            42CIDR3AAAAAAAA:1:1110:20282:75910 99 1 10013 0 85M15S = 10182 217 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCGCAAC <<>BBBD@CDCCDABCBBDBBCBADABCBBDBCDCBDBCDCCDCCCDC>ADDCEE1BFCDFB*+;:><B9?B0;:?9>73?DCC################ X0:i:360 XC:i:85 BD:Z:MMLNPKNNLMNJMLKMMILLKLMIMLKMMJMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNNKNNMNOKNNMNOKNNMOOKNNNNNNNNNNOOMMMM MD:Z:85 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OONPQLPPMPPLPPMPPLPPMPPLQPNQQMQQNQQMQQOQRMRQNQRMRQORRNRQORRNRRORSNSRPRSNSRPSSOSRPSSORQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:=<<BDADDFHHHHGGIIIIIIIIGIIIGIIIIFIHGCHGGIIGIICDC;=FHGDG3@DAHEC)(666;B2>A(55=5=2,9ABA################ XT:A:R
            42CIDR3AAAAAAAA:2:2115:17014:80060 99 1 10015 0 91M9S = 10179 217 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC AA@BC@BDCBCBCBBBCACCBBCABCBBDABDCBDBC=BBDBCCCDEAC7A?C@EDC/=BA5;9C<@>B:C?7<>AD@E,<?B;AA<<@@########## X0:i:349 XC:i:91 BD:Z:MMNJOOMNNJMMLMMIMLKMMIMMKMMIMMLMNJMMLMNJMMLMNJMMLNNJMMLNNOONMNNJNNMNOKNNMNOKNNMOOKONMOOKOONNNNOOMMMM MD:Z:57C33 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOQLQQNPPLPPMPPKPOMPPLPPNPQLQPNQQMQQNQQMQQOQRMRQOQRNRQOQRSSQORSNRRORSOSRPRSOSRPSSOSSPSSMOMLLNPQSOOOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@@CFFADDHGGHHFHEGGHHFHGGGIHGGGGHHIJIGEGIGIJGCFDCF2B@@=FCG)[email protected]=;;;?2>>.6;===C(9<<9<<999A########## XT:A:R
            42CIDR3AAAAAAAA:2:2204:8073:66152 83 1 10016 18 100M = 10006 -110 CCCTAACCCTATCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTA 86=9;<@A>48-C>C;>DFFEBECDEEBDCDBDABCEEGBDCDDD?DCDDEBABDCD?A@BCBB@<CCB>@ACCEA@>ABD>@ABCD?BACCD@BCA?<A X0:i:1 X1:i:3 XA:Z:12,+95588,100M,3;12,+95624,100M,3;1,-10010,100M,3; BD:Z:KOOLPQLPPNONLPPMNOKOOMNOKOOMNOKOOLMOKOOLMNJOOLMNJNOLMNJNNLMNJNNLMNJNNKLNINNKLMIMMKLMINNKLNJOOOPLOOMM MD:Z:11A81A6 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:MPPPSTMNMLMOMRSRSTORSRRTORRRRTORRQQSNRRQQSNQQQQSNQQQQSNQQPQRNPQPPRMPQPPRMPPPOQLOPOOQLOOOOQLOPPRMPPOO AM:i:0 NM:i:2 SM:i:18 XM:i:2 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:238<23AA9+3(?9?99>DDBBA;BCBBA@A>A?B>FFFEA=GHC@FFHHHFB=FCDB?9GGHFB?GEDADFGHHFC9CGFCCCBHGBFFDFDDDFD?;@ XT:A:U
            42CIDR3AAAAAAAA:2:1216:14599:23267 99 1 10017 0 88M12S = 10182 209 CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA A@?:A4>CBB>CCBCBB>>CB;:ACACBB>@ACA7DB@D7CDC*B*@CADDCCE=AF@@ED=D@B@8>D4+6*8D>8?>@EABDCBE############# X0:i:351 XC:i:88 BD:Z:MMNNNOOKNMLMMIMMKMMILLKMMIMMLMMJMMLMNJMMLNNJMMLNNJNMLNNJNNLNNJNNMNOKNNMOOKNNMNOKNOMOOKONNNNNNNOOMMMM MD:Z:88 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOQPNPQLPPMPPLPOMOPLPPMPQLQPNPQMQQNQQMQQNQRMRQOQRNRQOQRNRQORRNSRORSNRRPRSOSSPRSOSSPSTOSPNLLLNPQSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:<?<;D3ADAFABFIIIG@@FB?9CHGGIG@?CDFGHH;FHI(?)BB=FBFGF;=D@>EE;==@96;@3(.(5=;3;;<????BB@############# XT:A:R
            42CIDR3AAAAAAAA:1:1113:1479:44698 99 1 10020 0 84M16S = 10182 209 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCAAACC A@?ABEABDCCCBBCBB@A@CBCBBACBBDBCCBBDBADBCDCBEC@ECDDCDC@>FEAEA@B;CC9BCCB1?C@BC@;EFFC################# X0:i:362 XC:i:84 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOKNNMOOKNNNNNNNNNNNOOMMMM MD:Z:84 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSOSSPSSORRQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@<?DDBDDHHHGHIHGGBGDHHHEHIIEGIIICIIIIEGGFFICDE@FFHIIC@@=DC=C?>A9?>7@@AA.;?=AB=;CBDB################# XT:A:R
            42CIDR3AAAAAAAA:1:2115:17575:25773 99 1 10020 0 83M17S = 10186 204 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACC @??A@D9BDBCDBB?@BBAB>BBCA>AA@DBADCB8<:>C@C4<CDC8=CE>D8@CADEDBD<B>@>BGB<-;<@BC=;??C################## X0:i:365 XC:i:83 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOKNNMOONNNNNNNNNNNNOOMMMM MD:Z:83 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSOSSPSSRRRQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:??=DBD;DDDFHHI?BEEGEAGIGEGCA?EFCDDE3:?AB98BFG2==F;F2@F>ED@CH;A96;@D@;(65=AB9;99?################## XT:A:R
            42CIDR3AAAAAAAA:2:2105:10920:6269 99 1 10025 5 100M = 10181 194 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTAACCCTAACC A??@CBD@CDCBDB:CAADBBCBBDBAAAAD?CDBBDA=BCCEA>=?AC?@A8@@A-@EDEB=CAB@A?C=CAA8C+?A:>CBCB;><?B:8??>@8=>> X0:i:1 X1:i:2 XA:Z:12,-95579,100M,2;1,+10019,100M,2; BD:Z:MMMNPLNNLMNJMMKMMILLKMMIMMKMMIMMLMNJMMLMNJMMLNNJMMLNNJNNLNNJNNMNNKNNMNOKNNMOOKNNMOOKOOPOKONMOPLPNMNN MD:Z:84A15 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OONPQMQPMPPLPPMOPLPPMPQLQPNPQMQQNQQMQQNQRMRQOQRMRQOQRNRQOQRNRRPRRNRRORSOSRPSSOSSPSTOSSRQKNLJNQNTPNPQ AM:i:5 NM:i:1 SM:i:5 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:5 OQ:Z:?@@ADADDHHHGHH?FDGIIGIGIIIEBACGEHIIIIIBFCFHC>;@==@B@2@;C)=DECE7A@?;B;@;A;?3?(;;59???<999<>93<BB89A?? XT:A:U
            42CIDR3AAAAAAAA:2:1116:10796:26835 99 1 10030 0 76M24S = 10186 204 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA ?B<>CD?BAA?CCC?BCBBCBBC=AD<@@<@9@BCBBCBCD>@DB@E)7C:A=DDDBDDC<E>EA@CD:A8=*@A######################### X0:i:380 XC:i:76 BD:Z:MMNMPOKNNLMNIMMKMMILLKMMIMMKMMIMMLMNJMMLMNJMMLNNJNNLNNJNNLNNJNNMNOKNNMNOKNNMMMMMMNNNNNNNNNNNNNOOMMMM MD:Z:76 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOPNQQLPPMPPKPPMOPLPPMPQLQPNQQMQQNPQMQQOQRMRQOQRNRQOQRNRQOQRNRRORSNRRPRSNSRRQRRRRRRRRRQPNLLLNPQSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z::???DDBBFDAHFGEHIIEGHIIAGHBC???8CGHHGIHID>BFF>D(.=8@;CCAEHII9A>E>@??7>2;(5?######################### XT:A:R
            42CIDR3AAAAAAAA:2:2207:15922:64042 83 1 10031 20 100M = 10001 -130 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTAACCCTAACCCTAACC <=>>@A;?3BECABDDECBDBFEE@CDFBCABCEEF@DCEDEBCBCDB9A9CDE?CACCE>B9CCD<B0CDEAA=DBC;ABBDAB>CCEABADDE??>@A X0:i:1 X1:i:2 XA:Z:1,-10025,100M,2;12,+95573,100M,2; BD:Z:LMOKQQNNPKPPMNPKOPMNOKOOMNOKOOLMOKOOLMOKOOLMNJNNLMNJNNLMNJNNLMNJNNKLNJNNKLMINNMMIMMKLMINNKMNKOPNMOMM MD:Z:78A21 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:PPRMSRPNNIMOPRTOSSRRTORRRRTORRRQSNRRQRSNQQQQSNQQQQSNQQQQSNQQPPRMPPPPRMPQPPRMPPPQLOOOOQLOPOOQLPPPPROO AM:i:0 NM:i:1 SM:i:20 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:BB?BCB<8(?C?BBABC?AACA=B?D@AA>;FFD@C=FHGEA@IG@6=.GCH?HBIGGDGBIHF@C1IHHGE:HFC?AJIIGFCIHHFFDFDDDDBBB XT:A:U
            42CIDR3AAAAAAAA:1:1214:14283:83035 99 1 10032 0 77M23S = 10188 200 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCGAACC AA@ABDABDBCDBCCBBB?ACBBBA@CBCDBCDCCD@BDBCD@@BADC@CADCECCDCDECEB??BB>7?>DBCCB######################## X0:i:379 XC:i:77 BD:Z:MMNNLONMNNJMMKMMILLKLMIMLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNOJNNMNOKNNMNOMNMNNNNNNNNNNNNNNNOOMMMM MD:Z:77 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPPLPPNQQMQQOQRMQQNQRMRQOQRMRRORRNRRORRNRRORSNSRPRSNSRPSSRRRRRRRRRQPPNLLLNPRSOOOO AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:0 OQ:Z:@CCDDADDDDFHHJGFHEACHFEFGHGEHIFHGCFHCHHGGDD>?BF@BF>FGEGGGGCEEEA>;;C;.;=AC??A######################## XT:A:R
            42CIDR3AAAAAAAA:1:2102:4550:53115 99 1 10034 37 86M14S = 10171 183 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAACCCTAACCCAACCCTAACCCTAACCCAAACCCTA AB?BABDDCDBCCABDBBCBBDBBCABDBBDBCDBCCBBDCACCCCB@CDAAC@EB9/@>DD6-A>CB?A==DC);*1;?:;CAD############### X0:i:1 X1:i:0 XC:i:86 BD:Z:MMJNOMONJMMLMMIMLKLMILLKMMIMMLMNJMMLMNJMMLMNJMMLNNJNNLNNJNNLNNJONFNOKNNMNOKONOOKONMOONNNNNNNNNOOMMMM MD:Z:63T22 RG:Z:XXXXXXXXX_1 XG:i:0 BI:Z:OOLQPNPPLPPMOPLPPMPPLPPMPQLQPNQRMQQNQQMRQOQRMRQORRMRRORRNRRORRNSPJRSNSRPRSOTQSSOSSPSSQPPNLLLNPRSOOOO AM:i:0 NM:i:1 SM:i:37 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:23 OQ:Z:CCCFFDFFHHHHGGIIJJIJJJJJIIJJJGHIEHJJJJGEHAEHHBFBCHB;F;FG2(=7AE2(;6?B;6>;?A(5(,;;29?<A############### XT:A:U
            42CIDR3AAAAAAAA:2:1112:11042:46898 99 1 10038 15 100M = 10159 204 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCC AA?BCE@CCCBDABCBBABBCABDBBCBBBB@CCBDB>CBCA@CDDBC@@DCEBDDDDCECAADBCBEECFEDGFF0;CDFDAAEE@CB@>4><8:=<<= X0:i:1 X1:i:1 XA:Z:15,-102521267,100M,1; BD:Z:MMNNLONMNNJMMKMMILLKMMIMMKMMIMMLMNJMMLMNJMMLNNJMMLNNJMMLNNJNNMNNKNNMNOKONNOKNNMOOKONMOOKOOMOOLPPMNNJ MD:Z:100 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOPQMQPMPPLPOMPPLPPMPQLPPNPQMQQNPQMQQNQRMRQOQRMRQOQRNRQOQRNRRORRNRRORSOTQRSOSRPSSOSSPSSMOMJMOMSTNPQL AM:i:15 NM:i:0 SM:i:15 XM:i:0 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ MQ:i:15 OQ:Z:@@@FDBDFFHGFGJIHGBHGIGEHHIJIICFCGCGIGGGII>DGHFG==BFHD@FEIHIAHB=EB@DEFADDCDDD(9AADA9?CB<A<A91<81<?<<B XT:A:U
            42CIDR3AAAAAAAA:2:1205:10335:75509 73 1 10040 0 70M30S = 10040 0 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAATCCTAACCCTAACCCAAACCCTAACCCTAACCCTAACCCTAACCCT ?>.@*B>CCDABCA0CABCC=CAACBBA@BCC@B;?A>BB8@+:@/?@DEA9@D-B60;DED;D4AD8B############################### X0:i:2 X1:i:398 XC:i:70 BD:Z:MMJNONOOJMMLMMIMMKMMIMLKMMIMMLMMJMMLMNJMMLMNJMMLNNJNMLMONNNLNNJNNMNOKMMMMMMMMMMMMNNNNNNNNNNNNNOOMMMM MD:Z:54C15 RG:Z:XXXXXXXXX_2 XG:i:0 BI:Z:OOLQQNPPLPPMOPLPOMPPLPPMPQLQQNPQMQPNQQMRQOQRMRQOQRNRQORRQRQORRNRRORSNRRRQRRRQRRRRRRRRRQPNLLLNPQSOOOO AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 BQ:Z:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ OQ:Z::=+=+=ADFFFDBA3CFFFE@EFFCEFCEFFF?D@B?GFE9B)9?(?BBCB2@F)=4)7CEE9A3??2?############################### XT:A:R




            My bam
            ------------
            @HD VN:1.4 GO:none SO:coordinate
            @SQ SN:chr1 LN:249250621
            @SQ SN:chr2 LN:243199373
            @SQ SN:chr3 LN:198022430
            @SQ SN:chr4 LN:191154276
            @SQ SN:chr5 LN:180915260
            @SQ SN:chr6 LN:171115067
            @SQ SN:chr7 LN:159138663
            @SQ SN:chr8 LN:146364022
            @SQ SN:chr9 LN:141213431
            @SQ SN:chr10 LN:135534747
            @SQ SN:chr11 LN:135006516
            @SQ SN:chr12 LN:133851895
            @SQ SN:chr13 LN:115169878
            @SQ SN:chr14 LN:107349540
            @SQ SN:chr15 LN:102531392
            @SQ SN:chr16 LN:90354753
            @SQ SN:chr17 LN:81195210
            @SQ SN:chr18 LN:78077248
            @SQ SN:chr19 LN:59128983
            @SQ SN:chr20 LN:63025520
            @SQ SN:chr21 LN:48129895
            @SQ SN:chr22 LN:51304566
            @SQ SN:chrX LN:155270560
            @SQ SN:chrY LN:59373566
            @SQ SN:chrM LN:16571
            @RG ID:XXXXXXXXX_1 PL:ILLUMINA PU:XXXXXXXXX_1_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-27T19:00:00-0500 SM:1111@1111 CN:CIDR
            @RG ID:XXXXXXXXX_2 PL:ILLUMINA PU:XXXXXXXXX_2_AAAAAAAA LB:LLLLLLLLL DS:HiSeq2500_RapidRun DT:2014-10-27T19:00:00-0500 SM:1111@1111 CN:CIDR
            @PG ID:bwa PN:bwa VN:0.5.9-r16
            @PG ID:GATK IndelRealigner CL:knownAlleles=[] [email protected] LODThresholdForCleaning=5.0 consensusDeterminationModel=USE_READS entropyThreshold=0.15 maxReadsInMemory=150000 maxIsizeForMovement=3000 maxPositionalMoveAllowed=200 maxConsensuses=30 maxReadsForConsensuses=120 maxReadsForRealignment=20000 noOriginalAlignmentTags=false nWayOut=null generate_nWayOut_md5s=false check_early=false noPGTag=false keepPGTags=false indelsFileForDebugging=null statisticsFileForDebugging=null SNPsFileForDebugging=null
            @PG ID:MarkDuplicates PN:MarkDuplicates VN:1.123(286a232caea2fdc8fdd88574c09c460b46386fff_1413818736) CLicard.sam.markduplicates.MarkDuplicates INPUT/xxx/xxx/xxx/[email protected]] [email protected]_DUP.bam [email protected]_DUP.Picard_Dup_Metrics.txt VALIDATION_STRINGENCY=SILENT MAX_SEQUENCES_FOR_DISK_READ_ENDS_MAP=50000 MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000 SORTING_COLLECTION_SIZE_RATIO=0.25 PROGRAM_RECORD_ID=MarkDuplicates PROGRAM_GROUP_NAME=MarkDuplicates REMOVE_DUPLICATES=false ASSUME_SORTED=false DUPLICATE_SCORING_STRATEGY=SUM_OF_BASE_QUALITIES READ_NAME_REGEX=[a-zA-Z0-9]+:[0-9][0-9]+)[0-9]+)[0-9]+).* OPTICAL_DUPLICATE_PIXEL_DISTANCE=100 VERBOSITY=INFO QUIET=false COMPRESSION_LEVEL=5 MAX_RECORDS_IN_RAM=500000 CREATE_INDEX=false CREATE_MD5_FILE=false
            42CIDR3AAAAAAAA:2:2207:15922:64042 163 chr1 10001 0 100M = 10031 130 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC A??BBCEBDDCBDBBCBBDBCCBBDBCDBBDCCDBBDCCDBCECCDDCEBDDDDECDEAA/ACEDEF=DBAEF?>ECF?>>:A=DC?CAA3>?3=<@=A@ X0:i:361 MC:Z:100M MD:Z:100 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:20 XT:A:R
            42CIDR3AAAAAAAA:1:1103:9373:33751 163 chr1 10003 2 70M1I23M6S = 10352 437 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTTAACCCTAAACCTAACCCTAACCCTAAGC AA=ACBCDBCDCCCBBDBBCBBDBCCBBDBCCBCDCCDCCDBCDCCDCCDCCDCDDCCABCDDD;?D<BCC7>DECCD@E)=4=;9,8>DBAB####### XA:Z:chr5,+11515,100M,3; MC:Z:12S88M XC:i:94 MD:Z:79C13 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:1 AM:i:2 NM:i:2 SM:i:2 XM:i:1 XO:i:1 MQ:i:2 XT:A:M
            42CIDR3AAAAAAAA:1:2211:14663:16412 1097 chr1 10003 0 100M = 10003 0 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC A@>BBABDCCDBC=>BDBBCBBDBB;CBDBBCBBDBCCCBDBCDCCBACDCDECCDCCDBDEDD@?AEFF?@CE@BB?DEFC0:CECBCACCBA;9<>=? X0:i:363 MD:Z:100 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 XT:A:R
            42CIDR3AAAAAAAA:1:2211:14663:16412 133 chr1 10003 0 * = 10003 0 GGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGT @@>=@C9<C=AC>B@=A??C9@?C=BD8AA:CCA@D>DB3=A?BDAB:4??>@><BAA9>8>C=AADBC22<=CC8>=C&7@B:?CDDC4@CB16':>?# MC:Z:100M PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1
            42CIDR3AAAAAAAA:2:1112:16852:66959 1123 chr1 10003 17 94M6S = 10381 437 ACCCTAACCCTAACCCTAACCCTAACCCTTACCCTTACCCGAACCCGAACCCGAACCCGAACCCGAACCCGAACCCGAACCCTAACCCTAACCCGAACCC AA=B=A?DCCDBCCAACBBCBBCBCCABCBBCCBC@B:BB?ACDCC@A@DDD@CCF@B>BAFFF4>AB6>9@AC@B:>@>?704>D@BE;@@>?###### MC:Z:41S59M XC:i:95 MD:Z:29A5A4T5T5T5T5T5T5T17 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:17 NM:i:9 SM:i:17 XM:i:9 XO:i:0 MQ:i:17 XT:A:M
            42CIDR3AAAAAAAA:2:2204:8073:66152 163 chr1 10006 0 86M14S = 10016 110 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAAACCTAACCTTAA AB<AC3DD@BCCCDBBCBADBCCCBDBCC@CB@CDBCA@@7@DDADDDCECCADDA@DDDEEBE=ACCBDBBBD=C?7<>@(>9B############### X0:i:1 X1:i:391 MC:Z:100M XC:i:86 MD:Z:85T0 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 MQ:i:18 XT:A:U
            42CIDR3AAAAAAAA:1:1210:3411:46167 99 chr1 10008 0 99M1S = 10180 214 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACC AA>ABDABDCCCBBCB@BBBCBBCA:CBCDBBDCBDBBCBDEC@DC@CCCDC@ECCDDCEA@<B?BABDA6>A9><9?ACDB?ABE>BBA=?*4<A<=## X0:i:363 MC:Z:58S42M XC:i:99 MD:Z:92C6 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 MQ:i:0 XT:A:R
            42CIDR3AAAAAAAA:2:2110:1650:22619 129 chr1 10008 0 93M7S chr7 100803991 0 AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACC AA?ABDCCDCCDBCCBBDBCCBBDCCDBBDBCCBBD?BCDCEBCCCCDBDD@DEBDAEDFBEEAFFCCF??DBDCCB@9?A8;>8@)83==B######## X0:i:373 MC:Z:100M XC:i:93 MD:Z:93 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:37 XT:A:R
            42CIDR3AAAAAAAA:2:2115:17014:80060 99 chr1 10009 0 91M9S = 10179 223 ACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC AA@BC@BDCBCBCBBBCACCBBCABCBBDABDCBDBC=BBDBCCCDEAC7A?C@EDC/=BA5;9C<@>B:C?7<>AD@E,<?B;AA<<@@########## X0:i:377 MC:Z:47S53M XC:i:91 MD:Z:57C33 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 MQ:i:0 XT:A:R
            42CIDR3AAAAAAAA:1:1216:18376:18644 69 chr1 10010 0 * = 10010 0 GGGTTCGGGTTAGGGTTAGGGTTCGGGTTAGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTAGGGTTCGGGTTAGGGTTCGGGTTAGGGTTAGGGT A@>?@D@CDAB@D@BABBEBB=B1<?CBB?DBCBC.:ABBB.6BCAC.7<@[email protected]@AC.8A?BC;CBDDD=?:&?8/1(8=@-:=>B@*<AA@>:?>>= MC:Z:100M PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1
            42CIDR3AAAAAAAA:1:1216:18376:18644 137 chr1 10010 0 100M = 10010 0 CCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAAACCCTAACCCA A?=B?CEDCEBCDBBDBBCBBDBCCBCEBC?CBDCCDBC>>CDAC8BCEC6=?CCDD7>=AAA6?D=;*0(A*(1>?EE@CEC7=6:.+9B>@???A>># X0:i:1 X1:i:364 MD:Z:87T12 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:U
            42CIDR3AAAAAAAA:2:2111:19537:4530 117 chr1 10010 0 79M21S = 10010 0 TTCGGGTTAGGGTTAGGGTTCGGGTTAGGGTTCGGGTTCGGGTTCGGGTTCGGGTTCGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAG ######################CC@:A>=CB@*2877,0B;D@?(EAEBA1??6=C;BBCA;>BB;CBDC?CBBDBBCBBDBACBBDCCCACDDDCA=BA MC:Z:58S42M XC:i:79 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2
            42CIDR3AAAAAAAA:2:2111:19537:4530 185 chr1 10010 0 58S42M = 10010 0 GTAACCCGAATACCAAGACGAACACGAACCCCAACCCCAACCCGCACCCGAACCCGATCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA ###########################################################CE?BACCDAAADCA:B@CBDAA?@CD@BAC?E>BACBB;AA X0:i:570 XC:i:42 MD:Z:42 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 XT:A:R
            42CIDR3AAAAAAAA:1:2206:1844:57150 99 chr1 10011 0 97M3S = 10180 211 CCTAACCCTGACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAACCTAACCCTAACCCTAACCCTA @=?>?CADE,:BB??=?ABBCBBCB:>B@CBCBAAB@BDCBD>;C@@=>)?4A,*(9@-+77:ACDB<D?A@??BBC(@?EBD3C=DA?CAAB=?@#### X0:i:370 MC:Z:58S42M XC:i:97 MD:Z:9A67C19 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:2 SM:i:0 XM:i:2 XO:i:0 MQ:i:0 XT:A:R
            42CIDR3AAAAAAAA:1:1110:20282:75910 99 chr1 10013 0 85M15S = 10182 217 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCGCAAC <<>BBBD@CDCCDABCBBDBBCBADABCBBDBCDCBDBCDCCDCCCDC>ADDCEE1BFCDFB*+;:><B9?B0;:?9>73?DCC################ X0:i:391 MC:Z:52S48M XC:i:85 MD:Z:85 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_1 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:0 XT:A:R
            42CIDR3AAAAAAAA:2:2204:8073:66152 83 chr1 10016 18 100M = 10006 -110 CCCTAACCCTATCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTA 86=9;<@A>48-C>C;>DFFEBECDEEBDCDBDABCEEGBDCDDD?DCDDEBABDCD?A@BCBB@<CCB>@ACCEA@>ABD>@ABCD?BACCD@BCA?<A X0:i:1 X1:i:3 XA:Z:chr12,+95588,100M,3;chr12,+95624,100M,3;chr1,-10010,100M,3; MC:Z:86M14S MD:Z:11A81A6 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:2 SM:i:18 XM:i:2 XO:i:0 MQ:i:0 XT:A:U
            42CIDR3AAAAAAAA:2:1216:14599:23267 99 chr1 10017 0 88M12S = 10182 209 CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA A@?:A4>CBB>CCBCBB>>CB;:ACACBB>@ACA7DB@D7CDC*B*@CADDCCE=AF@@ED=D@B@8>D4+6*8D>8?>@EABDCBE############# X0:i:380 MC:Z:56S44M XC:i:88 MD:Z:88 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:0 SM:i:0 XM:i:0 XO:i:0 MQ:i:0 XT:A:R
            42CIDR3AAAAAAAA:2:1112:4118:66526 69 chr1 10019 0 99M1S = 10019 0 GGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTCAGGGTTAGGGTTAGGGTTAGGGTTAGGGTAGGGTT AA??CCDDDACDECBBCCEBBBDDCCCADDECCBCDEABADDECBBDDECCADDFDDBCEFDCCEDFEECDAFEFDCBGFFDCBCEC=A@DCB@=??>## MC:Z:96M4S XC:i:99 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2
            42CIDR3AAAAAAAA:2:1112:4118:66526 137 chr1 10019 0 96M4S = 10019 0 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTACCCTAACC @?>BBCEBDDCCCBBCBBDBCCBBDBCDBBDCCDBBDCCDCCDCCDBBDCCDCBDCCDCCEBEEEEFBEEDFDBCGF>E>DGFBD<>DEAB@)7@##### X0:i:2 X1:i:372 XC:i:96 MD:Z:90A5 PG:Z:MarkDuplicates RG:Z:XXXXXXXXX_2 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:R

            Comment


            • #7
              Oh. The first bam has a ton of optional fields that bloat the size. They don't look very useful to me, but it I'm sure it depends on the application.

              Comment


              • #8
                Hi Brian,
                Thanks for your reply. BTW, can you please guide me how do I know which fields are required and which are optional in general?

                Best regards,
                Newbird

                Comment


                • #9
                  This is the sam format specification:


                  The first 11 columns are required. All the rest are optional. Section 1.5 lists the official optional tags, but the only ones that are commonly used (IMO) are AM, NH, NM, MD, RG, and SM. XM and XS are also common but custom fields with no official definition.

                  It is very bad practice for a program to require any optional fields, particularly custom ones. So, any well-written software will be able to process a sam file with no optional fields whatsoever, though the MD, NM, and NH are probably the most important and are necessary for some programs.
                  Last edited by Brian Bushnell; 10-30-2014, 09:50 AM.

                  Comment


                  • #10
                    Great help...Thanks...I am learning from you.

                    Comment

                    Latest Articles

                    Collapse

                    • seqadmin
                      Current Approaches to Protein Sequencing
                      by seqadmin


                      Proteins are often described as the workhorses of the cell, and identifying their sequences is key to understanding their role in biological processes and disease. Currently, the most common technique used to determine protein sequences is mass spectrometry. While still a valuable tool, mass spectrometry faces several limitations and requires a highly experienced scientist familiar with the equipment to operate it. Additionally, other proteomic methods, like affinity assays, are constrained...
                      04-04-2024, 04:25 PM
                    • seqadmin
                      Strategies for Sequencing Challenging Samples
                      by seqadmin


                      Despite advancements in sequencing platforms and related sample preparation technologies, certain sample types continue to present significant challenges that can compromise sequencing results. Pedro Echave, Senior Manager of the Global Business Segment at Revvity, explained that the success of a sequencing experiment ultimately depends on the amount and integrity of the nucleic acid template (RNA or DNA) obtained from a sample. “The better the quality of the nucleic acid isolated...
                      03-22-2024, 06:39 AM

                    ad_right_rmr

                    Collapse

                    News

                    Collapse

                    Topics Statistics Last Post
                    Started by seqadmin, 04-11-2024, 12:08 PM
                    0 responses
                    29 views
                    0 likes
                    Last Post seqadmin  
                    Started by seqadmin, 04-10-2024, 10:19 PM
                    0 responses
                    32 views
                    0 likes
                    Last Post seqadmin  
                    Started by seqadmin, 04-10-2024, 09:21 AM
                    0 responses
                    28 views
                    0 likes
                    Last Post seqadmin  
                    Started by seqadmin, 04-04-2024, 09:00 AM
                    0 responses
                    52 views
                    0 likes
                    Last Post seqadmin  
                    Working...
                    X