Seqanswers Leaderboard Ad

**av_d** · 01-18-2011, 11:03 PM

I got my answer.. "-v" should not be present with the "pileup" cmd.

**mixter** · 05-30-2011, 03:51 AM

Hi,

I have run into the same problem, however, your solution of removing the -v option in the samtools pileup call did not work for me. I still get sequences consisting of long stretches of "nnnnnnnnnnnnnnn" in the FASTQ files, resulting in conversion failing and empty FASTA files being generated out of them.

In my case, I am trying to generate consensus FASTA sequence from the mapped BAM files from the 1000 Genomes Project.

name=HG00096
file=HG00096.mapped.ILLUMINA.bwa.GBR.low_coverage.20101123
samtools view -bSt /opt/genomes/hg18-chromosomes.fa.fai -o ${file}.bam ${file}.sam
samtools sort ${file}.bam ${name}.final.sorted
samtools index ${name}.final.sorted.bam
samtools pileup -cf /gcm/opt/genomes/hg18-chromosomes.fa $file > ${name}.consensus.pileup
/gcm/opt/samtools/samtools-0.1.7a/misc/samtools.pl pileup2fq -D 100 ${name}.consensus.pileup > ${name}.fq
/gcm/opt/maq/maq-0.7.1/bin/fq_all2std.pl fq2fa ${name}.fastq > ${name}.fasta

Alternatively I tried the FASTX toolkit with no luck:
fastq_to_fasta -i ${name}.fq -o ${name}.fa

Hope someone can help

**av_d** · 05-30-2011, 03:59 AM

check your reference file first, because human ref genome already have long stretches of "nnnnnnnnnnnnnnn"

**gauravdube** · 10-03-2015, 09:04 AM

Hi av_d,

My fastq file consists of lot non-ATGC characters (you are too are getting in your file, you see that 'W' in your fastq ?). What are these characters and how to handle these?

Commands used:
bwa index ref.fa
bwa aln -t 9 cocsa_ref.fa D2_R2.fastq -f D2_R2.sai && bwa aln -t 9 cocsa_ref.fa D2_R1.fastq -f D2_R1.sai
bwa sampe ref.fa D2_R1.sai D2_R2.sai D2_R1.fq D2_R2.fq > D2-aln-pe2.sam
samtools faidx cocsa_ref.fa
samtools view -bt ref.fa.fai D2-aln-pe2.sam > D2-aln-pe2.bam
samtools sort D2-aln-pe2.bam D2-aln-pe2.bam.srt
samtools index D2-aln-pe2.bam.srt.bam
samtools mpileup -uf ref.fa D2-aln-pe2.bam.srt.bam | bcftools view -cg - | vcfutils.pl vcf2fq > CONSENSUS.fq

CONSENSUS.fq file looks like:
@scaffold_1
nnngtttggtggtagtattggtatttcaaacacgctaggtgtttgttggttttgagtagg
tgtagctggagtagactctatctccatttctctatcagtttgggcctctggccctaggct
ctcctgtctgttttcttgagtatttactacaatagtatcactgtctggcggcattttatt
actaagctcttttcttagtaagcaactagatggtctgtgtgtttttgttttcgtgagtga
gacgtgttcagattagctactttaccagcttctagctctatagcgcgtgggctgcacgag
ttggcactagttgtaatcgatttcttgggatggatttgtatataattcgctaaaattaca
cctattctgaaaaactcgnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnTAATGTTACAAGTAAYAAGAAGGATYCTYTCCTTRACAAATRACGAGATGGC

Please also convey, how to handle the small-case characters and 'N's ?

Thanks in advance.

**profbiot** · 10-18-2015, 03:44 AM

The lowercase letters have poor mapping quality. The non-ATGC letters are IUPAC codes for positions with more than one base observed.

IUPAC codes

http://www.bioinformatics.org/sms2/iupac.html

Topics	Statistics	Last Post
ASHG 2024 Highlights – Part Two by seqadmin Started by seqadmin, 11-08-2024, 11:09 AM	0 responses 33 views 0 likes	Last Post by seqadmin 11-08-2024, 11:09 AM
ASHG 2024 Highlights – Part One by seqadmin Started by seqadmin, 11-08-2024, 06:13 AM	0 responses 28 views 0 likes	Last Post by seqadmin 11-08-2024, 06:13 AM
Seq-Scope Expands Possibilities for High-Resolution Gene Expression Analysis by seqadmin Started by seqadmin, 11-01-2024, 06:09 AM	0 responses 32 views 0 likes	Last Post by seqadmin 11-01-2024, 06:09 AM
New Model Aims to Explain Polygenic Diseases by Connecting Genomic Mutations and Regulatory Networks by seqadmin Started by seqadmin, 10-30-2024, 05:31 AM	0 responses 23 views 0 likes	Last Post by seqadmin 10-30-2024, 05:31 AM

Seqanswers Leaderboard Ad

Announcement

Why MAQ consensus seq better than SAMtools consensus ??

Comment

Comment

Comment

Comment

Comment

Latest Articles

ad_right_rmr

News