Hi!
I've just started using chewBBACA so I could be missing something here but I can't tell what at the moment. The issue I'm having is that I'm using an external scheme for C. difficile and it's calling the reference genome alleles wrong. All of the geneX_1 alleles are from the reference genome (https://jcm.asm.org/content/56/6/e01987-17/figures-only) and as such all the alleles called should be 1.
Instead, most are 1, but there's also 216 that are a combination of different profiles and even loci not found. I blasted all these alleles against the reference and they were all present 100%.
Here's what I did:
prodigal -i R00000003.fna -p train -t R00000003.fasta.trn
This training file is used later during allele calling
chewBBACA.py PrepExternalSchema -i ~/scheme_fastas/ --cpu 16
With the C. difficile scheme from cgMLST.org (https://www.cgmlst.org/ncs/schema/3560802/) and fasta headers (already numbered) edited to include gene name (>genename_number)
- Call alleles with reference genome (isolate 630/R00000003.fasta)
chewBBACA.py AlleleCall -i ~/paper_genomes_samples/ -g ~/scheme_fastas/ -o results_cg --cpu 12 --ptf ~/630_prodigal_training/R00000003.fasta.trn
Which provides this allele call output:
R00000003.fasta,1,1,1,1,1,1,1,1,34,1,1,55,1,1,1,1,1,1,1,1,1,1,41,1,1,1,1,1,1,1,83,1,1,1,1,40,1,1,1,1,1,1,1,1,1,1,1,1,69,1,40,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,45,1,1,1,1,1,1,1,1,18,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,60,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,1,104,1,1,1,1,1,43,1,1,1,1,197,1,1,1,1,1,1,1,1,1,128,1,1,60,1,1,1,1,1,1,82,1,1,1,75,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,97,1,1,1,1,1,1,1,1,1,1,53,1,1,1,1,1,96,1,1,1,1,1,1,1,1,1,75,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,193,1,1,1,1,1,178,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,225,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,ALM,1,1,1,1,1,1,1,1,1,1,115,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,NIPH,1,1,1,1,123,1,1,1,1,1,1,42,1,1,124,1,1,1,1,1,92,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,92,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,99,1,1,195,1,1,1,1,150,1,1,1,1,1,1,1,1,1,1,1,1,58,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,107,1,150,1,1,128,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,98,1,1,1,1,1,1,1,1,1,1,1,1,119,1,1,1,1,80,1,1,1,1,1,1,1,1,1,177,1,1,1,1,1,1,1,1,1,1,1,192,1,117,1,1,1,1,1,1,1,1,1,1,54,1,1,1,1,1,1,1,1,1,163,1,1,1,1,1,146,1,1,1,1,1,85,1,1,1,1,1,1,1,1,1,135,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,64,1,113,1,102,1,1,1,1,1,1,1,1,1,1,1,1,1,1,72,1,1,1,1,1,1,1,1,1,1,1,1,1,1,147,1,1,1,1,1,1,74,1,1,1,77,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,57,1,1,1,85,1,1,1,1,1,1,1,1,1,1,1,1,1,34,1,1,1,1,1,121,1,1,1,1,1,1,1,1,1,1,1,1,93,1,1,141,1,1,1,1,1,1,1,1,1,1,146,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,94,1,1,1,1,1,1,1,1,1,1,1,1,91,1,1,1,1,1,1,1,119,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,1,1,1,105,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,47,1,1,1,1,1,1,1,1,1,1,1,ALM,1,1,1,LNF,1,1,169,1,1,1,1,1,1,96,1,1,1,1,1,1,1,156,1,1,90,1,1,1,1,1,1,1,1,42,1,26,1,1,1,1,1,1,1,1,95,1,1,67,1,1,99,1,1,1,1,164,1,1,148,1,1,1,1,94,1,1,1,36,1,1,1,1,1,1,1,283,1,1,1,1,1,75,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,116,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,205,1,1,1,1,1,1,1,1,1,1,1,150,1,1,1,1,1,1,1,1,1,1,1,1,1,119,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,68,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,84,1,1,1,1,1,1,1,1,1,1,96,1,1,1,1,1,1,54,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,103,1,1,1,1,1,1,86,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,58,1,116,1,1,1,1,1,1,1,1,1,99,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,145,1,1,1,1,1,1,1,107,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,52,1,68,1,1,1,1,1,1,62,1,1,1,1,68,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,ASM,1,1,1,37,1,1,1,1,72,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,120,1,1,1,1,1,1,1,1,1,103,1,1,1,1,1,1,1,1,1,1,1,1,1,128,102,1,1,108,1,177,243,1,1,1,1,1,1,1,99,1,1,1,1,1,1,1,45,1,1,1,135,1,1,1,1,1,100,92,186,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,95,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,242,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,132,1,1,1,1,1,1,1,ALM,1,1,LNF,1,1,1,1,1,1,28,1,93,1,1,160,1,1,1,99,1,1,1,1,1,170,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,41,1,59,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,89,1,1,1,1,97,20,1,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,150,1,1,1,1,1,108,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,160,1,1,1,138,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,144,1,1,1,1,1,1,1,1,150,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,103,1,1,1,1,190,1,1,1,1,76,1,1,1,1,1,116,1,1,118,1,1,1,1,1,90,1,1,1,1,1,1,1,1,1,1,81,99,1,1,65,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,83,176,68,1,1,1,1,1,1,1,1,1,1,1,1,1,1,207,1,1,1,1,1,86,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,53,1,1,1,221,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,89,1,1,1,1,1,1,99,1,1,1,1,1,1,1,1,NIPH,213,1,1,1,1,NIPH,1,1,43,1,1,1,1,1,1,1,1,1,187,1,1,1,1,1,LNF,1,1,1,107,1,1,1,NIPH,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,NIPH,1,1,1,1,1,1,1,1,135,1,1,1,1,1,1,1,1,1,124,1,1,1,1,1,1,1,1,1,1,1,1,1,1,68,1,1,1,1,1,1,1,176,1,1,1,1,1,1,NIPH,1,1,70,1,1,1,1,1,1,123,165,1,1,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,173,1,1,1,174,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,158,180,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,1,1,1,1,1,15,1,1,1,1,1,1,1,1,1,1,1,1,90,1,1,1,1,1,1,1,1,1,60,1,1,1,1,1,1,1,1,1,1,1,122,1,ALM,100,1,1,1,1,1,1,1,1,1,1,LNF,1,1,1,1,1,66,1,131,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,127,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,125,1,1,1,1,1,1,1,1,1,1,1,1,1,92,1,1,98,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,56,1,1,1,1,1,1,1,1,1,1,ASM,1,1,1,1,1,1,114,1,1,1,1,1,51,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,62,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,113,1,50,1,1,1,61,1,1,105,1,108,1,1,1,1,1,1,1,142,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,ALM,1,1
The output should be 1 for every allele according to the original scheme development paper. I checked this with blast and all allele 1 sequences are 100% present in the reference (no gaps, no mismatches etc.)
Is this an issue with chewBBACA, the training file, the difference between chewBBACA and seqsphere (used to generate the scheme) or am I missing something?