Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

data set for delly containing INDELS #1322

Open
wants to merge 3 commits into
base: modules
Choose a base branch
from

Conversation

lindenb
Copy link

@lindenb lindenb commented Sep 11, 2024

As discussed here: https://nfcore.slack.com/archives/C02L5UB4Y9G/p1725656039950949 this is a set of data for delly but it might be also interesting for any SV/DEL application.

It contains a set of BAMS containing a DEL/DUP/INV and WT

As the dataset was not really an illumina dataset, I put things in a wgsim folder.

The Attachment
Makefile.txt
contains the Makefile that was used to generate the data.

MT192765.1 (29.8Kbp)
>    24.1 │              ▂                           ▂                                   ▇     ▅                                     ▁  ▅  █                 █         ▁                             │ Number of reads: 8000
>    21.4 │    ▁ █       █ ▇     █  ▇        ▅  ▆    █ ▁▅ ▁▅                          ▁▆ █ ▃   █                    █              ▁ █ ▇█▃▆█         █    ▂  █ █▂  ▄▄  █                             │ 
>    18.7 │    █▂█▃▂    ▂█ █▅ ▂  █▃ █▅    ▂  █▆ █▁▁▅ █ ██ ██      █ ▅▁    ▁  ▃    ▃ █▄██▃█ █▅ ▇█▆▂ ▃       ▂        █  ▆ ▁▇  ▆  ▁  █▁█▇█████  ▂   █ ▂█ ▇▃▂█▇▅█ ██ ▅██▂ █▅ ▇▆█ ▁▁ ▁ ▂█ █     ▆▅▂▄▆█   │ Covered bases:   29.8Kbp
>    16.0 │   ██████▃▃▇▆██▃██▅█▁▆██▅██▃▄  █ ▄██ ████ █ █████▂▁▇▃▂ █▅██▅▆  █ ▇█ ▇ ▄█ ██████▅██▆████▃█ ▃ ▂▅  █      ▄ █▄ █▅██ ▂█ ▃█ ▃█████████▇███ ▇█ ██▇███████▄██▂████ ██████▄██ █ ██▄█▃▆  ▃██████   │ Percent covered: 99.92%
>    13.4 │   ██████████████████████████▅▇█▃██████████▇█████████████████▆▇█▂██▄█ ███████████████████▄█▂██ ██▁▇▆▃▅▇█▅██▇███████▇██▅████████████████████████████████████▅█████████▃████████▂▁███████▁  │ Mean coverage:   18.8x
>    10.7 │ ▁ ██████████████████████████████████████████████████████████████████▆██████████████████████████████████████████████████████████████████████████████████████████████████████████████████  │ Mean baseQ:      17
>     8.0 │ █▆██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▆│ Mean mapQ:       60
>     5.3 │▁█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ 
>     2.7 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo bin width: 160bp
>     0.0 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo max cov:   26.725
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

MT192765.1 (29.8Kbp)
>    28.7 │                                  ▃                                                                                                               █                                       │ Number of reads: 7974
>    25.5 │                               ▃  █                                           ▃                                           ▇                       █  ▁             ▃                      │ 
>    22.3 │    ▂        ▁▃ ▂  ▅  █  ▆  ▂  █ ▅██ █▂   ▆ ▄▆ ▁                            ▁▁█▂▂▁  ▂ ▃     ▂                           ▄ █▄▅ ▇               ▁▆ ▄█  █ ▄▅ ▂  ▆  ▄  █▁ ▁    █ ▃   ▁        │ Covered bases:   29.8Kbp
>    19.1 │    █ ▅▄  ▁  ██▆█▅ █  █▂▂█▄▄█ ▃█ ███▂██ ▅ █ ██ █▄                           ██████▇██ █   ▄ █ ▃▄       ▁ ▂ █▁ ██  ▇  ▃▇▁█▄███▄█▆▂▃  ▃ ▁▆ ▃▁▆▁ ██▄██▂██▁██▃█▁ █  █▃ ██ █▆  ██ █   █▃▂▂█    │ Percent covered: 99.96%
>    15.9 │   ▁█▁██  █ ▇█████▃█ ▅██████████▇██████▇█▇███████                          ▅█████████ █▅▃▄█▅█▇██▅  ▆ ▇▂█▂█ ██ ██▅▄█▃▅█████████████▃▆█ ███████ ██████████████▄██▁█████▇██▅███▅█▂ ▆█████▁   │ Mean coverage:   18.7x
>    12.8 │   █████▇▇█▆█████████████████████████████████████                         ▆██████████▆███████████▆███████████████████████████████████▄█████████████████████████████████████████▄███████   │ Mean baseQ:      17
>     9.6 │ ▂▅██████████████████████████████████████████████  ▂   ▆               ▂ ▁█████████████████████████████████████████████████████████████████████████████████████████████████████████████▄▆ │ Mean mapQ:       60
>     6.4 │▄████████████████████████████████████████████████▂▇█▂▆▃█▃█▆▇▅ ▇▇▁▆▇▂█▁▆█▆████████████████████████████████████████████████████████████████████████████████████████████████████████████████▆│ 
>     3.2 │█████████████████████████████████████████████████████████████▇████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo bin width: 160bp
>     0.0 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo max cov:   31.9
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

MT192765.1 (29.8Kbp)
>    26.5 │                                                                                                                                          █                                               │ Number of reads: 7975
>    23.5 │                         ▃ ▃                                                    ▂                                         █ █   ▄         █                 ▂                             │ 
>    20.6 │    ▃  ▁      █ ▆     ▄ ▃█ █  ▄▅ ▆▆▄ ▁    ▃  █         ▂ ▃▁                   ▅ █ ▂     ▃ ▂              █ ▁   █ ▁     ▄ ▂█▂█▇▆██         █  ▁    ▁  ▄ ▅▇▂▁ █    ▃ ▂    ▂  ▁          ▆   │ Covered bases:   29.8Kbp
>    17.6 │    █ ▄█ ▅ ▁▇▄█▁█  ▆ ▃█▁██ █▄▆██▇███▂█▅ ▇ █ ▃██▄▅▅ ▂█  █ ██ ▁▃  ▁  ▃▂  ▅  █ ▄▄█▁█▁█▆▇█▃ █ █ ▂   ▄▂     ▅▂█ █▆▇▆█▁█▄▄▆  █▁████████▄▇▅   ▇  █▃▅█ ▆▄ █ ▂█ ████ █  ▇▃█ ██ █ █  █        ▅ █   │ Percent covered: 99.95%
>    14.7 │   ██▃██ █▆██████▅▃█ █████▄████████████▇█▅█▅█████████▃▃█ ██ ██ ▁█████ ▃█▁▂█▁███████████▁█▆█▄█▆▃▂██▄▇▄▅▃███▆██████████▂▁█████████████▆ ▆█▅▆████▁██▃█▇██▁████▃█▆▁████████ ██▃█ ▇▇▃▃▃▁██▄█   │ Mean coverage:   18.7x
>    11.8 │   █████████████████▅██████████████████████████████████████▅██▄██████▄█████████████████████████████████████████████████████████████████████████████████████████████████▆████▅██████████▂  │ Mean baseQ:      17
>     8.8 │ ▃▅█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▂▆│ Mean mapQ:       60
>     5.9 │▃█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ 
>     2.9 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo bin width: 160bp
>     0.0 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo max cov:   29.413
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

MT192765.1 (29.8Kbp)
>    46.9 │                                                                                                     ▂▆ ▆▅ █▄▁▂▃▂ ▂  ▁                                                                    │ Number of reads: 7979
>    41.7 │                                                                                                    ▄██▇██▅██████▇█▂ █                                                                    │ 
>    36.5 │                                                                                                    ████████████████▃█                                                                    │ Covered bases:   29.8Kbp
>    31.3 │                                                                                                    ███████████████████                                                                   │ Percent covered: 99.95%
>    26.1 │                                                                                                    ███████████████████                                                                   │ Mean coverage:   18.7x
>    20.9 │                                                                                    ▄              ████████████████████ ▁       ▂                                                         │ Mean baseQ:      17
>    15.6 │    ▃ ▄ ▁   ▄ ▇▁▆▅▂▁▁ ▄  ▇ ▂      ▁▁ ▂    ▂  ▄  ▂      ▁ ▂  ▁       ▄ ▄▃ ▅▅ ▅▆▃▁▅▁▁▂█▇▁▆▅▂▂ ▁      ████████████████████ █ ▂▃▄▃▅▄█▂ ▄▃ ▃▂ ▃▅▁▆▁▂▂  ▆ ▁  ▁▅     ▁▂▁█▂ ▆▂  ▂        ▃  ▆▂    │ Mean mapQ:       60
>    10.4 │   ▅███▆█▅▃▅█▅█████████▆▂█▆█▃▆▆▆▅▅██▅█▆█▄▆█ ▆█▁██▅▇▆█▅▂█▆█▁██▃██▃██▇█▅██ ██▆███████████████▄█▅ ▃▆▄█████████████████████ ██████████▅██ ██▅██████████▇██▆██▅█▁▆▇█████▆██▅▄█▄▂▆▃▄▂▅▃█▆▇██▄   │ 
>     5.2 │ ▅▆████████████████████████████████████████▇██████████████████████████████████████████████████▆████████████████████████▆█████████████▇██████████████████████████████████████████████████▃ │ Histo bin width: 160bp
>     0.0 │▇████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▇│ Histo max cov:   52.138
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

while I was here I added a valid gff3 (the gff3 for srarscov in modules is not valid...), a gtf and I called and annotated the 4 bams with bcftools and hapcaller.

Thanks !

@lindenb lindenb requested a review from matthdsm September 11, 2024 17:17
Copy link
Member

@jfy133 jfy133 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Hm, I have a few things here:

  • The generation READMEs are great, however please also list the files with a short description (exeception: if a file goes delete_me/) on the main branch top-level README
  • Illumina is really just a synonym for short reads (depnding on how you simulated your reads)
  • File names for the test data (i.e. README is fine but everything else) should be all lower case, and follow the conventions were possible
    • E.g. SAMPLE_DEL.bam -> test_del.bam , assuming it's using the original BAM test.bam for generation , etc else test3_del.bam
  • I don't think the wgsim folder is necessary, they are still BAM files derived from the 'original' reference genome (even if you've modified the reference slightly )
  • For the delly folders, this sounds like they are tool specific and can't be used for other contexts, if so they should go into delete_me (until we've come up with a better system for that) - otherwise stick to the file-format folders

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants