Warming Up

In this module, we will:

cover basic materials needed
familiarize ourselves with remote computing
prepare for later modules

Building Blocks

Example Files Exercise:

Download the zipped archive from the slack channel
Locate, move (if desired), and unzip it
Remember how to access these files

Local vs Remote Exercise:

Become familiar with the appearance of the local shell
Briefly explore your local files (optional)
Log in to the aws instance with ssh <username>@bfx-workshop01.med.umich.edu
Become familiar with appearance of the remote shell
Use ls to view references
Use ls to view input fastq files
Use mkdir to create a folder for our analysis

# Familiarize with local shell appearance
# Briefly explore your local files
ls -l
# Log in to the aws instance via ssh
ssh <username>@bfx-workshop01.med.umich.edu
# Familiarize yourself with differences between local and remote shell
# View our references
ls ~/RSD_Shell/refs
# View our input fastq files
ls ~/RSD_Shell/reads
# Create a folder for our analysis
mkdir ~/RSD_Shell/analysis

Click here for demonstration comparing local Windows command prompt vs remote (AWS)

Click here for more info about retrieving sequences from SRA

The Sequence Read Archive (SRA) is an immense source of publicly-available high-throughput sequencing data, hosted by the NIH’s National Center for Biotechnology Information (NCBI). It also contains data from the European Bioinformatics Institute (EMBL-EBI), and the DNA Data Bank of Japan (DDBJ).

These data can be useful for validating experimental results, and they can also allow for the savvy researcher to leverage this data to shed light on their own research questions.

In these exercises, we’re using data from SRA to provide a good example of an RNASeq dataset, and also to demonstrate the process of validating experimental results of a published article, starting from the raw sequencing data.

Below we provide some instruction and suggested starting points for each of the steps you’d take to retrieve sequence data from SRA for yourself. Generally, the steps are:

Install and configure the SRA Toolkit software
Find your dataset(s) of interest
Download your sequences using SRA Toolkit

Installing/Configuring SRA Toolkit

We recommend using High Performance Compute (HPC) resources if you want to perform an analysis on your own. At the University of Michigan, Advanced Research Computing (ARC) provides these resources, one you may hear of often is known as “The Great Lakes Cluster”. There, they provide a software module sratoolkit that you can use. This way, the software is already installed for you! Then it is very easy to load this module to give access to the software.

#You must load the Bioinformatics module, then sratoolkit
module load Bioinformatics
module load sratoolkit

After the software is available, another important step is to configure it. There is a helpful page here about configuration. The most important detail will probably be to ensure that you set the cache location to somewhere with plentiful storage space.

Note: On Great Lakes, the cache will likely be automatically be set to your home directory. This can be a problem, since user home directories have less than 100GB available. Setting this to the scratch space might be a good option.

Finding dataset(s) of interest:

NCBI has some useful help pages here

If you already have e.g. your relevant project accession ID, and want to get associated run accession IDs, you may also find it useful to use the SRA Run Selector tool.

When you have your list of run accessions, e.g. SRR7777895, then you will be ready to download your sequences using the SRA Toolkit

Downloading your sequences using SRA Toolkit

Once again there are helpful documentation pages for this part of the SRA Toolkit, which you can find here. The SRA Toolkit documentation recommends using two steps to download fastq files: prefetch which downloads relevant data, followed by fasterq-dump which creates the fastq formatted files from the prefetched data.

Note: fasterq-dump is an updated and streamlined version of an older software, fastq-dump. You may encounter older blog posts which reference fastq-dump, or you may hear from colleagues about using it. Either is fine to use, and both of them are part of SRA Toolkit, but it seems fasterq-dump is recommended going forward.

Note: It is also possible to directly use fastq-dump without first using prefetch. However, it will be slow and prone to failure with any network issues.

LS0tCnRpdGxlOiAiTW9kdWxlIDAxOiBXYXJtaW5nIHVwIgphdXRob3I6ICJVTSBCaW9pbmZvcm1hdGljcyBDb3JlIgpvdXRwdXQ6CiAgICAgICAgaHRtbF9kb2N1bWVudDoKICAgICAgICAgICAgaW5jbHVkZXM6CiAgICAgICAgICAgICAgICBpbl9oZWFkZXI6IGhlYWRlci5odG1sCiAgICAgICAgICAgIHRoZW1lOiBwYXBlcgogICAgICAgICAgICB0b2M6IHRydWUKICAgICAgICAgICAgdG9jX2RlcHRoOiA0CiAgICAgICAgICAgIHRvY19mbG9hdDogdHJ1ZQogICAgICAgICAgICBudW1iZXJfc2VjdGlvbnM6IGZhbHNlCiAgICAgICAgICAgIGZpZ19jYXB0aW9uOiB0cnVlCiAgICAgICAgICAgIG1hcmtkb3duOiBHRk0KICAgICAgICAgICAgY29kZV9kb3dubG9hZDogdHJ1ZQotLS0KPHN0eWxlIHR5cGU9InRleHQvY3NzIj4KYm9keXsgLyogTm9ybWFsICAqLwogICAgICBmb250LXNpemU6IDE0cHQ7CiAgfQpwcmUgewogIGZvbnQtc2l6ZTogMTJwdAp9Cjwvc3R5bGU+CgojIFdhcm1pbmcgVXAKCkluIHRoaXMgbW9kdWxlLCB3ZSB3aWxsOgoKKiBjb3ZlciBiYXNpYyBtYXRlcmlhbHMgbmVlZGVkCiogZmFtaWxpYXJpemUgb3Vyc2VsdmVzIHdpdGggcmVtb3RlIGNvbXB1dGluZwoqIHByZXBhcmUgZm9yIGxhdGVyIG1vZHVsZXMKCiMjIEJ1aWxkaW5nIEJsb2NrcwoKPGJyPgo8YnI+Cjxicj4KPGltZyBzcmM9ImltYWdlcy9idWlsZGluZy1ibG9ja3MucG5nIiB3aWR0aD0iODAwIiAvPgo8YnI+Cjxicj4KPGJyPgoKCiMjIEV4YW1wbGUgRmlsZXMgRXhlcmNpc2U6CgoxLiBEb3dubG9hZCB0aGUgemlwcGVkIGFyY2hpdmUgZnJvbSB0aGUgc2xhY2sgY2hhbm5lbAoyLiBMb2NhdGUsIG1vdmUgKGlmIGRlc2lyZWQpLCBhbmQgdW56aXAgaXQKMy4gUmVtZW1iZXIgaG93IHRvIGFjY2VzcyB0aGVzZSBmaWxlcwoKPGJyPgo8YnI+Cjxicj4KPGJyPgo8YnI+Cjxicj4KCiMjIExvY2FsIHZzIFJlbW90ZSBFeGVyY2lzZToKCjEuIEJlY29tZSBmYW1pbGlhciB3aXRoIHRoZSBhcHBlYXJhbmNlIG9mIHRoZSBsb2NhbCBzaGVsbAoyLiBCcmllZmx5IGV4cGxvcmUgeW91ciBsb2NhbCBmaWxlcyAob3B0aW9uYWwpCjMuIExvZyBpbiB0byB0aGUgYXdzIGluc3RhbmNlIHdpdGggYHNzaCA8dXNlcm5hbWU+QGJmeC13b3Jrc2hvcDAxLm1lZC51bWljaC5lZHVgCjQuIEJlY29tZSBmYW1pbGlhciB3aXRoIGFwcGVhcmFuY2Ugb2YgdGhlIHJlbW90ZSBzaGVsbAo1LiBVc2UgYGxzYCB0byB2aWV3IHJlZmVyZW5jZXMKNi4gVXNlIGBsc2AgdG8gdmlldyBpbnB1dCBmYXN0cSBmaWxlcwo3LiBVc2UgYG1rZGlyYCB0byBjcmVhdGUgYSBmb2xkZXIgZm9yIG91ciBhbmFseXNpcwoKPGJyPgo8YnI+Cjxicj4KCmBgYAojIEZhbWlsaWFyaXplIHdpdGggbG9jYWwgc2hlbGwgYXBwZWFyYW5jZQojIEJyaWVmbHkgZXhwbG9yZSB5b3VyIGxvY2FsIGZpbGVzCmxzIC1sCiMgTG9nIGluIHRvIHRoZSBhd3MgaW5zdGFuY2UgdmlhIHNzaApzc2ggPHVzZXJuYW1lPkBiZngtd29ya3Nob3AwMS5tZWQudW1pY2guZWR1CiMgRmFtaWxpYXJpemUgeW91cnNlbGYgd2l0aCBkaWZmZXJlbmNlcyBiZXR3ZWVuIGxvY2FsIGFuZCByZW1vdGUgc2hlbGwKIyBWaWV3IG91ciByZWZlcmVuY2VzCmxzIH4vUlNEX1NoZWxsL3JlZnMKIyBWaWV3IG91ciBpbnB1dCBmYXN0cSBmaWxlcwpscyB+L1JTRF9TaGVsbC9yZWFkcwojIENyZWF0ZSBhIGZvbGRlciBmb3Igb3VyIGFuYWx5c2lzCm1rZGlyIH4vUlNEX1NoZWxsL2FuYWx5c2lzCmBgYAoKCjxicj4KPGJyPgo8YnI+Cgo8ZGV0YWlscz4KPHN1bW1hcnk+Q2xpY2sgaGVyZSBmb3IgZGVtb25zdHJhdGlvbiBjb21wYXJpbmcgbG9jYWwgV2luZG93cyBjb21tYW5kIHByb21wdCB2cyByZW1vdGUgKEFXUyk8L3N1bW1hcnk+Cgo8aW1nIHNyYz0iaW1hZ2VzL2xvY2FsX3ZfcmVtb3RlLmdpZiIgd2lkdGg9IjgwMCIgLz4KCjwvZGV0YWlscz4KCjxicj4KPGJyPgo8YnI+Cgo8ZGV0YWlscz4KPHN1bW1hcnk+Q2xpY2sgaGVyZSBmb3IgbW9yZSBpbmZvIGFib3V0IHJldHJpZXZpbmcgc2VxdWVuY2VzIGZyb20gU1JBPC9zdW1tYXJ5PgoKVGhlIFNlcXVlbmNlIFJlYWQgQXJjaGl2ZSAoU1JBKSBpcyBhbiBpbW1lbnNlIHNvdXJjZSBvZiBwdWJsaWNseS1hdmFpbGFibGUgaGlnaC10aHJvdWdocHV0IHNlcXVlbmNpbmcgZGF0YSwgaG9zdGVkIGJ5IHRoZSBOSUgncyBOYXRpb25hbCBDZW50ZXIgZm9yIEJpb3RlY2hub2xvZ3kgSW5mb3JtYXRpb24gKE5DQkkpLiBJdCBhbHNvIGNvbnRhaW5zIGRhdGEgZnJvbSB0aGUgRXVyb3BlYW4gQmlvaW5mb3JtYXRpY3MgSW5zdGl0dXRlIChFTUJMLUVCSSksIGFuZCB0aGUgRE5BIERhdGEgQmFuayBvZiBKYXBhbiAoRERCSikuCgpUaGVzZSBkYXRhIGNhbiBiZSB1c2VmdWwgZm9yIHZhbGlkYXRpbmcgZXhwZXJpbWVudGFsIHJlc3VsdHMsIGFuZCB0aGV5IGNhbiBhbHNvIGFsbG93IGZvciB0aGUgc2F2dnkgcmVzZWFyY2hlciB0byBsZXZlcmFnZSB0aGlzIGRhdGEgdG8gc2hlZCBsaWdodCBvbiB0aGVpciBvd24gcmVzZWFyY2ggcXVlc3Rpb25zLgoKSW4gdGhlc2UgZXhlcmNpc2VzLCB3ZSdyZSB1c2luZyBkYXRhIGZyb20gU1JBIHRvIHByb3ZpZGUgYSBnb29kIGV4YW1wbGUgb2YgYW4gUk5BU2VxIGRhdGFzZXQsIGFuZCBhbHNvIHRvIGRlbW9uc3RyYXRlIHRoZSBwcm9jZXNzIG9mIHZhbGlkYXRpbmcgZXhwZXJpbWVudGFsIHJlc3VsdHMgb2YgYSBwdWJsaXNoZWQgYXJ0aWNsZSwgc3RhcnRpbmcgZnJvbSB0aGUgcmF3IHNlcXVlbmNpbmcgZGF0YS4KCkJlbG93IHdlIHByb3ZpZGUgc29tZSBpbnN0cnVjdGlvbiBhbmQgc3VnZ2VzdGVkIHN0YXJ0aW5nIHBvaW50cyBmb3IgZWFjaCBvZiB0aGUgc3RlcHMgeW91J2QgdGFrZSB0byByZXRyaWV2ZSBzZXF1ZW5jZSBkYXRhIGZyb20gU1JBIGZvciB5b3Vyc2VsZi4gR2VuZXJhbGx5LCB0aGUgc3RlcHMgYXJlOgoKLSBJbnN0YWxsIGFuZCBjb25maWd1cmUgdGhlIFNSQSBUb29sa2l0IHNvZnR3YXJlCi0gRmluZCB5b3VyIGRhdGFzZXQocykgb2YgaW50ZXJlc3QKLSBEb3dubG9hZCB5b3VyIHNlcXVlbmNlcyB1c2luZyBTUkEgVG9vbGtpdAoKCiMjIyBJbnN0YWxsaW5nL0NvbmZpZ3VyaW5nIFNSQSBUb29sa2l0CgpXZSByZWNvbW1lbmQgdXNpbmcgSGlnaCBQZXJmb3JtYW5jZSBDb21wdXRlIChIUEMpIHJlc291cmNlcyBpZiB5b3Ugd2FudCB0byBwZXJmb3JtIGFuIGFuYWx5c2lzIG9uIHlvdXIgb3duLiBBdCB0aGUgVW5pdmVyc2l0eSBvZiBNaWNoaWdhbiwgQWR2YW5jZWQgUmVzZWFyY2ggQ29tcHV0aW5nIChBUkMpIHByb3ZpZGVzIHRoZXNlIHJlc291cmNlcywgb25lIHlvdSBtYXkgaGVhciBvZiBvZnRlbiBpcyBrbm93biBhcyAiVGhlIEdyZWF0IExha2VzIENsdXN0ZXIiLiBUaGVyZSwgdGhleSBwcm92aWRlIGEgc29mdHdhcmUgbW9kdWxlIGBzcmF0b29sa2l0YCB0aGF0IHlvdSBjYW4gdXNlLiBUaGlzIHdheSwgdGhlIHNvZnR3YXJlIGlzIGFscmVhZHkgaW5zdGFsbGVkIGZvciB5b3UhIFRoZW4gaXQgaXMgdmVyeSBlYXN5IHRvIGxvYWQgdGhpcyBtb2R1bGUgdG8gZ2l2ZSBhY2Nlc3MgdG8gdGhlIHNvZnR3YXJlLgoKICAgICNZb3UgbXVzdCBsb2FkIHRoZSBCaW9pbmZvcm1hdGljcyBtb2R1bGUsIHRoZW4gc3JhdG9vbGtpdAogICAgbW9kdWxlIGxvYWQgQmlvaW5mb3JtYXRpY3MKICAgIG1vZHVsZSBsb2FkIHNyYXRvb2xraXQKCkFmdGVyIHRoZSBzb2Z0d2FyZSBpcyBhdmFpbGFibGUsIGFub3RoZXIgaW1wb3J0YW50IHN0ZXAgaXMgdG8gY29uZmlndXJlIGl0LiBUaGVyZSBpcyBhIFtoZWxwZnVsIHBhZ2UgaGVyZSBhYm91dCBjb25maWd1cmF0aW9uXShodHRwczovL2dpdGh1Yi5jb20vbmNiaS9zcmEtdG9vbHMvd2lraS8wMy4tUXVpY2stVG9vbGtpdC1Db25maWd1cmF0aW9uKS4gVGhlIG1vc3QgaW1wb3J0YW50IGRldGFpbCB3aWxsIHByb2JhYmx5IGJlIHRvIGVuc3VyZSB0aGF0IHlvdSBzZXQgdGhlIGNhY2hlIGxvY2F0aW9uIHRvIHNvbWV3aGVyZSB3aXRoIHBsZW50aWZ1bCBzdG9yYWdlIHNwYWNlLgoKPiBOb3RlOiBPbiBHcmVhdCBMYWtlcywgdGhlIGNhY2hlIHdpbGwgbGlrZWx5IGJlIGF1dG9tYXRpY2FsbHkgYmUgc2V0IHRvIHlvdXIgaG9tZSBkaXJlY3RvcnkuIFRoaXMgY2FuIGJlIGEgcHJvYmxlbSwgc2luY2UgdXNlciBob21lIGRpcmVjdG9yaWVzIGhhdmUgbGVzcyB0aGFuIDEwMEdCIGF2YWlsYWJsZS4gU2V0dGluZyB0aGlzIHRvIHRoZSBbc2NyYXRjaCBzcGFjZV0oaHR0cHM6Ly9hcmMudW1pY2guZWR1L3NjcmF0Y2gtc3RvcmFnZS8pIG1pZ2h0IGJlIGEgZ29vZCBvcHRpb24uCgojIyMgRmluZGluZyBkYXRhc2V0KHMpIG9mIGludGVyZXN0OgoKTkNCSSBoYXMgc29tZSBbdXNlZnVsIGhlbHAgcGFnZXMgaGVyZV0oaHR0cHM6Ly93d3cubmNiaS5ubG0ubmloLmdvdi9zcmEvZG9jcy9zcmFzZWFyY2gvI2Jhc2ljLXNlYXJjaC1pbi1zcmEpCgpJZiB5b3UgYWxyZWFkeSBoYXZlIGUuZy4geW91ciByZWxldmFudCBwcm9qZWN0IGFjY2Vzc2lvbiBJRCwgYW5kIHdhbnQgdG8gZ2V0IGFzc29jaWF0ZWQgcnVuIGFjY2Vzc2lvbiBJRHMsIHlvdSBtYXkgYWxzbyBmaW5kIGl0IHVzZWZ1bCB0byB1c2UgdGhlIFtTUkEgUnVuIFNlbGVjdG9yIHRvb2xdKGh0dHBzOi8vd3d3Lm5jYmkubmxtLm5paC5nb3YvVHJhY2VzL3N0dWR5LykuCgpXaGVuIHlvdSBoYXZlIHlvdXIgbGlzdCBvZiBydW4gYWNjZXNzaW9ucywgZS5nLiBgU1JSNzc3Nzg5NWAsIHRoZW4geW91IHdpbGwgYmUgcmVhZHkgdG8gZG93bmxvYWQgeW91ciBzZXF1ZW5jZXMgdXNpbmcgdGhlIFNSQSBUb29sa2l0CgojIyMgRG93bmxvYWRpbmcgeW91ciBzZXF1ZW5jZXMgdXNpbmcgU1JBIFRvb2xraXQKCk9uY2UgYWdhaW4gdGhlcmUgYXJlIGhlbHBmdWwgZG9jdW1lbnRhdGlvbiBwYWdlcyBmb3IgdGhpcyBwYXJ0IG9mIHRoZSBTUkEgVG9vbGtpdCwgd2hpY2ggeW91IGNhbiBmaW5kIFtoZXJlXShodHRwczovL2dpdGh1Yi5jb20vbmNiaS9zcmEtdG9vbHMvd2lraS8wOC4tcHJlZmV0Y2gtYW5kLWZhc3RlcnEtZHVtcCkuIFRoZSBTUkEgVG9vbGtpdCBkb2N1bWVudGF0aW9uIHJlY29tbWVuZHMgdXNpbmcgdHdvIHN0ZXBzIHRvIGRvd25sb2FkIGZhc3RxIGZpbGVzOiBgcHJlZmV0Y2hgIHdoaWNoIGRvd25sb2FkcyByZWxldmFudCBkYXRhLCBmb2xsb3dlZCBieSBgZmFzdGVycS1kdW1wYCB3aGljaCBjcmVhdGVzIHRoZSBmYXN0cSBmb3JtYXR0ZWQgZmlsZXMgZnJvbSB0aGUgcHJlZmV0Y2hlZCBkYXRhLgoKTm90ZTogYGZhc3RlcnEtZHVtcGAgaXMgYW4gdXBkYXRlZCBhbmQgc3RyZWFtbGluZWQgdmVyc2lvbiBvZiBhbiBvbGRlciBzb2Z0d2FyZSwgYGZhc3RxLWR1bXBgLiBZb3UgbWF5IGVuY291bnRlciBvbGRlciBibG9nIHBvc3RzIHdoaWNoIHJlZmVyZW5jZSBgZmFzdHEtZHVtcGAsIG9yIHlvdSBtYXkgaGVhciBmcm9tIGNvbGxlYWd1ZXMgYWJvdXQgdXNpbmcgaXQuIEVpdGhlciBpcyBmaW5lIHRvIHVzZSwgYW5kIGJvdGggb2YgdGhlbSBhcmUgcGFydCBvZiBTUkEgVG9vbGtpdCwgYnV0IGl0IHNlZW1zIGBmYXN0ZXJxLWR1bXBgIGlzIHJlY29tbWVuZGVkIGdvaW5nIGZvcndhcmQuCgpOb3RlOiBJdCBpcyBhbHNvIHBvc3NpYmxlIHRvIGRpcmVjdGx5IHVzZSBgZmFzdHEtZHVtcGAgd2l0aG91dCBmaXJzdCB1c2luZyBgcHJlZmV0Y2hgLiBIb3dldmVyLCBpdCB3aWxsIGJlIHNsb3cgYW5kIHByb25lIHRvIGZhaWx1cmUgd2l0aCBhbnkgbmV0d29yayBpc3N1ZXMuCgo8L2RldGFpbHM+Cgo8YnI+Cjxicj4KPGJyPgo8aW1nIHNyYz0iaW1hZ2VzL2J1aWxkaW5nLWJsb2Nrcy1jaGVja21hcmsucG5nIiB3aWR0aD0iODAwIiAvPgo8YnI+Cjxicj4KPGJyPgo8YnI+Cjxicj4K

Module 01: Warming up

UM Bioinformatics Core