1 [Breakout Exercise 2] - Finding annotations

15 Minutes

1.0.1 Instructions:

One group member should share their screen in the breakout room. If nobody volunteers, a helper may randomly select someone.
The group members should discuss the exercise and work together to find a solution.
If there is time after a solution is found, allow all members to complete the exercise.

Add the gene symbols stored in the GeneKey object to the DE results table res_WT and store the new table in an object named res_WT_anno.

Hint:

Look at the documentation for either the merge function or the tidyverse join function for ideas on how to combine the GeneKey and res_WT tables

## check the biomaRt key we created to remember the structure
head(GeneKey)

##      ensembl_gene_id external_gene_name
## 1 ENSMUSG00000000001              Gnai3
## 2 ENSMUSG00000000028              Cdc45
## 3 ENSMUSG00000000031                H19
## 4 ENSMUSG00000000037              Scml2
## 5 ENSMUSG00000000049               Apoh
## 6 ENSMUSG00000000056               Narf

Click for solution for adding annotations

First, create a new table called res_WT_anno that includes a column with the ENSEMBL ids named genes using the mutate function. Then use the left_join function to combine the GeneKey table with the res_WT DE results.

res_WT_anno <- as.data.frame(res_WT) %>%
  mutate(genes = row.names(res_WT)) %>%
  left_join(GeneKey, by =c("genes" = "ensembl_gene_id")) %>%
  relocate(c("genes", "external_gene_name")) # optionally, re-order columns to make output more readable

head(res_WT_anno)

##                genes external_gene_name    baseMean log2FoldChange      lfcSE        stat
## 1 ENSMUSG00000000001              Gnai3 6255.632164   -0.014024321 0.09301588 -0.15077341
## 2 ENSMUSG00000000028              Cdc45 1337.874474    0.522421732 0.13599465  3.84148730
## 3 ENSMUSG00000000031                H19    3.773571   -1.156597290 1.60080258 -0.72251088
## 4 ENSMUSG00000000037              Scml2   27.563275   -0.279611867 0.47655119 -0.58674046
## 5 ENSMUSG00000000049               Apoh    2.256350    4.010718329 1.88912289  2.12305846
## 6 ENSMUSG00000000056               Narf 2194.251314   -0.008544091 0.17722204 -0.04821122
##         pvalue        padj
## 1 0.8801544640 0.960702559
## 2 0.0001222911 0.003948693
## 3 0.4699804359          NA
## 4 0.5573780290 0.804647138
## 5 0.0337489531          NA
## 6 0.9615479086 0.987888734

Alternatively, if you are more familiar with base functions:

res_WT_anno <- res_WT # copy table
res_WT_anno <- cbind(genes=row.names(res_WT_anno), res_WT_anno[ ,c(1:6)])
res_WT_anno <- as.data.frame(res_WT_anno)

# combine the two tables using the merge function (similar to join from `tidyverse`)
res_WT_anno <- merge(GeneKey, res_WT_anno, by.x = "ensembl_gene_id", by.y="genes", all.x = FALSE, all.y = TRUE)

head(res_WT_anno)

##      ensembl_gene_id external_gene_name    baseMean log2FoldChange      lfcSE        stat
## 1 ENSMUSG00000000001              Gnai3 6255.632164   -0.014024321 0.09301588 -0.15077341
## 2 ENSMUSG00000000028              Cdc45 1337.874474    0.522421732 0.13599465  3.84148730
## 3 ENSMUSG00000000031                H19    3.773571   -1.156597290 1.60080258 -0.72251088
## 4 ENSMUSG00000000037              Scml2   27.563275   -0.279611867 0.47655119 -0.58674046
## 5 ENSMUSG00000000049               Apoh    2.256350    4.010718329 1.88912289  2.12305846
## 6 ENSMUSG00000000056               Narf 2194.251314   -0.008544091 0.17722204 -0.04821122
##         pvalue        padj
## 1 0.8801544640 0.960702559
## 2 0.0001222911 0.003948693
## 3 0.4699804359          NA
## 4 0.5573780290 0.804647138
## 5 0.0337489531          NA
## 6 0.9615479086 0.987888734

Notice that not all genes were annotated with an ENSEMBl gene id or gene description. While we are able to annotate our results, this is a helpful reminder that gene symbol is often not a good unique identifier.

LS0tCnRpdGxlOiAiRGF5IDMgLSBNb2R1bGUgMTEgR2VuZSBBbm5vdGF0aW9ucyIKYXV0aG9yOiAiVU0gQmlvaW5mb3JtYXRpY3MgQ29yZSIKZGF0ZTogImByIFN5cy5EYXRlKClgIgpvdXRwdXQ6CiAgICAgICAgaHRtbF9kb2N1bWVudDoKICAgICAgICAgICAgaW5jbHVkZXM6CiAgICAgICAgICAgICAgICBpbl9oZWFkZXI6IGhlYWRlci5odG1sCiAgICAgICAgICAgIHRoZW1lOiBwYXBlcgogICAgICAgICAgICB0b2M6IHRydWUKICAgICAgICAgICAgdG9jX2RlcHRoOiA0CiAgICAgICAgICAgIHRvY19mbG9hdDogdHJ1ZQogICAgICAgICAgICBudW1iZXJfc2VjdGlvbnM6IHRydWUKICAgICAgICAgICAgZmlnX2NhcHRpb246IHRydWUKICAgICAgICAgICAgbWFya2Rvd246IEdGTQogICAgICAgICAgICBjb2RlX2Rvd25sb2FkOiB0cnVlCi0tLQo8c3R5bGUgdHlwZT0idGV4dC9jc3MiPgpib2R5eyAvKiBOb3JtYWwgICovCiAgICAgIGZvbnQtc2l6ZTogMTRwdDsKICB9CnByZSB7CiAgZm9udC1zaXplOiAxMnB0Cn0KY29kZS5yewogIGZvbnQtc2l6ZTogMTJwdDsKfQo8L3N0eWxlPgoKPCEtLS0gQWxsb3cgdGhlIHBhZ2UgdG8gYmUgd2lkZXIgLS0tPgo8c3R5bGU+CiAgICBib2R5IC5tYWluLWNvbnRhaW5lciB7CiAgICAgICAgbWF4LXdpZHRoOiAxMjAwcHg7CiAgICB9Cjwvc3R5bGU+Cgo8YnI+CgojIFtCcmVha291dCBFeGVyY2lzZSAyXSAtIEZpbmRpbmcgYW5ub3RhdGlvbnMKCjxicj4KCgpgYGB7ciBNb2R1bGVzLCBldmFsPVRSVUUsIGVjaG89RkFMU0UsIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9CmxpYnJhcnkoREVTZXEyKQpsaWJyYXJ5KGdncGxvdDIpCmxpYnJhcnkodGlkeXIpCmxpYnJhcnkoZHBseXIpCmxpYnJhcnkobWF0cml4U3RhdHMpCmxpYnJhcnkoZ2dyZXBlbCkKbGlicmFyeShwaGVhdG1hcCkKbGlicmFyeShSQ29sb3JCcmV3ZXIpCmxvYWQoInJkYXRhL1J1bm5pbmdEYXRhLlJEYXRhIikKYGBgCgoKKioxNSBNaW51dGVzKioKCjxicj4KCgoKPGJyPgoKIyMjIEluc3RydWN0aW9uczoKCjxicj4KCi0gT25lIGdyb3VwIG1lbWJlciBzaG91bGQgc2hhcmUgdGhlaXIgc2NyZWVuIGluIHRoZSBicmVha291dCByb29tLiBJZiBub2JvZHkgdm9sdW50ZWVycywgYSBoZWxwZXIgbWF5IHJhbmRvbWx5IHNlbGVjdCBzb21lb25lLgotIFRoZSBncm91cCBtZW1iZXJzIHNob3VsZCBkaXNjdXNzIHRoZSBleGVyY2lzZSBhbmQgd29yayB0b2dldGhlciB0byBmaW5kIGEgc29sdXRpb24uCi0gSWYgdGhlcmUgaXMgdGltZSBhZnRlciBhIHNvbHV0aW9uIGlzIGZvdW5kLCBhbGxvdyBhbGwgbWVtYmVycyB0byBjb21wbGV0ZSB0aGUgZXhlcmNpc2UuCgo8YnI+CgotIEFkZCB0aGUgZ2VuZSBzeW1ib2xzIHN0b3JlZCBpbiB0aGUgYEdlbmVLZXlgIG9iamVjdCB0byB0aGUgREUgcmVzdWx0cyB0YWJsZSBgcmVzX1dUYCBhbmQgc3RvcmUgdGhlIG5ldyB0YWJsZSBpbiBhbiBvYmplY3QgbmFtZWQgYHJlc19XVF9hbm5vYC4KCgo+IEhpbnQ6Cj4gCj4gTG9vayBhdCB0aGUgZG9jdW1lbnRhdGlvbiBmb3IgZWl0aGVyIHRoZSBgbWVyZ2VgIGZ1bmN0aW9uIG9yIHRoZSB0aWR5dmVyc2UgYGpvaW5gIGZ1bmN0aW9uIGZvciBpZGVhcyBvbiBob3cgdG8gY29tYmluZSB0aGUgYEdlbmVLZXlgIGFuZCBgcmVzX1dUYCB0YWJsZXMKPgoKYGBge3IgQ2hlY2tLZXl9CiMjIGNoZWNrIHRoZSBiaW9tYVJ0IGtleSB3ZSBjcmVhdGVkIHRvIHJlbWVtYmVyIHRoZSBzdHJ1Y3R1cmUKaGVhZChHZW5lS2V5KQpgYGAKCjxicj4KCgo8ZGV0YWlscz4KICAgIDxzdW1tYXJ5PipDbGljayBmb3Igc29sdXRpb24gZm9yIGFkZGluZyBhbm5vdGF0aW9ucyo8L3N1bW1hcnk+CiAgICBGaXJzdCwgY3JlYXRlIGEgbmV3IHRhYmxlIGNhbGxlZCBgcmVzX1dUX2Fubm9gIHRoYXQgaW5jbHVkZXMgYSBjb2x1bW4gd2l0aCB0aGUgRU5TRU1CTCBpZHMgbmFtZWQgYGdlbmVzYCB1c2luZyB0aGUgYG11dGF0ZWAgZnVuY3Rpb24uIFRoZW4gdXNlIHRoZSBgbGVmdF9qb2luYCBmdW5jdGlvbiB0byBjb21iaW5lIHRoZSBgR2VuZUtleWAgdGFibGUgd2l0aCB0aGUgYHJlc19XVGAgREUgcmVzdWx0cy4KYGBge3IgdXBkYXRlREVUYWJsZVRpZHlyfQpyZXNfV1RfYW5ubyA8LSBhcy5kYXRhLmZyYW1lKHJlc19XVCkgJT4lCiAgbXV0YXRlKGdlbmVzID0gcm93Lm5hbWVzKHJlc19XVCkpICU+JQogIGxlZnRfam9pbihHZW5lS2V5LCBieSA9YygiZ2VuZXMiID0gImVuc2VtYmxfZ2VuZV9pZCIpKSAlPiUKICByZWxvY2F0ZShjKCJnZW5lcyIsICJleHRlcm5hbF9nZW5lX25hbWUiKSkgIyBvcHRpb25hbGx5LCByZS1vcmRlciBjb2x1bW5zIHRvIG1ha2Ugb3V0cHV0IG1vcmUgcmVhZGFibGUKCmhlYWQocmVzX1dUX2Fubm8pCmBgYAogICAgQWx0ZXJuYXRpdmVseSwgaWYgeW91IGFyZSBtb3JlIGZhbWlsaWFyIHdpdGggYmFzZSBmdW5jdGlvbnM6CmBgYHtyIHVwZGF0ZURFVGFibGVCYXNlfQpyZXNfV1RfYW5ubyA8LSByZXNfV1QgIyBjb3B5IHRhYmxlCnJlc19XVF9hbm5vIDwtIGNiaW5kKGdlbmVzPXJvdy5uYW1lcyhyZXNfV1RfYW5ubyksIHJlc19XVF9hbm5vWyAsYygxOjYpXSkKcmVzX1dUX2Fubm8gPC0gYXMuZGF0YS5mcmFtZShyZXNfV1RfYW5ubykKCiMgY29tYmluZSB0aGUgdHdvIHRhYmxlcyB1c2luZyB0aGUgbWVyZ2UgZnVuY3Rpb24gKHNpbWlsYXIgdG8gam9pbiBmcm9tIGB0aWR5dmVyc2VgKQpyZXNfV1RfYW5ubyA8LSBtZXJnZShHZW5lS2V5LCByZXNfV1RfYW5ubywgYnkueCA9ICJlbnNlbWJsX2dlbmVfaWQiLCBieS55PSJnZW5lcyIsIGFsbC54ID0gRkFMU0UsIGFsbC55ID0gVFJVRSkKCmhlYWQocmVzX1dUX2Fubm8pCmBgYAogICAgTm90aWNlIHRoYXQgbm90IGFsbCBnZW5lcyB3ZXJlIGFubm90YXRlZCB3aXRoIGFuIEVOU0VNQmwgZ2VuZSBpZCBvciBnZW5lIGRlc2NyaXB0aW9uLiBXaGlsZSB3ZSBhcmUgYWJsZSB0byBhbm5vdGF0ZSBvdXIgcmVzdWx0cywgdGhpcyBpcyBhIGhlbHBmdWwgcmVtaW5kZXIgdGhhdCBnZW5lIHN5bWJvbCBpcyBvZnRlbiBub3QgYSBnb29kIHVuaXF1ZSBpZGVudGlmaWVyLgoKPC9kZXRhaWxzPgoKICAKYGBge3IgV3JpdGVPdXQuUkRhdGEsIGV2YWw9RkFMU0UsIGVjaG89RkFMU0UsIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9CiNIaWRkZW4gY29kZSBibG9jayB0byB3cml0ZSBvdXQgZGF0YSBmb3Iga25pdHRpbmcKc2F2ZS5pbWFnZShmaWxlID0gInJkYXRhL1J1bm5pbmdEYXRhLlJEYXRhIikKYGBgCgoK

Day 3 - Module 11 Gene Annotations

UM Bioinformatics Core

2022-03-16

1 [Breakout Exercise 2] - Finding annotations

1.0.1 Instructions: