allow aliases to be used - respect sample order when making final heatmap. resolves #6

esherm · esherm · commit ba6cdf96ecfc · 2015-05-19T12:44:50.000-04:00
diff --git a/genomicHeatmapMaker.R b/genomicHeatmapMaker.R
@@ -9,16 +9,36 @@ library(pipeUtils)
 
 referenceGenome <- "hg18"
 heat_map_result_dir <- "./heatmap"
-sampleName <- c("pool1-1", "E9")
+sampleNameInput <- c("GTSP0308%", "GTSP0309%")
+#order should be preserved in final heatmap
+names(sampleNameInput) <- c("Tcells", "Monocytes")
 
 # should have at least two samples
-stopifnot(length(sampleName) != 1)
+stopifnot(length(sampleNameInput) != 1)
+
+#if no names are given, just duplicate the sampleNames
+if(is.null(names(sampleNameInput))){
+  names(sampleNameInput) <- sampleNameInput
+}
+
+stopifnot(length(sampleNameInput) == length(unique(names(sampleNameInput))))
+
+#dereplicating wildcards and changing 'originalNames' to represent the
+#user-given alias
+sampleNames_originalNames <- getSampleNamesLike(sampleNameInput)
+sampleNames_originalNames$originalNames <-
+  names(sampleNameInput)[match(sampleNames_originalNames$originalNames,
+                           sampleNameInput)]
+
+sampleNames <- sampleNames_originalNames$sampleNames
+names(sampleNames) <- sampleNames_originalNames$originalNames
+
 # check that all samples processed with the same reference genome
-stopifnot(unique(getRefGenome(sampleName)$refGenome) == referenceGenome)
-stopifnot(all(setNameExists(sampleName)))
+stopifnot(unique(getRefGenome(sampleNames)$refGenome) == referenceGenome)
+stopifnot(all(setNameExists(sampleNames)))
 
 reference_genome_sequence <- get_reference_genome(referenceGenome)
-sites_mrcs <- get_integration_sites_with_mrcs(sampleName, reference_genome_sequence)
+sites_mrcs <- get_integration_sites_with_mrcs(sampleNames, reference_genome_sequence)
 
 # TODO: populate from local database, at present pulled from UCSC web-site
 refSeq_genes <- getRefSeq_genes(referenceGenome)
@@ -31,15 +51,15 @@ oncogenes <- get_oncogene_from_file(oncogene_file)
 # END annotation loading
 
 sites_mrcs <- getSitesInFeature(
-            sites_mrcs, refSeq_genes, "within_refSeq_gene", asBool=TRUE)
+  sites_mrcs, refSeq_genes, "within_refSeq_gene", asBool=TRUE)
 
 # is there oncogene closer than 50k
 refSeq_gene_symbols <- refSeq_genes$name2
 is_refSeq_oncogene <- is_onco_gene(refSeq_gene_symbols, oncogenes)
 refSeq_oncogene <- refSeq_genes[is_refSeq_oncogene]
 sites_mrcs <- getNearestFeature(
-    sites_mrcs, refSeq_oncogene, dists.only=TRUE, colnam="onco")
-    #sites_mrcs, refSeq_oncogene, dists.only=TRUE, colnam="onco.100k")
+  sites_mrcs, refSeq_oncogene, dists.only=TRUE, colnam="onco")
+#sites_mrcs, refSeq_oncogene, dists.only=TRUE, colnam="onco.100k")
 sites_mrcs$onco.100k <- abs(sites_mrcs$oncoDist) <= 50000
 sites_mrcs$oncoDist <- NULL
 # end oncogene
@@ -48,35 +68,39 @@ sites_mrcs <- getPositionalValuesOfFeature(sites_mrcs, refSeq_genes)
 
 window_size_refSeq <- c("10k"=1e4, "100k"=1e5, "1M"=1e6)
 sites_mrcs <- getFeatureCounts(sites_mrcs, refSeq_genes, "refSeq_counts", 
-                          width=window_size_refSeq)
+                               width=window_size_refSeq)
 
 window_size_GC <- c("50"=50, "100"=100, "250"=250,
-    "500"=500, "1k"=1000, "2k"=2000, "5k"=5000,
-    "10k"=1e4, "25k"=2.5e4, "50k"=5e4, "100k"=1e5, 
-    "250k"=2.5e5, "500k"=5e5, "1M"=1e6)
+                    "500"=500, "1k"=1000, "2k"=2000, "5k"=5000,
+                    "10k"=1e4, "25k"=2.5e4, "50k"=5e4, "100k"=1e5, 
+                    "250k"=2.5e5, "500k"=5e5, "1M"=1e6)
 sites_mrcs <- getGCpercentage(
-    sites_mrcs, "GC", window_size_GC, reference_genome_sequence)
+  sites_mrcs, "GC", window_size_GC, reference_genome_sequence)
 
 window_size_CpG_counts <- c("2k"=2e3, "10k"=1e4)
 sites_mrcs <- getFeatureCounts(sites_mrcs, CpG_islands, "CpG_counts", 
-                          width=window_size_CpG_counts)
+                               width=window_size_CpG_counts)
 
 window_size_CpG_density <- c("10k"=1e4, "100k"=1e5, "1M"=1e6)
 sites_mrcs <- getFeatureCounts(sites_mrcs, CpG_islands, "CpG_density", 
-                          width=window_size_CpG_density)
+                               width=window_size_CpG_density)
 sites_mrcs <- from_counts_to_density(sites_mrcs, 
-    "CpG_density", window_size_CpG_density)
+                                     "CpG_density", window_size_CpG_density)
 
 window_size_DNaseI <- c("1k"=1e3, "10k"=1e4, "100k"=1e5, "1M"=1e6)
 sites_mrcs <- getFeatureCounts(sites_mrcs, DNaseI, "DNaseI_count", 
-                          width=window_size_DNaseI)
+                               width=window_size_DNaseI)
 
 sites_mrcs <- as.data.frame(sites_mrcs)
 
 annotation_columns <- get_annotation_columns(sites_mrcs)
 
+#restore ordering of values in sites_mrcs$sampleName column so that heatmap
+#order reflects sample input order
+sites_mrcs$sampleName <- factor(sites_mrcs$sampleName, levels=names(sampleNameInput))
+
 rset <- with(sites_mrcs, ROC.setup(
-    rep(TRUE, nrow(sites_mrcs)), type, siteID, sampleName))
+  rep(TRUE, nrow(sites_mrcs)), type, siteID, sampleName))
 roc.res <- ROC.strata(annotation_columns, rset, add.var=TRUE, sites_mrcs)
 ROCSVG(roc.res, heat_map_result_dir)
 
diff --git a/utils.R b/utils.R
@@ -1,42 +1,54 @@
 getRefSeq_genes <- function(reference_genome) {
-    refSeq <- makeGRanges(
-        getUCSCtable("refGene", "RefSeq Genes", freeze=reference_genome),
-        freeze=reference_genome
-    )
+  refSeq <- makeGRanges(
+    getUCSCtable("refGene", "RefSeq Genes", freeze=reference_genome),
+    freeze=reference_genome
+  )
 }
 
 getCpG_islands <- function(reference_genome) {
-    cpg <- getUCSCtable("cpgIslandExt", "CpG Islands", freeze=reference_genome)
-    cpg$strand <- "*" # either strand
-    makeGRanges(cpg, freeze=reference_genome, chromCol='chrom')
+  cpg <- getUCSCtable("cpgIslandExt", "CpG Islands", freeze=reference_genome)
+  cpg$strand <- "*" # either strand
+  makeGRanges(cpg, freeze=reference_genome, chromCol='chrom')
 }
 
 getDNaseI <- function(reference_genome) {
-    DNaseI <- getUCSCtable("wgEncodeRegDnaseClustered", 
-        "DNase Clusters", freeze=reference_genome)
-    DNaseI$strand <- "*" # either strand
-    makeGRanges(DNaseI, freeze=reference_genome, chromCol='chrom')
+  DNaseI <- getUCSCtable("wgEncodeRegDnaseClustered", 
+                         "DNase Clusters", freeze=reference_genome)
+  DNaseI$strand <- "*" # either strand
+  makeGRanges(DNaseI, freeze=reference_genome, chromCol='chrom')
 }
 
-get_integration_sites_with_mrcs <- function(sampleName, refGenomeSeq) {
-    sites <- getUniqueSites(sampleName)
-    sites$type <- "insertion"
-
-    mrcs <- getMRCs(sampleName)
-    mrcs$type <- "match"
+get_integration_sites_with_mrcs <- function(sampleNames, refGenomeSeq) {
 
-    sites_mrcs <- rbind(sites, mrcs)
+  sampleNames <- split(sampleNames, names(sampleNames))
 
-    sites_mrcs <- makeGRanges(sites_mrcs, soloStart=TRUE,
-        chromCol='chr', strandCol='strand', startCol='position')
+  sites_mrcs <- lapply(seq(length(sampleNames)), function(x){
+    samplesToGet <- sampleNames[[x]] #only for this scope
+    alias <- names(sampleNames)[x]
 
-    #seqinfo needs to be exact here or trimming will be wrong
-    newSeqInfo <- seqinfo(refGenomeSeq)
-    seqInfo.new2old <- match(seqnames(newSeqInfo),
-                             seqnames(seqinfo(sites_mrcs)))
-    seqinfo(sites_mrcs, new2old=seqInfo.new2old) <- newSeqInfo
+    sites <- getUniqueSites(samplesToGet)
+    sites$type <- "insertion"
+    sites$sampleName <- alias
 
-    sites_mrcs
+    mrcs <- getMRCs(samplesToGet)
+    mrcs$type <- "match"
+    mrcs$sampleName <- alias
+
+    rbind(sites, mrcs)
+  })
+
+  sites_mrcs <- do.call(rbind, sites_mrcs)
+  
+  sites_mrcs <- makeGRanges(sites_mrcs, soloStart=TRUE,
+                            chromCol='chr', strandCol='strand', startCol='position')
+  
+  #seqinfo needs to be exact here or trimming will be wrong
+  newSeqInfo <- seqinfo(refGenomeSeq)
+  seqInfo.new2old <- match(seqnames(newSeqInfo),
+                           seqnames(seqinfo(sites_mrcs)))
+  seqinfo(sites_mrcs, new2old=seqInfo.new2old) <- newSeqInfo
+  
+  sites_mrcs
 }
 
 #' return genome seq for human readable UCSC format
@@ -51,86 +63,86 @@ get_reference_genome <- function(reference_genome) {
 }
 
 get_annotation_columns <- function(sites) {
-    granges_column_names <- c("seqnames", "start", "end", "width", "strand")
-    int_site_column_names <- c("siteID", "sampleName", "chr", "strand", "position")
-    required_columns <- unique(c(
-        granges_column_names, int_site_column_names, "type"))
-    stopifnot(all(required_columns %in% names(sites)))
-    setdiff(names(sites), required_columns)
+  granges_column_names <- c("seqnames", "start", "end", "width", "strand")
+  int_site_column_names <- c("siteID", "sampleName", "chr", "strand", "position")
+  required_columns <- unique(c(
+    granges_column_names, int_site_column_names, "type"))
+  stopifnot(all(required_columns %in% names(sites)))
+  setdiff(names(sites), required_columns)
 }
 
 from_counts_to_density <- function(sites, column_prefix, window_size) {
-    metadata <- mcols(sites)
-    sapply(seq(window_size), function(i) {
-        val <- window_size[i]
-        name <- names(window_size)[i]
-        column_name <- paste0(column_prefix, ".", name)
-        metadata[[column_name]] <<- metadata[[column_name]]/val
-    })
-    mcols(sites) <- metadata
-    sites
+  metadata <- mcols(sites)
+  sapply(seq(window_size), function(i) {
+    val <- window_size[i]
+    name <- names(window_size)[i]
+    column_name <- paste0(column_prefix, ".", name)
+    metadata[[column_name]] <<- metadata[[column_name]]/val
+  })
+  mcols(sites) <- metadata
+  sites
 }
 
 getPositionalValuesOfFeature <- function(sites, genomicData) {
-    #### Boundary Distances #### Nirav Malani code TODO: refactor into several functions
-    ## (refSeq boundary.dist), Start (refSeq start.dist), non-width (), General (general.width)
-    ## when inGene is FALSE then set following: ref.left.pos, ref.right.pos, ref.left.strand, ref.right.strand
-    ## when inGene is TRUE then set following: ref.start.pos, ref.end.pos, ref.gene.strand
-
-    ## prepare the new columns ##
-    colnam <- paste("ref", c("left.pos", "right.pos", "left.strand", "right.strand", 
-                             "start.pos", "end.pos", "gene.strand"), sep=".") 
-    mcols(sites)[colnam] <- NA
-
-    ## add the respective columns as needed ##
-    ## beware: precede returns range which is following the query and
-    ## follow returns the range which is preceding the query!
-    ## so do a switcheroo in terms of extracting the start & stop ##
-    left <- follow(sites, genomicData, ignore.strand=TRUE)
-    left[is.na(left) | sites$within_refSeq_gene] <- NA
-    rows <- na.omit(left)
-    sites$ref.left.pos[!is.na(left)] <- end(genomicData[rows])
-    sites$ref.left.strand[!is.na(left)] <- as.character(strand(genomicData[rows]))
-
-    right <- precede(sites, genomicData, ignore.strand=TRUE)
-    right[is.na(right) | sites$within_refSeq_gene] <- NA
-    rows <- na.omit(right)
-    sites$ref.right.pos[!is.na(right)] <- start(genomicData[rows])
-    sites$ref.right.strand[!is.na(right)] <- as.character(strand(genomicData[rows]))
-
-    inIt <- findOverlaps(sites, genomicData, ignore.strand=TRUE, select="arbitrary")
-    inIt[is.na(inIt) | !sites$within_refSeq_gene] <- NA
-    rows <- na.omit(inIt)
-    sites$ref.start.pos[!is.na(inIt)] <- start(genomicData[rows])
-    sites$ref.end.pos[!is.na(inIt)] <- end(genomicData[rows])
-    sites$ref.gene.strand[!is.na(inIt)] <- as.character(strand(genomicData[rows]))
-
-    sites$boundary.dist <-
-        eval(expression(pmin((ref.end.pos-position)/(ref.end.pos-ref.start.pos),
-                             (position-ref.start.pos)/(ref.end.pos-ref.start.pos),
-                             (ref.right.pos-position)/(ref.right.pos-ref.left.pos),
-                             (position-ref.left.pos)/(ref.right.pos-ref.left.pos),
-                             na.rm=T)), mcols(sites))
-
-    sites$start.dist <-
-        eval(expression(pmin(ifelse(ref.gene.strand=="-",
-                                    (ref.end.pos-position)/(ref.end.pos-ref.start.pos),
-                                    (position-ref.start.pos)/(ref.end.pos-ref.start.pos)),
-                             ifelse(ref.right.strand=="-",
-                                    (ref.right.pos-position)/(ref.right.pos-ref.left.pos),
-                                    NA),
-                             ifelse(ref.left.strand=="+",
-                                    (position-ref.left.pos)/(ref.right.pos-ref.left.pos),
-                                    NA),na.rm=T)), mcols(sites))
-
-    sites$general.width <- eval(expression(pmin(ref.end.pos-ref.start.pos, 
-                                                ref.right.pos-ref.left.pos,na.rm=T)),
-                                mcols(sites))
-    sites$gene.width <- eval(expression(ref.end.pos-ref.start.pos ), mcols(sites))
-
-    meta <- mcols(sites)
-    meta <- meta[ , ! (names(meta) %in% colnam)]
-    mcols(sites) <- meta
-
-    sites 
+  #### Boundary Distances #### Nirav Malani code TODO: refactor into several functions
+  ## (refSeq boundary.dist), Start (refSeq start.dist), non-width (), General (general.width)
+  ## when inGene is FALSE then set following: ref.left.pos, ref.right.pos, ref.left.strand, ref.right.strand
+  ## when inGene is TRUE then set following: ref.start.pos, ref.end.pos, ref.gene.strand
+  
+  ## prepare the new columns ##
+  colnam <- paste("ref", c("left.pos", "right.pos", "left.strand", "right.strand", 
+                           "start.pos", "end.pos", "gene.strand"), sep=".") 
+  mcols(sites)[colnam] <- NA
+  
+  ## add the respective columns as needed ##
+  ## beware: precede returns range which is following the query and
+  ## follow returns the range which is preceding the query!
+  ## so do a switcheroo in terms of extracting the start & stop ##
+  left <- follow(sites, genomicData, ignore.strand=TRUE)
+  left[is.na(left) | sites$within_refSeq_gene] <- NA
+  rows <- na.omit(left)
+  sites$ref.left.pos[!is.na(left)] <- end(genomicData[rows])
+  sites$ref.left.strand[!is.na(left)] <- as.character(strand(genomicData[rows]))
+  
+  right <- precede(sites, genomicData, ignore.strand=TRUE)
+  right[is.na(right) | sites$within_refSeq_gene] <- NA
+  rows <- na.omit(right)
+  sites$ref.right.pos[!is.na(right)] <- start(genomicData[rows])
+  sites$ref.right.strand[!is.na(right)] <- as.character(strand(genomicData[rows]))
+  
+  inIt <- findOverlaps(sites, genomicData, ignore.strand=TRUE, select="arbitrary")
+  inIt[is.na(inIt) | !sites$within_refSeq_gene] <- NA
+  rows <- na.omit(inIt)
+  sites$ref.start.pos[!is.na(inIt)] <- start(genomicData[rows])
+  sites$ref.end.pos[!is.na(inIt)] <- end(genomicData[rows])
+  sites$ref.gene.strand[!is.na(inIt)] <- as.character(strand(genomicData[rows]))
+  
+  sites$boundary.dist <-
+    eval(expression(pmin((ref.end.pos-position)/(ref.end.pos-ref.start.pos),
+                         (position-ref.start.pos)/(ref.end.pos-ref.start.pos),
+                         (ref.right.pos-position)/(ref.right.pos-ref.left.pos),
+                         (position-ref.left.pos)/(ref.right.pos-ref.left.pos),
+                         na.rm=T)), mcols(sites))
+  
+  sites$start.dist <-
+    eval(expression(pmin(ifelse(ref.gene.strand=="-",
+                                (ref.end.pos-position)/(ref.end.pos-ref.start.pos),
+                                (position-ref.start.pos)/(ref.end.pos-ref.start.pos)),
+                         ifelse(ref.right.strand=="-",
+                                (ref.right.pos-position)/(ref.right.pos-ref.left.pos),
+                                NA),
+                         ifelse(ref.left.strand=="+",
+                                (position-ref.left.pos)/(ref.right.pos-ref.left.pos),
+                                NA),na.rm=T)), mcols(sites))
+  
+  sites$general.width <- eval(expression(pmin(ref.end.pos-ref.start.pos, 
+                                              ref.right.pos-ref.left.pos,na.rm=T)),
+                              mcols(sites))
+  sites$gene.width <- eval(expression(ref.end.pos-ref.start.pos ), mcols(sites))
+  
+  meta <- mcols(sites)
+  meta <- meta[ , ! (names(meta) %in% colnam)]
+  mcols(sites) <- meta
+  
+  sites 
 }