Merge pull request #106 from ncsa/develop

Develop
ncsa · May 7, 2024 · 2c80a44 · 2c80a44
2 parents d17945e + c91d19f
commit 2c80a44
Show file tree

Hide file tree

Showing 9 changed files with 14,522 additions and 2,029 deletions.
diff --git a/dev-environment.yml b/dev-environment.yml
@@ -182,7 +182,6 @@ dependencies:
     - platformdirs==2.5.2
     - prompt-toolkit==3.0.29
     - pure-eval==0.2.2
-    - pybedtools==0.9.0
     - pygments==2.12.0
     - pyqt5-sip==12.9.0
     - pysam==0.19.1

diff --git a/environment.yml b/environment.yml
@@ -9,12 +9,11 @@ dependencies:
   - pkginfo
   - matplotlib
   - numpy
-  - seaborn
   - pyyaml
   - pip
   - scipy
   - pytest
-  - bedtools
+  - libgcc=5.2.0
   - htslib
   - pip:
     - pysam

diff --git a/neat/gen_mut_model/utils.py b/neat/gen_mut_model/utils.py
@@ -3,17 +3,9 @@
 """
 
 import json
-import os.path
-import pathlib
-import pickle
-import math
 import sys
 
 import numpy as np
-from numpy import genfromtxt
-import pybedtools
-from Bio import SeqIO
-
 
 from pathlib import Path
 import logging

diff --git a/neat/model_sequencing_error/utils.py b/neat/model_sequencing_error/utils.py
@@ -5,10 +5,8 @@
 import logging
 import numpy as np
 # TODO implement plotting
-# import seaborn as sns
 import matplotlib.pyplot as plt
 
-import pandas as pd
 from scipy.stats import mode
 from ..common import open_input
 from ..models import take_closest

diff --git a/neat/models/original_error_model.py b/neat/models/original_error_model.py
diff --git a/neat/utilities/compute_gc.py b/neat/utilities/compute_gc.py
@@ -16,11 +16,9 @@
 import gzip
 import pickle
 import time
-import pdb
 
 import numpy as np
 from Bio import SeqIO
-import pybedtools
 
 
 def process_fasta(file: str) -> dict:

diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -14,7 +14,6 @@ pkginfo = "^1.8.3"
 numpy = "^1.23"
 PyYAML = "^6.0"
 pysam = "^0.19.1"
-pybedtools = "^0.9.0"
 
 [tool.poetry.dev-dependencies]
 poetry = "^1.1.13"

diff --git a/tests/test_read_simulator/test_cover_dataset.py b/tests/test_read_simulator/test_cover_dataset.py
@@ -99,3 +99,57 @@ def test_fragment_mean_st_dev_combinations():
                 read1, _ = cover_dataset(read_pool, span_length, target_vector, options, fragment_model)
             except Exception as e:
                 pytest.fail(f"Test failed for mean={mean}, st_dev={st_dev} with exception: {e}")
+
+def test_coverage_ploidy_combinations():
+    """Test cover_dataset with various combinations of coverage and ploidy values to ensure no errors"""
+    read_pool = [10] * 2000
+    span_length = 100
+    target_vector = np.full(100, fill_value=10, dtype=int)
+    options = Options(rng_seed=0)
+    options.paired_ended = True
+    options.read_len = 101
+    options.fragment_mean = 250
+    options.fragment_st_dev = 100
+    options.output.overwrite_output = True
+    fragment_model = FragmentLengthModel(rng=options.rng)
+
+    coverage_values = [1, 2, 5, 10, 25, 50, 100]
+    ploidy_values = [1, 1.5, 2]
+
+    for coverage in coverage_values:
+        for ploidy in ploidy_values:
+            options.coverage = coverage
+            options.ploidy = ploidy  # Assuming your model or function supports a 'ploidy' option
+            read1, read2 = cover_dataset(read_pool, span_length, target_vector, options, fragment_model)
+            coverage_check = []
+            for i in range(span_length):
+                # paired ended test, need both read1 and read2
+                cover = [x for x in read1 + read2 if i in range(x[0], x[1])]
+                coverage_check.append(len(cover))
+            assert sum(coverage_check) / len(
+                coverage_check) > coverage, f"Coverage check failed for coverage {coverage} and ploidy {ploidy}"
+
+def test_single_ended_mode():
+    """Test cover_dataset in single-ended mode for various configurations"""
+    read_pool = [10] * 2000
+    span_length = 100
+    target_vector = np.full(100, fill_value=10, dtype=int)
+    options = Options(rng_seed=0)
+    options.read_len = 101
+    options.paired_ended = False
+    options.fragment_mean = 250
+    options.fragment_st_dev = 100
+    options.coverage = 10
+    options.output.overwrite_output = True
+    fragment_model = FragmentLengthModel(rng=options.rng)
+
+    try:
+        read1, _ = cover_dataset(read_pool, span_length, target_vector, options, fragment_model)
+        coverage_check = []
+        for i in range(span_length):
+            # Single-ended test, only need read1
+            cover = [x for x in read1 if i in range(x[0], x[1])]
+            coverage_check.append(len(cover))
+        assert sum(coverage_check) / len(coverage_check) > options.coverage, "Coverage check failed in single-ended mode"
+    except Exception as e:
+        pytest.fail(f"Test failed in single-ended mode with exception: {e}")