Add power plant regression dataset (#25)

dheyay · mikeheddes · web-flow · commit b1ed6d33ae7a · 2022-05-02T17:09:13.000-07:00
* Added power plant regression dataset

* Removed extra files

* Updates

Co-authored-by: mikeheddes &lt;mikeheddes@gmail.com&gt;
diff --git a/dev-requirements.txt b/dev-requirements.txt
@@ -6,5 +6,4 @@ numpy
 sphinx
 sphinx-rtd-theme
 flake8
-pytest
-black
+pytest
diff --git a/docs/datasets.rst b/docs/datasets.rst
@@ -16,3 +16,4 @@ The hdc library provides many popular built-in datasets to work with.
     AirfoilSelfNoise
     EMGHandGestures
     PAMAP
+    CyclePowerPlant
diff --git a/hdc/datasets/__init__.py b/hdc/datasets/__init__.py
@@ -5,6 +5,7 @@
 from hdc.datasets.airfoil_self_noise import AirfoilSelfNoise
 from hdc.datasets.emg_hand_gestures import EMGHandGestures
 from hdc.datasets.pamap import PAMAP
+from hdc.datasets.ccpp import CyclePowerPlant
 
 __all__ = [
     "BeijingAirQuality",
@@ -14,4 +15,5 @@
     "AirfoilSelfNoise",
     "EMGHandGestures",
     "PAMAP",
+    "CyclePowerPlant",
 ]
diff --git a/hdc/datasets/ccpp.py b/hdc/datasets/ccpp.py
@@ -0,0 +1,112 @@
+import os
+import os.path as path
+from typing import Callable, Optional, Tuple, List
+import torch
+import pandas as pd
+import numpy as np
+from torch.utils import data
+
+from .utils import download_file, unzip_file
+
+class CyclePowerPlant(data.Dataset):
+    """Combined cycle power planet dataset <https://archive.ics.uci.edu/ml/datasets/combined+cycle+power+plant>`_,
+        Features consist of hourly average ambient variables Temperature (T), Ambient Pressure (AP), Relative Humidity (RH) and Exhaust Vacuum (V) to predict the net hourly electrical energy output (EP) of the plant.
+
+    Args:
+        root (string): Root directory of dataset where downloaded dataset exists
+        download (bool, optional): If True, downloads the dataset from the internet and
+            puts it in root directory. If dataset is already downloaded, it is not
+            downloaded again.
+        transform (callable, optional): A function/transform that takes in an torch.FloatTensor
+            and returns a transformed version.
+        target_transform (callable, optional): A function/transform that takes in the
+            target and transforms it.
+    """
+    def __init__(
+        self, 
+        root:str,
+        download: bool = False,
+        transform: Optional[Callable] = None,
+        target_transform: Optional[Callable] = None,
+    ):
+        root = path.join(root, "ccpp")
+        root = os.path.expanduser(root)
+        self.root = root
+        os.makedirs(self.root, exist_ok=True)
+
+        self.transform = transform
+        self.target_transform = target_transform
+
+        if download:
+            self.download()
+
+        if not self._check_integrity():
+            raise RuntimeError(
+                "Dataset not found or corrupted. You can use download=True to download it"
+            )
+
+        self._load_data()
+
+    def __len__(self) -> int:
+        return self.data.size(0)
+
+    def __getitem__(self, index: int) -> Tuple[torch.FloatTensor, torch.FloatTensor]:
+        """
+        Args:
+            index (int): Index
+
+        Returns:
+            Tuple[torch.FloatTensor, torch.FloatTensor]: (sample, target) where target is the index of the target class
+        """
+        sample = self.data[index]
+        label = self.targets[index]
+
+        if self.transform:
+            sample = self.transform(sample)
+
+        if self.target_transform:
+            label = self.target_transform(label)
+
+        return sample, label
+
+    def _check_integrity(self) -> bool:
+        if not os.path.isdir(self.root):
+            return False
+        
+        # Check if root directory contains the required data file
+        has_data_file = os.path.isfile(os.path.join(self.root, "Folds5x2_pp.xlsx"))
+        if has_data_file:
+            return True
+        
+        return False
+
+    def _load_data(self):
+        file_name = "Folds5x2_pp.xlsx"
+        data = pd.read_excel(os.path.join(self.root, file_name))
+        self.data = torch.tensor(data.values[:, :-1], dtype=torch.float)
+        self.targets = torch.tensor(data.values[:, -1], dtype=torch.float)
+    
+    def download(self):
+        """Downloads the dataset if not already present"""
+
+        if self._check_integrity():
+            print("Files already downloaded and verified")
+            return
+        
+        zip_file_path = os.path.join(self.root, "data.zip")
+        download_file(
+            "https://archive.ics.uci.edu/ml/machine-learning-databases/00294/CCPP.zip", 
+            zip_file_path
+        )
+
+        unzip_file(zip_file_path, self.root)
+        os.remove(zip_file_path)
+
+        source_dir = os.path.join(self.root, "CCPP")
+        data_files = os.listdir(source_dir)
+        for filename in data_files:
+            os.rename(
+                os.path.join(source_dir, filename), os.path.join(self.root, filename)
+            )
+
+        os.rmdir(source_dir)

-Original file line number
+Diff line change
 sphinx
 sphinx-rtd-theme
 flake8
 -pytest
 -black
 +pytest