## Download dataset and required packages if necessary
!pip install git+https://github.com/neurallatents/nlb_tools.git
!pip install dandi
!dandi download https://gui.dandiarchive.org/#/dandiset/000128

# Note: ensure numpy is < 2.0

Collecting git+https://github.com/neurallatents/nlb_tools.git
  Cloning https://github.com/neurallatents/nlb_tools.git to /private/var/folders/z5/3h5htfw96rbf7_7plxy7mys00000gp/T/pip-req-build-ugy49x2j
  Running command git clone --filter=blob:none --quiet https://github.com/neurallatents/nlb_tools.git /private/var/folders/z5/3h5htfw96rbf7_7plxy7mys00000gp/T/pip-req-build-ugy49x2j
  Resolved https://github.com/neurallatents/nlb_tools.git to commit 42f8410b88e12db136910fa2f888b025ea0aa2ae
  Installing build dependencies ... one
  Getting requirements to build wheel ... done
  Preparing metadata (pyproject.toml) ... done
Requirement already satisfied: pandas<=1.3.4,>=1.0.0 in ./cursor_control/lib/python3.10/site-packages (from nlb_tools==0.0.3) (1.3.4)
Requirement already satisfied: scipy>=1.1.0 in ./cursor_control/lib/python3.10/site-packages (from nlb_tools==0.0.3) (1.15.3)
Requirement already satisfied: numpy in ./cursor_control/lib/python3.10/site-packages (from nlb_tools==0.0.3) (1.26.4)
Requirement already satisfied: scikit-learn in ./cursor_control/lib/python3.10/site-packages (from nlb_tools==0.0.3) (1.7.2)
Requirement already satisfied: h5py<4,>=2.9 in ./cursor_control/lib/python3.10/site-packages (from nlb_tools==0.0.3) (3.15.1)
Requirement already satisfied: pynwb in ./cursor_control/lib/python3.10/site-packages (from nlb_tools==0.0.3) (3.1.3)
Requirement already satisfied: python-dateutil>=2.7.3 in ./cursor_control/lib/python3.10/site-packages (from pandas<=1.3.4,>=1.0.0->nlb_tools==0.0.3) (2.9.0.post0)
Requirement already satisfied: pytz>=2017.3 in ./cursor_control/lib/python3.10/site-packages (from pandas<=1.3.4,>=1.0.0->nlb_tools==0.0.3) (2025.2)
Requirement already satisfied: six>=1.5 in ./cursor_control/lib/python3.10/site-packages (from python-dateutil>=2.7.3->pandas<=1.3.4,>=1.0.0->nlb_tools==0.0.3) (1.17.0)
Requirement already satisfied: hdmf<5,>=4.1.2 in ./cursor_control/lib/python3.10/site-packages (from pynwb->nlb_tools==0.0.3) (4.3.1)
Requirement already satisfied: platformdirs>=4.1.0 in ./cursor_control/lib/python3.10/site-packages (from pynwb->nlb_tools==0.0.3) (4.9.2)
Requirement already satisfied: jsonschema>=3.2.0 in ./cursor_control/lib/python3.10/site-packages (from hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (4.26.0)
Requirement already satisfied: ruamel-yaml>=0.16 in ./cursor_control/lib/python3.10/site-packages (from hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (0.19.1)
Requirement already satisfied: attrs>=22.2.0 in ./cursor_control/lib/python3.10/site-packages (from jsonschema>=3.2.0->hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (25.4.0)
Requirement already satisfied: jsonschema-specifications>=2023.03.6 in ./cursor_control/lib/python3.10/site-packages (from jsonschema>=3.2.0->hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (2025.9.1)
Requirement already satisfied: referencing>=0.28.4 in ./cursor_control/lib/python3.10/site-packages (from jsonschema>=3.2.0->hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (0.37.0)
Requirement already satisfied: rpds-py>=0.25.0 in ./cursor_control/lib/python3.10/site-packages (from jsonschema>=3.2.0->hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (0.30.0)
Requirement already satisfied: typing-extensions>=4.4.0 in ./cursor_control/lib/python3.10/site-packages (from referencing>=0.28.4->jsonschema>=3.2.0->hdmf<5,>=4.1.2->pynwb->nlb_tools==0.0.3) (4.15.0)
Requirement already satisfied: joblib>=1.2.0 in ./cursor_control/lib/python3.10/site-packages (from scikit-learn->nlb_tools==0.0.3) (1.5.3)
Requirement already satisfied: threadpoolctl>=3.1.0 in ./cursor_control/lib/python3.10/site-packages (from scikit-learn->nlb_tools==0.0.3) (3.6.0)
Requirement already satisfied: dandi in ./cursor_control/lib/python3.10/site-packages (0.74.3)
Requirement already satisfied: bidsschematools~=1.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (1.2.0)
Requirement already satisfied: bids-validator-deno>=2.0.5 in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.4.0)
Requirement already satisfied: click<8.2.0,>=7.1 in ./cursor_control/lib/python3.10/site-packages (from dandi) (8.1.8)
Requirement already satisfied: click-didyoumean in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.3.1)
Requirement already satisfied: dandischema~=0.12.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.12.1)
Requirement already satisfied: etelemetry>=0.2.2 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.3.1)
Requirement already satisfied: fasteners in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.20)
Requirement already satisfied: fscacher>=0.3.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.4.4)
Requirement already satisfied: hdmf!=3.14.4,!=3.5.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (4.3.1)
Requirement already satisfied: humanize in ./cursor_control/lib/python3.10/site-packages (from dandi) (4.15.0)
Requirement already satisfied: interleave~=0.3 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.3.0)
Requirement already satisfied: joblib in ./cursor_control/lib/python3.10/site-packages (from dandi) (1.5.3)
Requirement already satisfied: keyring!=23.9.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (25.7.0)
Requirement already satisfied: keyrings.alt in ./cursor_control/lib/python3.10/site-packages (from dandi) (5.0.2)
Requirement already satisfied: packaging in ./cursor_control/lib/python3.10/site-packages (from dandi) (26.0)
Requirement already satisfied: platformdirs in ./cursor_control/lib/python3.10/site-packages (from dandi) (4.9.2)
Requirement already satisfied: pycryptodomex in ./cursor_control/lib/python3.10/site-packages (from dandi) (3.23.0)
Requirement already satisfied: pydantic~=2.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.12.5)
Requirement already satisfied: pynwb!=1.1.0,!=2.3.0,>=1.0.3 in ./cursor_control/lib/python3.10/site-packages (from dandi) (3.1.3)
Requirement already satisfied: numcodecs<0.16 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.13.1)
Requirement already satisfied: nwbinspector!=0.4.32,>=0.4.28 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.6.5)
Requirement already satisfied: pyout!=0.6.0,>=0.5 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.8.1)
Requirement already satisfied: python-dateutil in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.9.0.post0)
Requirement already satisfied: requests~=2.20 in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.32.5)
Requirement already satisfied: ruamel.yaml<1,>=0.15 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.19.1)
Requirement already satisfied: semantic-version in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.10.0)
Requirement already satisfied: tenacity in ./cursor_control/lib/python3.10/site-packages (from dandi) (9.1.4)
Requirement already satisfied: tensorstore in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.1.78)
Requirement already satisfied: urllib3>=2.0.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.6.3)
Requirement already satisfied: yarl~=1.9 in ./cursor_control/lib/python3.10/site-packages (from dandi) (1.22.0)
Requirement already satisfied: zarr<=3.1.5,>=2.10 in ./cursor_control/lib/python3.10/site-packages (from dandi) (2.18.3)
Requirement already satisfied: zarr_checksum~=0.4.0 in ./cursor_control/lib/python3.10/site-packages (from dandi) (0.4.7)
Requirement already satisfied: acres in ./cursor_control/lib/python3.10/site-packages (from bidsschematools~=1.0->dandi) (0.5.0)
Requirement already satisfied: pyyaml in ./cursor_control/lib/python3.10/site-packages (from bidsschematools~=1.0->dandi) (6.0.3)
Requirement already satisfied: jsonschema[format] in ./cursor_control/lib/python3.10/site-packages (from dandischema~=0.12.0->dandi) (4.26.0)
Requirement already satisfied: pydantic-settings in ./cursor_control/lib/python3.10/site-packages (from dandischema~=0.12.0->dandi) (2.13.0)
Requirement already satisfied: numpy>=1.7 in ./cursor_control/lib/python3.10/site-packages (from numcodecs<0.16->dandi) (1.26.4)
Requirement already satisfied: annotated-types>=0.6.0 in ./cursor_control/lib/python3.10/site-packages (from pydantic~=2.0->dandi) (0.7.0)
Requirement already satisfied: pydantic-core==2.41.5 in ./cursor_control/lib/python3.10/site-packages (from pydantic~=2.0->dandi) (2.41.5)
Requirement already satisfied: typing-extensions>=4.14.1 in ./cursor_control/lib/python3.10/site-packages (from pydantic~=2.0->dandi) (4.15.0)
Requirement already satisfied: typing-inspection>=0.4.2 in ./cursor_control/lib/python3.10/site-packages (from pydantic~=2.0->dandi) (0.4.2)
Requirement already satisfied: email-validator>=2.0.0 in ./cursor_control/lib/python3.10/site-packages (from pydantic[email]~=2.4->dandischema~=0.12.0->dandi) (2.3.0)
Requirement already satisfied: charset_normalizer<4,>=2 in ./cursor_control/lib/python3.10/site-packages (from requests~=2.20->dandi) (3.4.4)
Requirement already satisfied: idna<4,>=2.5 in ./cursor_control/lib/python3.10/site-packages (from requests~=2.20->dandi) (3.11)
Requirement already satisfied: certifi>=2017.4.17 in ./cursor_control/lib/python3.10/site-packages (from requests~=2.20->dandi) (2026.1.4)
Requirement already satisfied: multidict>=4.0 in ./cursor_control/lib/python3.10/site-packages (from yarl~=1.9->dandi) (6.7.1)
Requirement already satisfied: propcache>=0.2.1 in ./cursor_control/lib/python3.10/site-packages (from yarl~=1.9->dandi) (0.4.1)
Requirement already satisfied: asciitree in ./cursor_control/lib/python3.10/site-packages (from zarr<=3.1.5,>=2.10->dandi) (0.3.3)
Requirement already satisfied: tqdm>=4.67.1 in ./cursor_control/lib/python3.10/site-packages (from zarr_checksum~=0.4.0->dandi) (4.67.3)
Requirement already satisfied: dnspython>=2.0.0 in ./cursor_control/lib/python3.10/site-packages (from email-validator>=2.0.0->pydantic[email]~=2.4->dandischema~=0.12.0->dandi) (2.8.0)
Requirement already satisfied: ci-info>=0.2 in ./cursor_control/lib/python3.10/site-packages (from etelemetry>=0.2.2->dandi) (0.4.0)
Requirement already satisfied: h5py>=3.1.0 in ./cursor_control/lib/python3.10/site-packages (from hdmf!=3.14.4,!=3.5.0->dandi) (3.15.1)
Requirement already satisfied: pandas<3,>=1.2.0 in ./cursor_control/lib/python3.10/site-packages (from hdmf!=3.14.4,!=3.5.0->dandi) (1.3.4)
Requirement already satisfied: pytz>=2017.3 in ./cursor_control/lib/python3.10/site-packages (from pandas<3,>=1.2.0->hdmf!=3.14.4,!=3.5.0->dandi) (2025.2)
Requirement already satisfied: attrs>=22.2.0 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (25.4.0)
Requirement already satisfied: jsonschema-specifications>=2023.03.6 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (2025.9.1)
Requirement already satisfied: referencing>=0.28.4 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (0.37.0)
Requirement already satisfied: rpds-py>=0.25.0 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (0.30.0)
Requirement already satisfied: importlib_metadata>=4.11.4 in ./cursor_control/lib/python3.10/site-packages (from keyring!=23.9.0->dandi) (8.7.1)
Requirement already satisfied: jaraco.classes in ./cursor_control/lib/python3.10/site-packages (from keyring!=23.9.0->dandi) (3.4.0)
Requirement already satisfied: jaraco.functools in ./cursor_control/lib/python3.10/site-packages (from keyring!=23.9.0->dandi) (4.4.0)
Requirement already satisfied: jaraco.context in ./cursor_control/lib/python3.10/site-packages (from keyring!=23.9.0->dandi) (6.1.0)
Requirement already satisfied: zipp>=3.20 in ./cursor_control/lib/python3.10/site-packages (from importlib_metadata>=4.11.4->keyring!=23.9.0->dandi) (3.23.0)
Requirement already satisfied: aiohttp in ./cursor_control/lib/python3.10/site-packages (from nwbinspector!=0.4.32,>=0.4.28->dandi) (3.13.3)
Requirement already satisfied: fsspec in ./cursor_control/lib/python3.10/site-packages (from nwbinspector!=0.4.32,>=0.4.28->dandi) (2026.2.0)
Requirement already satisfied: hdmf-zarr in ./cursor_control/lib/python3.10/site-packages (from nwbinspector!=0.4.32,>=0.4.28->dandi) (0.12.0)
Requirement already satisfied: isodate in ./cursor_control/lib/python3.10/site-packages (from nwbinspector!=0.4.32,>=0.4.28->dandi) (0.7.2)
Requirement already satisfied: natsort in ./cursor_control/lib/python3.10/site-packages (from nwbinspector!=0.4.32,>=0.4.28->dandi) (8.4.0)
Requirement already satisfied: blessed in ./cursor_control/lib/python3.10/site-packages (from pyout!=0.6.0,>=0.5->dandi) (1.30.0)
Requirement already satisfied: six>=1.5 in ./cursor_control/lib/python3.10/site-packages (from python-dateutil->dandi) (1.17.0)
Requirement already satisfied: aiohappyeyeballs>=2.5.0 in ./cursor_control/lib/python3.10/site-packages (from aiohttp->nwbinspector!=0.4.32,>=0.4.28->dandi) (2.6.1)
Requirement already satisfied: aiosignal>=1.4.0 in ./cursor_control/lib/python3.10/site-packages (from aiohttp->nwbinspector!=0.4.32,>=0.4.28->dandi) (1.4.0)
Requirement already satisfied: async-timeout<6.0,>=4.0 in ./cursor_control/lib/python3.10/site-packages (from aiohttp->nwbinspector!=0.4.32,>=0.4.28->dandi) (5.0.1)
Requirement already satisfied: frozenlist>=1.1.1 in ./cursor_control/lib/python3.10/site-packages (from aiohttp->nwbinspector!=0.4.32,>=0.4.28->dandi) (1.8.0)
Requirement already satisfied: wcwidth>=0.6 in ./cursor_control/lib/python3.10/site-packages (from blessed->pyout!=0.6.0,>=0.5->dandi) (0.6.0)
Requirement already satisfied: threadpoolctl>=3.1.0 in ./cursor_control/lib/python3.10/site-packages (from hdmf-zarr->nwbinspector!=0.4.32,>=0.4.28->dandi) (3.6.0)
Requirement already satisfied: more-itertools in ./cursor_control/lib/python3.10/site-packages (from jaraco.classes->keyring!=23.9.0->dandi) (10.8.0)
Requirement already satisfied: backports.tarfile in ./cursor_control/lib/python3.10/site-packages (from jaraco.context->keyring!=23.9.0->dandi) (1.2.0)
Requirement already satisfied: fqdn in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (1.5.1)
Requirement already satisfied: isoduration in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (20.11.0)
Requirement already satisfied: jsonpointer>1.13 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (3.0.0)
Requirement already satisfied: rfc3339-validator in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (0.1.4)
Requirement already satisfied: rfc3987 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (1.3.8)
Requirement already satisfied: uri-template in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (1.3.0)
Requirement already satisfied: webcolors>=1.11 in ./cursor_control/lib/python3.10/site-packages (from jsonschema[format]->dandischema~=0.12.0->dandi) (25.10.0)
Requirement already satisfied: arrow>=0.15.0 in ./cursor_control/lib/python3.10/site-packages (from isoduration->jsonschema[format]->dandischema~=0.12.0->dandi) (1.4.0)
Requirement already satisfied: tzdata in ./cursor_control/lib/python3.10/site-packages (from arrow>=0.15.0->isoduration->jsonschema[format]->dandischema~=0.12.0->dandi) (2025.3)
Requirement already satisfied: python-dotenv>=0.21.0 in ./cursor_control/lib/python3.10/site-packages (from pydantic-settings->dandischema~=0.12.0->dandi) (1.2.1)
Requirement already satisfied: ml_dtypes>=0.5.0 in ./cursor_control/lib/python3.10/site-packages (from tensorstore->dandi) (0.5.4)
PATH                                                                    SIZE      DONE    DONE% CHECKSUM STATUS    MESSAGE          
000128/dandiset.yaml                                                                                     skipped   no change        
000128/sub-Jenkins/sub-Jenkins_ses-full_desc-test_ecephys.nwb                                            error     FileExistsError  
000128/sub-Jenkins/sub-Jenkins_ses-full_desc-train_behavior+ecephys.nwb                                  error     FileExistsError  
Summary:                                                                0 Bytes   0 Bytes                1 skipped 1 no change      
                                                                        +694.0 MB 0.00%                  2 error   2 FileExistsError
2026-02-16 17:47:12,837 [   ERROR] Encountered 2 errors while downloading. The first error: {'status': 'error', 'message': 'FileExistsError', 'path': '000128/sub-Jenkins/sub-Jenkins_ses-full_desc-test_ecephys.nwb'}
2026-02-16 17:47:12,838 [    INFO] Logs saved in /Users/Siddharth/Library/Logs/dandi-cli/2026.02.17-01.47.11Z-22221.log
Error: Encountered 2 errors while downloading.

# download our dataset 
!dandi download https://dandiarchive.org/dandiset/000128 -e overwrite

PATH                                                                    SIZE      DONE            DONE% CHECKSUM STATUS          MESSAGE    
000128/dandiset.yaml                                                                                             skipped         no change  
000128/sub-Jenkins/sub-Jenkins_ses-full_desc-test_ecephys.nwb           3.4 MB    3.4 MB           100%    ok    done                       
000128/sub-Jenkins/sub-Jenkins_ses-full_desc-train_behavior+ecephys.nwb 690.6 MB  690.6 MB         100%    ok    done                       
Summary:                                                                694.0 MB  694.0 MB                       1 skipped       1 no change
                                                                                  100.00%                        2 done                     
2026-02-16 17:47:39,641 [    INFO] Logs saved in /Users/Siddharth/Library/Logs/dandi-cli/2026.02.17-01.47.13Z-22226.log

## Imports
# %matplotlib widget # uncomment for interactive plots
from nlb_tools.nwb_interface import NWBDataset
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Load dataset
data_path = "000128/sub-Jenkins/" # change this if your datapath is different. you can evaluate the contents of your directory with the command 'ls'
dataset = NWBDataset(data_path, "*train", split_heldout=False)

# View dataset
dataset.data

dataset.trial_info

signal_types = dataset.data.columns.get_level_values('signal_type')
channels = dataset.data.columns.get_level_values('channel')

# Convert channels to numeric (strings become NaN)
channel_nums = pd.to_numeric(channels, errors='coerce')

# Filtering to only include spike channels in primary motor cortex (channels starting with number 1)
spike_mask = (signal_types == 'spikes') #& (channel_nums >= 1000) & (channel_nums < 2000)
# Filtering to only include hand positions and velocities 
hand_pos_mask = (signal_types == 'hand_pos')
hand_vel_mask = (signal_types == 'hand_vel')

# Combine all masks
mask = spike_mask | hand_pos_mask | hand_vel_mask

# Apply filter
dataset.data = dataset.data.loc[:, mask]

print(f"Kept {spike_mask.sum()} spike channels")
print(f"Final shape: {dataset.data.shape}")

Kept 92 spike channels
Final shape: (6952301, 96)

# Extract each signal type from your dataset
hand_pos = dataset.data['hand_pos']
hand_vel = dataset.data['hand_vel']
spikes = dataset.data['spikes']

# Resample with appropriate aggregation functions
hand_pos_resampled = hand_pos.resample('20ms').mean()
hand_vel_resampled = hand_vel.resample('20ms').mean()
spikes_resampled = spikes.resample('20ms').sum()

# Combine back into single DataFrame with MultiIndex structure
resampled_data = pd.concat(
    [hand_pos_resampled, hand_vel_resampled, spikes_resampled],
    axis=1,
    keys=['hand_pos', 'hand_vel', 'spikes']
)

print(f"Original shape: {dataset.data.shape}")
print(f"Resampled shape: {resampled_data.shape}")

dataset.data = resampled_data

Original shape: (6952301, 96)
Resampled shape: (347616, 96)

# Round trial times to nearest 20ms bin
time_columns = ['start_time', 'end_time', 'target_on_time', 
                'go_cue_time', 'move_onset_time']

for col in time_columns:
    dataset.trial_info[col] = (
        dataset.trial_info[col] / pd.Timedelta('20ms')
    ).round() * pd.Timedelta('20ms')

dataset.data # take a peek at our new resampled, 20ms bins!

dataset.trial_info # make sure all our trial start and end_times are alligned with 20ms boundaries

spike_data = dataset.data['spikes']
print("Spike count statistics:")
mean_spikes = np.mean(spike_data.values)
max_spikes = np.max(spike_data.values)

print(f"Mean: {mean_spikes:.6f} spikes/20ms")
print(f"Max: {max_spikes:.1f}")


total_entries = spike_data.size
total_spikes = mean_spikes * total_entries
print(f"Total spikes: {total_spikes:.0f}")

print(f"% zeros: {100 * (spike_data.values == 0).sum() / spike_data.size:.2f}%")

Spike count statistics:
Mean: 0.044067 spikes/20ms
Max: 6.0
Total spikes: 1409305
% zeros: 95.88%

# Extract state variables: [x, y, vx, vy]
states = pd.DataFrame({
    'x': dataset.data[('hand_pos', 'x')],
    'y': dataset.data[('hand_pos', 'y')],
    'vx': dataset.data[('hand_vel', 'x')],
    'vy': dataset.data[('hand_vel', 'y')]
})

print(f"Original: {len(states):,} 20ms time bins")

Original: 347,616 20ms time bins

# === MARK TRIAL BOUNDARIES FIRST === -> we don't want out linear regression model to learn from cross-trial transitions
is_trial_end = states.index.isin(dataset.trial_info['end_time'])
print(f"Trial boundaries: {is_trial_end.sum():,}")

# === CHECK NaN ===
n_nan = states.isna().sum().sum()
n_rows_with_nan = states.isna().any(axis=1).sum()
print(f"NaN: {n_nan:,} values in {n_rows_with_nan:,} rows")

# === CREATE SHIFTED DATA ===
states_next = states.shift(-1)

# === VALIDITY MASK ===
# Invalid if: NaN at t, NaN at t+1, OR trial boundary
has_nan_current = states.isna().any(axis=1)
has_nan_next = states_next.isna().any(axis=1)

# === FILTER VALID TRANSITIONS ===
valid = ~(has_nan_current | has_nan_next | is_trial_end)

X_prev = states[valid].values
X_next = states_next[valid]

print(f"Valid transitions: {valid.sum():,} / {len(states):,}")

# === COMPUTE A (STATE TRANSITION MATRIX) ===
A = np.linalg.lstsq(X_prev, X_next, rcond=None)[0].T

# === COMPUTE Q (PROCESS NOISE COVARIANCE) ===
residuals = X_next - X_prev @ A.T
Q = np.cov(residuals.T)

# Validation
r2 = 1 - np.sum(residuals**2, 0) / np.sum((X_next - X_next.mean(0))**2, 0)

print(f"\nA matrix:\n{A}")
print(f"\nQ diagonal: {np.diag(Q)}")
print(f"R²: x={r2[0]:.4f}, y={r2[1]:.4f}, vx={r2[2]:.4f}, vy={r2[3]:.4f}")

Trial boundaries: 2,295
NaN: 23,280 values in 5,820 rows
Valid transitions: 339,501 / 347,616

A matrix:
[[ 9.99066658e-01  1.98899671e-05  1.99022995e-02 -5.28341156e-04]
 [-3.06785927e-04  9.99061807e-01  4.35695009e-04  1.97851797e-02]
 [-8.86301583e-02  7.95444853e-04  9.80171017e-01 -5.24464490e-02]
 [-2.93817432e-02 -9.01933105e-02  4.30288463e-02  9.66416635e-01]]

Q diagonal: [1.13212049e-01 1.13944317e-01 1.10393974e+03 1.11079057e+03]
R²: x=1.0000, y=0.9999, vx=0.9439, vy=0.9305

# Scale factors: <1 = trust prediction more (smoother), >1 = trust observations more (more responsive)
q_scale = np.diag([0.02, 0.02, 3.0, 4.0])  # dampen position, amplify velocity
Q_tuned = q_scale @ Q @ q_scale

print(f"\nQ original diagonal: {np.diag(Q)}")
print(f"Q tuned diagonal:    {np.diag(Q_tuned)}")

# Use the tuned Q going forward
Q = Q_tuned

Q original diagonal: [1.13212049e-01 1.13944317e-01 1.10393974e+03 1.11079057e+03]
Q tuned diagonal:    [4.52848195e-05 4.55777269e-05 9.93545762e+03 1.77726492e+04]

# === OBSERVATION MODEL WITH TIME-LAGGED SPIKE HISTORY ===
# Key insight: neural activity PRECEDES movement by ~100-150ms (motor planning).
# Using only z_t to predict x_t misses this temporal structure.
# By concatenating [z_t, z_{t-1}, ..., z_{t-n_lags}], C can learn the lead-lag relationship.

# --- Step 1: Square-root transform ---
neural_obs_raw = dataset.data['spikes']
neural_obs_sqrt = np.sqrt(neural_obs_raw)

# --- Step 2: PCA ---
n_pca_components = 20

is_trial_end = states.index.isin(dataset.trial_info['end_time'])
has_nan_state = states.isna().any(axis=1)
has_nan_neural = neural_obs_sqrt.isna().any(axis=1)
valid_base = ~(has_nan_state | has_nan_neural | is_trial_end)

pca = PCA(n_components=n_pca_components)
pca.fit(neural_obs_sqrt[valid_base].values)
print(f"PCA variance explained: {pca.explained_variance_ratio_.sum():.1%} with {n_pca_components} components")

neural_pca_all = pd.DataFrame(
    pca.transform(neural_obs_sqrt.values),
    index=neural_obs_sqrt.index,
    columns=[f'pc{i}' for i in range(n_pca_components)]
)
dataset.data_neural_pca = neural_pca_all

# --- Step 3: Build time-lagged observation matrix ---
# n_lags=5 at 20ms = 100ms of history, capturing the neural-to-movement delay
n_lags = 5
print(f"Using {n_lags} lags ({n_lags * 20}ms history)")

Z_pca = neural_pca_all.values  # (T, n_pca_components)

# Stack [z_t, z_{t-1}, ..., z_{t-n_lags}] into a wide matrix
Z_lagged_list = []
for lag in range(n_lags + 1):  # lag 0 through n_lags
    Z_lagged_list.append(np.roll(Z_pca, lag, axis=0))

Z_lagged = np.hstack(Z_lagged_list)  # (T, n_pca_components * (n_lags+1))
n_obs_features = Z_lagged.shape[1]
print(f"Observation dimension: {n_obs_features} ({n_pca_components} PCA × {n_lags+1} time steps)")

# Validity mask: exclude first n_lags rows (rolled data is invalid), NaN rows, trial boundaries
valid_lag = np.ones(len(Z_lagged), dtype=bool)
valid_lag[:n_lags] = False

# Also exclude rows near trial boundaries (lags could cross trials)
for _, trial in dataset.trial_info.iterrows():
    trial_start_idx = states.index.get_indexer([trial['start_time']], method='nearest')[0]
    # Mark the first n_lags rows of each trial as invalid
    for offset in range(n_lags):
        idx = trial_start_idx + offset
        if 0 <= idx < len(valid_lag):
            valid_lag[idx] = False

valid = valid_base.values & valid_lag

X = states.values[valid]       # (n_valid, 4)
Z = Z_lagged[valid]            # (n_valid, n_obs_features)
print(f"Valid observations: {valid.sum():,}")

PCA variance explained: 58.0% with 20 components
Using 5 lags (100ms history)
Observation dimension: 120 (20 PCA × 6 time steps)
Valid observations: 329,212

# --- Step 4: Fit C with Ridge regression (centered, with bias) ---
x_mean = X.mean(axis=0)
z_mean = Z.mean(axis=0)

X_centered = X - x_mean
Z_centered = Z - z_mean

ridge = Ridge(alpha=10.0)  # stronger regularization for higher-dimensional Z
ridge.fit(X_centered, Z_centered)
C = ridge.coef_  # (n_obs_features, 4)
d = z_mean - C @ x_mean

print(f"✓ C matrix: {C.shape}")
print(f"✓ d (bias) vector: {d.shape}")

# --- Step 5: Compute R and scale it ---
Z_pred = X @ C.T + d
residuals = Z - Z_pred
R = np.cov(residuals.T) + 1e-6 * np.eye(n_obs_features)

# --- Validation ---
ss_res = np.sum(residuals**2, axis=0)
ss_tot = np.sum((Z - Z.mean(axis=0))**2, axis=0)
r2_per_component = 1 - ss_res / ss_tot

print(f"\nObservation model quality (lagged PCA):")
print(f"  Mean R²: {r2_per_component.mean():.4f}")
print(f"  Best R²: {r2_per_component.max():.4f}")
print(f"  Components with R² > 0.01: {(r2_per_component > 0.01).sum()} / {n_obs_features}")

✓ C matrix: (120, 4)
✓ d (bias) vector: (120,)

Observation model quality (lagged PCA):
  Mean R²: 0.0083
  Best R²: 0.0327
  Components with R² > 0.01: 30 / 120

# R SCALING: reduce R to increase Kalman gain and make filter more responsive.
# The empirical R overestimates noise because our linear model can't capture
# all neural-to-movement structure. Scaling down trusts observations more.
r_scale = 0.5
R = R * r_scale
print(f"\n✓ R matrix: {R.shape} (scaled by {r_scale})")

✓ R matrix: (120, 120) (scaled by 0.5)

# Initial state: use the mean state from training data as a reasonable prior
x0 = x_mean.copy()  # better than zeros - this is where the hand typically is
P0 = np.diag([100, 100, 1000, 1000])  # keep reasonable initial uncertainty
print(f"x0 (initial state): {x0}")
print(f"P0 diagonal: {np.diag(P0)}")

x0 (initial state): [  4.77250598 -36.45700461   6.27394769  -0.10812666]
P0 diagonal: [ 100  100 1000 1000]

def kalman_filter(trial_data, trial_spikes_pca, A, Q, R, C, d, x0, P0, n_lags=5, dt=0.020):
    """
    Kalman Filter with time-lagged neural observations.
    
    Parameters
    ----------
    trial_spikes_pca : ndarray (n_steps, n_pca) - PCA-transformed spike counts
    n_lags : int - number of past timepoints to include in observation vector
    """
    n_steps = len(trial_data)
    n_state = 4
    n_pca = trial_spikes_pca.shape[1]
    
    x_est = np.zeros((n_steps, n_state))
    P_history = np.zeros((n_steps, n_state, n_state))
    time_array = np.arange(n_steps) * dt

    x_est[0] = x0
    P_history[0] = P0

    x_true = trial_data.values
    
    # Ring buffer for maintaining lag history
    z_history = np.zeros((n_lags + 1, n_pca))
    z_history[0] = trial_spikes_pca[0]

    for k in range(1, n_steps):
        # === PREDICT ===
        x_pred = A @ x_est[k-1]
        P_pred = A @ P_history[k-1] @ A.T + Q

        # === BUILD LAGGED OBSERVATION ===
        # Shift history back and insert new observation
        z_history[1:] = z_history[:-1]  # shift older entries
        z_history[0] = trial_spikes_pca[k]  # newest at index 0
        
        # Concatenate: [z_t, z_{t-1}, ..., z_{t-n_lags}]
        z = z_history.flatten()

        # === CORRECT ===
        z_pred = C @ x_pred + d
        innovation = z - z_pred
        S = C @ P_pred @ C.T + R
        K = P_pred @ C.T @ np.linalg.inv(S)

        x_est[k] = x_pred + K @ innovation
        P_history[k] = (np.eye(n_state) - K @ C) @ P_pred

    return {
        'time': time_array,
        'x_est': x_est,
        'x_true': x_true,
        'P': P_history,
    }

def plot_kalman_results(results, trial_id):
    """
    results: the return value from our kalman filter function
    trial_id: which trial ID do we wish to test with?
    """
    fig, axes = plt.subplots(4, 1, figsize=(14,12))

    time = results['time']
    x_est = results['x_est']
    x_true = results['x_true']

    labels = ['x position (mm)', 'y position (mm)', 'x velocity (mm/s)', 'y velocity (mm/s)']

    for i, (ax, label) in enumerate(zip(axes, labels)):
        ax.plot(time, x_true[:, i], 'k-', label='True', linewidth=2, alpha=0.7)
        ax.plot(time, x_est[:, i], 'r--', label='Kalman Estimate', linewidth=1.5)
        
        ax.set_ylabel(label, fontsize=10)
        ax.legend(loc='upper right')
        ax.grid(True, alpha=0.3)

    axes[-1].set_xlabel('Time (seconds)', fontsize=11)
    fig.suptitle(f'Kalman Filter Performance - Trial {trial_id}\n' + 
                 '20ms Prediction & Observation Steps', 
                 fontsize=14, fontweight='bold')
    plt.tight_layout()

    return fig

# === Run Kalman Filter ===
trial_info = dataset.trial_info.iloc[3]
start_time = trial_info['start_time']
end_time = trial_info['end_time']

trial_data = dataset.data.loc[start_time:end_time, [
    ('hand_pos', 'x'),
    ('hand_pos', 'y'),
    ('hand_vel', 'x'),
    ('hand_vel', 'y')
]]

trial_spikes_raw = dataset.data.loc[start_time:end_time, 'spikes']
trial_spikes_sqrt = np.sqrt(trial_spikes_raw.values)
trial_spikes_pca = pca.transform(trial_spikes_sqrt)

print(f"Trial states: {trial_data.shape}")
print(f"Trial neural (PCA): {trial_spikes_pca.shape}")
print(f"C: {C.shape}, d: {d.shape}, R: {R.shape}")

results = kalman_filter(trial_data, trial_spikes_pca, A, Q, R, C, d, x0, P0, n_lags=n_lags, dt=0.020)

time = results['time']
x_est = results['x_est']
x_true = results['x_true']

# === RMS Error ===
rms = np.sqrt(np.mean((x_est - x_true)**2, axis=0))
labels_short = ['x pos', 'y pos', 'x vel', 'y vel']
print("\n=== RMS Error ===")
for i, label in enumerate(labels_short):
    print(f"  {label}: {rms[i]:.2f}")

# === Plot ===
plot_kalman_results(results, 7)

Trial states: (153, 4)
Trial neural (PCA): (153, 20)
C: (120, 4), d: (120,), R: (120, 120)

=== RMS Error ===
  x pos: 54.30
  y pos: 101.68
  x vel: 412.76
  y vel: 461.31

	trial_id	start_time	end_time	trial_type	trial_version	maze_id	success	target_on_time	go_cue_time	move_onset_time	rt	delay	num_targets	target_pos	num_barriers	barrier_pos	active_target	split
0	0	0 days 00:00:00	0 days 00:00:03.321000	25	2	84	True	0 days 00:00:00.880000	0 days 00:00:01.478000	0 days 00:00:01.905000	427	598	3	[[-111, -82], [-108, 81], [118, 72]]	8	[[69, 31, 14, 99], [69, 54, 5, 101], [-62, -48...	2	val
1	1	0 days 00:00:03.400000	0 days 00:00:06.521000	3	1	3	True	0 days 00:00:04.291000	0 days 00:00:04.739000	0 days 00:00:05.280000	541	448	1	[[-116, -5]]	6	[[-69, -16, 13, 69], [-120, -62, 83, 15], [95,...	0	val
2	2	0 days 00:00:06.600000	0 days 00:00:09.856000	22	1	66	True	0 days 00:00:07.471000	0 days 00:00:07.969000	0 days 00:00:08.346000	377	498	1	[[-82, -86]]	9	[[34, -41, 86, 8], [9, -42, 33, 19], [7, -41, ...	0	train
3	3	0 days 00:00:09.900000	0 days 00:00:12.946000	29	2	100	True	0 days 00:00:10.853000	0 days 00:00:11.335000	0 days 00:00:11.752000	417	482	3	[[-109, 2], [2, 82], [132, -65]]	9	[[-9, 52, 43, 8], [-50, 91, 14, 64], [-133, -5...	1	train
4	4	0 days 00:00:13	0 days 00:00:15.481000	21	0	65	True	0 days 00:00:13.687000	0 days 00:00:14.235000	0 days 00:00:14.507000	272	548	1	[[27, 82]]	0	[]	0	val
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
2290	2290	0 days 01:55:36.600000	0 days 01:55:39.796000	34	1	91	True	0 days 01:55:37.362000	0 days 01:55:38.277000	0 days 01:55:38.585000	308	915	1	[[116, -77]]	7	[[66, -43, 30, 9], [-66, 1, 11, 70], [-35, 50,...	0	train
2291	2291	0 days 01:55:39.900000	0 days 01:55:42.736000	15	1	75	True	0 days 01:55:40.717000	0 days 01:55:41.265000	0 days 01:55:41.641000	376	548	1	[[133, -81]]	9	[[-33, 47, 37, 6], [-77, 48, 61, 11], [-64, -2...	0	train
2292	2292	0 days 01:55:42.800000	0 days 01:55:45.766000	23	0	67	True	0 days 01:55:43.465000	0 days 01:55:44.396000	0 days 01:55:44.714000	318	931	1	[[94, -86]]	0	[]	0	train
2293	2293	0 days 01:55:45.800000	0 days 01:55:49.201000	25	2	84	True	0 days 01:55:46.631000	0 days 01:55:46.663000	0 days 01:55:47.616000	953	32	3	[[-111, -82], [-108, 81], [118, 72]]	8	[[69, 31, 14, 99], [69, 54, 5, 101], [-62, -48...	2	val
2294	2294	0 days 01:55:49.300000	0 days 01:55:52.301000	16	0	76	True	0 days 01:55:50.025000	0 days 01:55:50.807000	0 days 01:55:51.183000	376	782	1	[[-118, -83]]	0	[]	0	val

	trial_id	start_time	end_time	trial_type	trial_version	maze_id	success	target_on_time	go_cue_time	move_onset_time	rt	delay	num_targets	target_pos	num_barriers	barrier_pos	active_target	split
0	0	0 days 00:00:00	0 days 00:00:03.320000	25	2	84	True	0 days 00:00:00.880000	0 days 00:00:01.480000	0 days 00:00:01.900000	427	598	3	[[-111, -82], [-108, 81], [118, 72]]	8	[[69, 31, 14, 99], [69, 54, 5, 101], [-62, -48...	2	val
1	1	0 days 00:00:03.400000	0 days 00:00:06.520000	3	1	3	True	0 days 00:00:04.300000	0 days 00:00:04.740000	0 days 00:00:05.280000	541	448	1	[[-116, -5]]	6	[[-69, -16, 13, 69], [-120, -62, 83, 15], [95,...	0	val
2	2	0 days 00:00:06.600000	0 days 00:00:09.860000	22	1	66	True	0 days 00:00:07.480000	0 days 00:00:07.960000	0 days 00:00:08.340000	377	498	1	[[-82, -86]]	9	[[34, -41, 86, 8], [9, -42, 33, 19], [7, -41, ...	0	train
3	3	0 days 00:00:09.900000	0 days 00:00:12.940000	29	2	100	True	0 days 00:00:10.860000	0 days 00:00:11.340000	0 days 00:00:11.760000	417	482	3	[[-109, 2], [2, 82], [132, -65]]	9	[[-9, 52, 43, 8], [-50, 91, 14, 64], [-133, -5...	1	train
4	4	0 days 00:00:13	0 days 00:00:15.480000	21	0	65	True	0 days 00:00:13.680000	0 days 00:00:14.240000	0 days 00:00:14.500000	272	548	1	[[27, 82]]	0	[]	0	val
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
2290	2290	0 days 01:55:36.600000	0 days 01:55:39.800000	34	1	91	True	0 days 01:55:37.360000	0 days 01:55:38.280000	0 days 01:55:38.580000	308	915	1	[[116, -77]]	7	[[66, -43, 30, 9], [-66, 1, 11, 70], [-35, 50,...	0	train
2291	2291	0 days 01:55:39.900000	0 days 01:55:42.740000	15	1	75	True	0 days 01:55:40.720000	0 days 01:55:41.260000	0 days 01:55:41.640000	376	548	1	[[133, -81]]	9	[[-33, 47, 37, 6], [-77, 48, 61, 11], [-64, -2...	0	train
2292	2292	0 days 01:55:42.800000	0 days 01:55:45.760000	23	0	67	True	0 days 01:55:43.460000	0 days 01:55:44.400000	0 days 01:55:44.720000	318	931	1	[[94, -86]]	0	[]	0	train
2293	2293	0 days 01:55:45.800000	0 days 01:55:49.200000	25	2	84	True	0 days 01:55:46.640000	0 days 01:55:46.660000	0 days 01:55:47.620000	953	32	3	[[-111, -82], [-108, 81], [118, 72]]	8	[[69, 31, 14, 99], [69, 54, 5, 101], [-62, -48...	2	val
2294	2294	0 days 01:55:49.300000	0 days 01:55:52.300000	16	0	76	True	0 days 01:55:50.020000	0 days 01:55:50.800000	0 days 01:55:51.180000	376	782	1	[[-118, -83]]	0	[]	0	val

Using a Kalman Filter to decode intended cursor position from iEEG data¶

An overview of neural data preprocessing¶

Filtering¶

Once we have time bins, what should we look for in the data to help us decode intended cursor position?¶

Discretizing our data is important - making time bins¶

Decoding neural data¶

Setup¶

Filtering dataset¶

Introduction to the Kalman Filter¶

Precomputing values for Filter¶

Calculating $A$ and $Q$ for our state transition model¶

Computing C and R for observation model¶

We will first apply a preprocessing pipeline for our observation model¶

Defining initial conditions¶

Implementing the Kalman Filter¶

Evaluating our Kalman Filter¶

signal_type	cursor_pos		eye_pos		hand_pos		hand_vel		spikes
channel	x	y	x	y	x	y	x	y	1011	1021	...	2861	2862	2871	2881	2882	2911	2931	2941	2951	2961
clock_time
0 days 00:00:00	-0.900000	-5.700000	7.2	2.0	-0.714908	-40.526123	-2.624567	29.977111	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 00:00:00.001000	-0.907457	-5.687027	7.2	2.1	-0.717532	-40.496146	-2.707321	30.577662	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0
0 days 00:00:00.002000	-0.912768	-5.672115	7.6	1.2	-0.720323	-40.464968	-2.872729	31.744164	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 00:00:00.003000	-0.914050	-5.653433	7.4	1.4	-0.723278	-40.432658	-3.019660	32.847931	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 00:00:00.004000	-0.909980	-5.629617	7.4	3.6	-0.726362	-40.399272	-3.059403	33.895227	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
0 days 01:55:52.296000	-114.378901	-79.712313	-95.0	-117.5	-114.334012	-114.809976	0.905895	-0.883716	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 01:55:52.297000	-114.366164	-79.728485	-94.9	-117.4	-114.333252	-114.810622	0.598148	-0.420075	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 01:55:52.298000	-114.365911	-79.749577	-94.6	-117.7	-114.332816	-114.810816	0.218816	0.012961	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 01:55:52.299000	-114.378419	-79.774473	-94.8	-117.7	-114.332814	-114.810596	-0.212940	0.393580	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
0 days 01:55:52.300000	-114.400000	-79.800000	-97.8	-118.2	-114.333242	-114.810029	-0.427820	0.566803	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0