Home

Data Science Manager

ARID Lab, Dept. of Pediatrics, University of Arizona — Tucson, AZ

Mar 2024 – Present

Lead multi-site health-data pipelines: onboarding, standardization (OMOP-style), and QA.
Cut prep time and raised reliability via documented processing standards with CB2.
Partner with clinicians/biostatisticians; communicate results in decision-ready formats.

Python/R/SQLEHR/MedicaidOMOP Causal InferencePHI/PIIAirflow-style orchestration

Pipeline management: onboard clinical sites; integrate feeds; maintain reproducible ingestion/standardization/validation flows.
Process optimization: define CB2 protocols; streamline extraction/cleaning/consolidation; track SLAs.
Data quality & compliance: enforce CDM mappings; profiling/audits; HIPAA-aligned PHI/PII handling.
Stakeholder coordination: align deliverables across internal/external partners.
Continuous improvement: document standards; mentor students on testing & reproducibility.

Graduate Research Assistant

University of Arizona — Dept. of Pediatrics (ARID Lab)

Feb 2023 – Dec 2023

Built analytical databases in REDCap; standardized multi-source data → ~15% faster prep.
Python pipelines (MariaDB→Postgres) mapped to OMOP; secure transfers with audit logs.
Linked MTurk/REDCap outputs; R analyses reduced post-survey processing by ~20%.

PythonRSQL REDCapAmazon AthenaOMOP

Standardized data to analytical REDCap projects with reproducible metadata.
Optimized database programs for low-latency queries and reliable downstream modeling.
Cleaning & linkage with full change logs for reproducibility.
Secure pipelines (MariaDB→PostgreSQL) adhering to OMOP tables and transfer policies.
Statistical tests/logistic models to profile care patterns and engagement drivers.

Software Development Engineer (ETL Developer)

Tata Consultancy Services — Financial Services (EDW/Teradata/Mainframe)

Mar 2018 – Jul 2022

Built/maintained PowerCenter 9.x pipelines across mainframe, flat files, Teradata, EDW.
Performance-tuned long CI/CD jobs; delivered ~50% faster runs and higher reliability.
Led a 12-member ETL team; enforced code reviews, migration discipline, quality gates.

Informatica PowerCenterTeradata/SQLUnix/Shell PL/SQLCI/CDAWS

Developed complex mappings/worklets with reusable patterns → faster deployments.
Unix shell & PL/SQL validation suites; automated integrity checks for large feeds.
Optimized source/target/mapping/session layers → lower runtime and infra costs.
Managed migration across Dev/Test/UAT/Prod; maintained auditability and rollback plans.
Drove JIRA tracking, reviews, mentorship; fewer defects and better predictability.
Delivered retrofit integrating 2.5M customer records with ~30% perf gain.

Experience