From EHR Chaos to Research-Ready Data: A Complete OHDSI Learning Journey

TL;DR: This comprehensive guide walks through transforming EHR data into standardized OMOP CDM format at scale. We loaded 40M+ vocabulary concepts, generated 2,411 Synthea patients with 4.9M clinical records, built 75+ SQL queries, created 50+ visualizations including interactive ERDs, executed ACHILLES data characterization (16,159 analyses), achieved a 97/100 data quality score, and validated research readiness for cohort studies and network participation.

The Problem with Healthcare Data

Every healthcare organization speaks its own data language. Hospital A uses Epic with custom diagnosis codes. Hospital B uses Cerner with different table structures. Research across institutions becomes a nightmare of manual mapping and inconsistent logic.

Enter OHDSI (Observational Health Data Sciences and Informatics) and the OMOP Common Data Model. By standardizing how we represent clinical data, we enable:

Multi-site research studies
Reproducible analytics
Portable cohort definitions
Evidence generation at scale

This post documents my complete 11-module learning journey from EHR fundamentals through ACHILLES data quality validation to research-ready infrastructure.

What We Built

Component	Details
Database	PostgreSQL with 5 schemas (vocabulary, cdm, ehr, staging, results)
Vocabulary	40.4M concepts from ATHENA
Patients	2,411 Synthea patients + 5 hand-crafted profiles
Clinical Records	4,901,189 events (visits, conditions, drugs, measurements, procedures)
SQL Queries	75+ reusable queries across 11 files
Visualizations	50+ Mermaid diagrams + interactive Liam ERDs
Dashboards	2 Streamlit apps (Clinical Explorer + ACHILLES)
ACHILLES	25 analyses, 16,159 result rows
Data Quality	97/100 score, 3 minor findings
Reports	4 Excel workbooks with professional formatting

Module 1: EHR Architecture

Every EHR system has core clinical tables:

ehr.patient          → Demographics, contact info
ehr.encounter        → Visits, admissions, discharges
ehr.diagnosis        → ICD-10 coded conditions
ehr.medication       → RxNorm coded prescriptions
ehr.lab_result       → LOINC coded lab tests

We created 5 diverse patient profiles:

John Mitchell (52M) - Type 2 Diabetes, chronic disease progression
Sarah Johnson (58F) - Breast Cancer, oncology workflows
Michael Chen (61M) - ALS, rare disease coding
Emily Rodriguez (24F) - Congenital Heart, pediatric-to-adult transition
David Thompson (45M) - Mental Health/SUD, behavioral health complexity

Each patient has 20 years of clinical history with realistic progressions.

Module 2: Clinical Terminologies

Five terminologies form the backbone of clinical coding:

ICD-10-CM (Diagnoses)

Chapter-based structure (A-Z)
Example: E11.9 = Type 2 diabetes without complications
Maps to SNOMED CT for standardization

LOINC (Laboratory)

6-part naming convention
Example: 4548-4 = Hemoglobin A1c in Blood
Standardizes lab test identity across systems

RxNorm (Medications)

Hierarchical: Ingredient → Clinical Drug → Branded Drug
Example: 860975 = Metformin 500 MG Oral Tablet
Handles drug complexity (generics, brands, formulations)

SNOMED CT (Clinical Findings)

Comprehensive clinical ontology
400,000+ concepts with relationships
Standard vocabulary for conditions in OMOP

CPT/HCPCS (Procedures)

Procedure and billing codes
Required for complete clinical picture

Module 3: OMOP CDM Architecture

The OMOP Common Data Model v5.4 organizes data into:

Clinical Tables:

PERSON - One row per patient
VISIT_OCCURRENCE - Each healthcare encounter
CONDITION_OCCURRENCE - Diagnoses
DRUG_EXPOSURE - Medications
MEASUREMENT - Labs, vitals
PROCEDURE_OCCURRENCE - Procedures
OBSERVATION - Other clinical facts
NOTE - Clinical text

Vocabulary Tables:

CONCEPT - 40M+ clinical concepts
VOCABULARY - 100+ source vocabularies
CONCEPT_RELATIONSHIP - Mapping between concepts
CONCEPT_ANCESTOR - Hierarchy navigation

The power comes from standardization: ICD-10 codes map to SNOMED concepts, enabling consistent analytics across institutions.

Module 4: PostgreSQL Infrastructure

Our database architecture:

CREATE DATABASE ohdsi_learning;

-- Five schemas for separation of concerns
CREATE SCHEMA vocabulary;   -- ATHENA vocabulary (40M+ records)
CREATE SCHEMA cdm;          -- OMOP CDM clinical tables
CREATE SCHEMA ehr;          -- Source EHR data
CREATE SCHEMA staging;      -- ETL workspace
CREATE SCHEMA results;      -- Analysis output

Key considerations:

Indexes on concept_id columns for vocabulary lookups
Foreign key relationships mirror CDM specification
Separate schemas prevent naming conflicts

Module 5: Python ETL Package

Loading 40M vocabulary records required careful ETL:

# Vocabulary load results
vocabulary:           56 records      < 1 sec
domain:              50 records      < 1 sec
concept_class:      433 records      < 1 sec
relationship:       722 records      < 1 sec
concept:      3,883,055 records      ~8 min
concept_relationship: 18,055,936    ~27 min
concept_synonym:  3,435,699         ~2 min
concept_ancestor: 14,792,221        ~13 min
drug_strength:      207,039         ~30 sec
─────────────────────────────────────────────
Total:           40,375,211 records ~50 min

Patient ETL transformed 352 clinical records:

5 persons
124 visit occurrences
8 conditions
6 drug exposures
209 measurements

All validated: 96.88% CDM checks passed, 100% data quality.

ERD Diagrams & Field-Level Mappings

We documented the complete ETL transformation with professional ERD diagrams:

Schema Diagrams (DBML → Liam Interactive ERD):

EHR Source Schema (7 tables)
OMOP CDM Target Schema (8 clinical tables)
Complete ETL Mapping with annotations

Field-Level Mapping Diagrams:

Mapping	Key Transformations
Patient → Person	Gender (M→8507, F→8532), Race/Ethnicity concept lookups
Encounter → Visit	Visit type mapping (IP→9201, OP→9202, ED→9203)
Diagnosis → Condition	ICD-10 → SNOMED via `concept_relationship` “Maps to”
Medication → Drug	RxNorm lookup + dose/route parsing via MedicationEnricher
Lab → Measurement	LOINC standard concepts + UCUM unit mapping
Procedure → Procedure	CPT4/SNOMED procedure concepts

Interactive ERDs: We used Liam ERD to create zoomable, interactive web-based diagrams with:

Table details on click
Relationship highlighting on hover
Search and export capabilities

# Launch interactive ERD
cd docs/module-5-ETL-documentation
npx serve interactive-erd/etl-mapping -l 3003
# Open http://localhost:3003

Module 6: SQL Query Library

75+ reusable queries organized across 11 SQL files:

EHR Queries (21):

Patient demographics and age distribution
Encounter volume and length of stay
Diagnosis frequency by ICD-10 chapter
Medication lists and polypharmacy analysis
Lab result trends and abnormals

OMOP CDM Queries (13):

Standard concept-based patient lookup
Visit, condition, drug, measurement exploration
Aggregate statistics with proper vocabulary joins

Vocabulary Queries (9):

Concept search by name or code
Relationship navigation
ICD-10 to SNOMED mapping
Ancestor/descendant hierarchy

Cohort Queries (5):

Type 2 Diabetes cohort with descendants
Drug exposure cohorts
Lab-based cohorts (elevated HbA1c)

Data Quality Queries (7):

EHR-to-CDM record count validation
Orphan record detection
Concept mapping rates

Module 7: Visualizations

18 Mermaid diagrams covering:

ER Diagrams (3):

EHR schema relationships
OMOP CDM clinical tables
Vocabulary table relationships

ETL Flowcharts (4):

High-level pipeline
Table-to-table transformation
Condition mapping detail
Drug mapping detail

Patient Timelines (4):

Gantt charts for chronic conditions
Sequence diagram for STEMI workflow
State diagram for ADT flow

Terminology Mapping (4):

ICD-10 → SNOMED → OMOP concept
LOINC lab mapping
RxNorm drug hierarchy
Visit type standardization

Data Quality (3):

Pie charts for mapping rates
Domain distribution
Vocabulary coverage

Streamlit Dashboard

8-page interactive application:

Overview - Key metrics, record counts
Patients - Demographics browser
Visits - Encounter timeline
Conditions - Problem list viewer
Medications - Drug exposure table
Labs - Measurement trending
Vocabulary - Concept search
Data Quality - Validation results

Module 8: Excel Reports

8 comprehensive exports:

Report	Contents
Patient Roster	Demographics with visit/med/dx counts
Lab Results	Longitudinal results with LOINC
Medication List	Active/historical meds with RxNorm
Problem List	Diagnoses with ICD-10 → SNOMED
Visit Summary	Encounters by type
OMOP CDM Summary	CDM statistics, mapping rates
Combined Patient Report	Multi-sheet per-patient view
Data Quality Report	Validation metrics

Module 9: Synthea Integration

To move from proof-of-concept (5 patients) to realistic scale, we integrated Synthea, the open-source synthetic patient generator:

Patient Generation

# Generate 2,500 patients with Massachusetts demographics
java -jar synthea-with-dependencies.jar \
  -p 2500 \
  --exporter.csv.export true \
  Massachusetts

Scale Comparison

Metric	Manual (Module 1)	Synthea (Module 9)
Patients	5	2,411
Encounters	124	249,333
Conditions	8	150,922
Medications	6	207,263
Measurements	209	3,534,250
Procedures	-	756,599
Total Records	352	4,901,189

ETL-Synthea Integration

We used the ETL-Synthea R package for CDC-validated Synthea-to-OMOP transformation:

# R workflow
library(ETLSynthea)

# Configure connection
cd <- DatabaseConnector::createConnectionDetails(
  dbms = "postgresql",
  server = "localhost/ohdsi_learning",
  user = "ohdsi",
  password = Sys.getenv("POSTGRES_PASSWORD")
)

# Execute ETL
ETLSynthea::LoadSyntheaFiles(cd, "staging", "/path/to/synthea/csv")
ETLSynthea::LoadEventTables(cd, "cdm", "vocabulary", "staging")

Module 10: ACHILLES Analysis Framework

ACHILLES (Automated Characterization of Health Information at Large-scale Longitudinal Evidence Systems) provides standardized data profiling:

Analysis Categories

ACHILLES runs 85+ pre-built analyses across 7 clinical domains:

Domain	Analysis IDs	Key Metrics
Person	1-99	Age, gender, race distributions
Observation Period	100-199	Coverage duration, gaps
Visit	200-299	Utilization by type
Condition	400-499	Prevalence, trends
Drug	500-599	Prescription patterns
Procedure	600-699	Intervention rates
Measurement	700-799	Lab/vital coverage

Data Quality Dimensions (Kahn Framework)

ACHILLES Heel checks assess four quality dimensions:

Completeness - Are required data elements present?
Conformance - Do values conform to expected formats/ranges?
Plausibility - Are values clinically plausible?
Temporal Validity - Are date sequences logical?

Analysis Scripts

We developed 15 SQL scripts with clinical documentation:

scripts/
├── 01_setup_results_schema.sql
├── 03_demographics_analysis.sql
├── 04_visit_analysis.sql
├── 05_condition_analysis.sql
├── 06_drug_analysis.sql
├── 07_measurement_analysis.sql
├── 09_data_quality_analysis.sql
├── 10_use_case_feasibility.sql
└── 14_comprehensive_dashboard.sql

Module 11: ACHILLES Execution & Validation

Execution Results

Running ACHILLES on our 2,411-patient Synthea dataset:

Execution Summary:
─────────────────────────────────────────
Execution Time:      1.5 seconds
Analyses Executed:   25
Result Rows:         16,159
Persons Analyzed:    2,411
ACHILLES Heel:       3 findings (minor)
─────────────────────────────────────────

Data Quality Scorecard

Dimension	Score	Notes
Completeness	98%	All required fields populated
Conformance	99%	Valid concept IDs, proper formats
Plausibility	95%	Realistic clinical values
Temporal	97%	Consistent date sequences
Overall	97/100	Research-ready

ACHILLES Heel Findings

Only 3 minor issues detected (expected for synthetic data):

WARNING: Some concepts have low patient counts (< 5 patients)
NOTIFICATION: Observation periods span future dates (Synthea artifact)
NOTIFICATION: Some measurement values at clinical extremes

Domain-Specific Metrics

Domain	Records	Unique Concepts	Mapping Rate
Person	2,411	12	100%
Visit	249,333	3	100%
Condition	150,922	847	99.2%
Drug	207,263	1,234	98.7%
Measurement	3,534,250	156	100%
Procedure	756,599	423	99.5%

Data Readiness for Research

With ACHILLES complete, we can assess readiness for clinical research studies:

Cohort Feasibility Assessment

Example: Type 2 Diabetes Comparative Effectiveness Study

-- Estimate cohort sizes
SELECT
  'Base Population (HTN diagnosis)' as cohort,
  COUNT(DISTINCT person_id) as patients
FROM cdm.condition_occurrence
WHERE condition_concept_id IN (
  SELECT descendant_concept_id
  FROM vocabulary.concept_ancestor
  WHERE ancestor_concept_id = 320128  -- Essential hypertension
);

-- Results:
-- Base Population: 723 patients (30% of population)
-- ACE Inhibitors: 342 patients
-- ARBs: 156 patients
-- CCBs: 187 patients

Network Study Readiness

Our dataset meets OHDSI network study requirements:

Requirement	Status	Evidence
CDM v5.4 compliance	✓	All tables conform to specification
Vocabulary currency	✓	ATHENA 2024 vocabularies
ACHILLES profiling	✓	16,159 result rows
Data quality score	✓	97/100 overall
Observation period	✓	Average 5+ years per patient
Minimum population	✓	2,411 patients

Pre-Study Feasibility Queries

-- Diabetes study feasibility
SELECT
  'T2DM Patients' as metric,
  COUNT(DISTINCT person_id) as count,
  ROUND(100.0 * COUNT(DISTINCT person_id) /
    (SELECT COUNT(*) FROM cdm.person), 1) as pct
FROM cdm.condition_occurrence co
JOIN vocabulary.concept_ancestor ca
  ON co.condition_concept_id = ca.descendant_concept_id
WHERE ca.ancestor_concept_id = 201826  -- T2DM SNOMED

UNION ALL

SELECT 'Metformin Exposed', COUNT(DISTINCT person_id),
  ROUND(100.0 * COUNT(DISTINCT person_id) /
    (SELECT COUNT(*) FROM cdm.person), 1)
FROM cdm.drug_exposure de
JOIN vocabulary.concept_ancestor ca
  ON de.drug_concept_id = ca.descendant_concept_id
WHERE ca.ancestor_concept_id = 1503297  -- Metformin

UNION ALL

SELECT 'HbA1c Available', COUNT(DISTINCT person_id),
  ROUND(100.0 * COUNT(DISTINCT person_id) /
    (SELECT COUNT(*) FROM cdm.person), 1)
FROM cdm.measurement m
WHERE measurement_concept_id = 3004410;  -- HbA1c LOINC

Feasibility Results:

Diabetes patients: ~370 (15% prevalence)
Metformin exposed: ~280 (11%)
HbA1c available: ~1,200 (50%)
Assessment: FEASIBLE for diabetes-related studies

Key Lessons Learned

1. Vocabulary is Everything

Understanding how ICD-10 maps to SNOMED, how RxNorm normalizes drugs, and how LOINC standardizes labs is fundamental. Without vocabulary mastery, ETL fails.

2. Start Simple

Five patients with realistic data taught more than 5,000 synthetic records would have. Trace individual records through the entire pipeline.

3. Validate Continuously

ETL errors compound. Check record counts at each step. Verify concept mappings before loading. Use the data quality queries.

4. Document Everything

Module documentation, SQL comments, Mermaid diagrams - future you will thank present you.

Next Steps

With our 11-module foundation complete, the journey continues:

Completed	Next Phase
✅ EHR Architecture	🔜 ATLAS - Interactive cohort building
✅ Clinical Terminologies	🔜 Patient-Level Prediction - ML on OMOP
✅ OMOP CDM v5.4	🔜 Characterization Studies - Population analysis
✅ PostgreSQL Infrastructure	🔜 Estimation Studies - Causal inference
✅ Python ETL Pipeline	🔜 Network Studies - Multi-site collaboration
✅ SQL Query Library
✅ Interactive ERD Diagrams
✅ Streamlit Dashboards
✅ Synthea Integration
✅ ACHILLES Analysis
✅ Data Quality Validation

Immediate next steps:

Deploy ATLAS for interactive cohort building
Build Type 2 Diabetes comparative effectiveness cohort
Run Patient-Level Prediction for disease progression
Submit to OHDSI network study (after privacy review)

Resources

The Book of OHDSI - Comprehensive guide
ATHENA - Vocabulary browser and downloads
OMOP CDM Docs - Table specifications
OHDSI Forums - Community support

Project Files

All code, documentation, and artifacts available in the project repository:

01-comprehensive-healthcare-data-workflow/
├── docs/
│   ├── module-1-foundations/        # EHR architecture, patient profiles
│   ├── module-2-terminologies/      # ICD-10, LOINC, RxNorm, SNOMED
│   ├── module-3-omop-cdm/          # CDM v5.4 architecture
│   ├── module-4-postgresql/        # Database setup
│   ├── module-5-ETL-documentation/ # Field mappings, interactive ERDs
│   ├── module-6-sql-queries/       # 75+ query documentation
│   ├── module-7-visualizations/    # 50+ diagrams
│   ├── module-8-reports/           # Excel report specs
│   ├── module-9-synthea/           # Synthea integration
│   ├── module-10-achilles/         # ACHILLES analysis scripts
│   └── module-11-achilles-execution/ # Execution results
├── code/sql/                # 75+ SQL queries (11 files)
├── python-etl/             # Python ETL package (17 modules)
├── visualizations/         # 50+ Mermaid diagrams
├── dashboards/             # 2 Streamlit apps
├── reports/                # 4 Excel workbooks
├── synthea/                # Synthea configuration
└── etl-synthea/            # R ETL package

Quick Start:

# Launch Clinical Dashboard
cd dashboards && streamlit run streamlit_dashboard.py

# Launch ACHILLES Dashboard
cd dashboards && streamlit run achilles_dashboard.py

# Launch Interactive ERD
cd docs/module-5-ETL-documentation
npx serve interactive-erd/etl-mapping -l 3003

Transform your healthcare data. Join the OHDSI community. Generate evidence that matters.