박민재

Biomedical NLP

ADR Prediction BERT Models Vector Similarity

JMIR MI · 2025 자세히 보기 →

Venue JMIR MI '25

Impact IF 3.8

Citations 3

Role Co-first author

Status Published

Predicting Drug–Side Effect Relationships From Parametric Knowledge Embedded in Biomedical BERT Models

Minjae Park, et al. · JMIR Medical Informatics · 2025/07/10

바이오메디컬 BERT 모델의 임베딩 공간에 내재된 약물-부작용 관계 정보를 활용해, 기존 데이터베이스에 명시되지 않은 잠재적 ADR 관계 후보를 예측하고, SIDER·FAERS·문헌 검토를 통해 그 예측 가능성을 검증했습니다.p < .001)을 함께 설계했고, 리뷰 대응 과정에서 한계와 주장 범위를 스스로 정리했습니다.

Read paper ↗ Research detail

Research core

연구 핵심 정리

Biomedical NLP · ADR Prediction · Parametric Knowledge

Abstract

BioBERT 임베딩 공간에 담긴 약물-부작용 관계 신호를 이용해, 기존 데이터베이스에 없는 잠재적 ADR 후보를 예측

약물·부작용 유사도와 알려진 관계 구조를 결합해 relation score를 만들었습니다. 이후 SIDER 내부 평가와 FAERS 외부 검증을 함께 수행해, 모델 점수가 실제 약물감시 데이터와도 연결되는지 확인했습니다.

Background

기존 임베딩이 바이오메디컬 텍스트의 복잡한 문맥과 관계를 충분히 반영하지 못한다는 문제점

약물 부작용은 환자 안전과 신약 개발에 직접 연결되기 때문에, 알려진 부작용을 넘어 잠재 관계를 조기에 찾는 것이 중요합니다. 이 연구는 PubMed/PMC 기반 BERT가 Word2Vec보다 더 풍부한 도메인 관계 정보를 담고 있는지 확인하고자 했습니다.

Objective

바이오메디컬 BERT 임베딩이 알려지지 않은 약물-부작용 관계 예측에 실제로 유용한지 검증

먼저 SIDER의 알려진 관계를 얼마나 잘 복원하는지 평가했습니다. 그다음 SIDER에는 없지만 FAERS나 최신 문헌에서 관찰되는 후보와도 연결되는지 확인해, 벤치마크 성능과 실제 약물감시 활용 가능성을 함께 보려 했습니다.

Method

SIDER 관계 그래프와 언어모델 임베딩 유사도를 결합해 모든 약물-부작용 후보의 relation score를 계산

SIDER 4.1의 158,096개 관계, 1,345개 약물, 6,123개 부작용을 기반으로 8,235,435개 후보 쌍을 평가했습니다. BioBERT, BiomedBERT, PharmBERT, vanilla BERT, Word2Vec을 비교해 도메인 사전학습의 효과를 분리해 보았습니다. 외부 검증에는 FAERS의 901,361개 관계를 사용했습니다.

Results

Best AUC0.915
Word2Vec0.848
FAERS OR4.822

clagator/biobert_v1.1이 AUC 0.915로 가장 높은 성능. Word2Vec과 vanilla BERT보다 높은 성능을 보이며 BERT의 양방향 context-aware 임베딩과 domain adaptation에 따른 성능 향상을 입증

FAERS 외부 검증에서도 모델 예측과 보고 관계 사이에 유의한 연결이 확인되었습니다(P < .001, OR 4.822). 이는 모델이 높게 점수화한 후보가 실제 보고 데이터에서도 더 자주 관찰된다는 뜻입니다. 상위 후보 일부는 2016년 이후 문헌에서도 보고되어, 단순 복원이 아니라 잠재 관계 탐색 가능성을 보여주었습니다.

2025 — 2026

Air Force · Data Platform

공군 지능정보체계관리단
데이터플랫폼팀

AI신기술체계개발대 데이터관리병으로 복무하며 AiRWARDS 공군 GPT의 RAG 파이프라인을 구축하고, LLMOps 대시보드와 법률·판례·군사용어 도메인 데이터 수집 및 적재 파이프라인을 개발했습니다.

Small-to-Big RAG 파이프라인

Leaf Node로 정밀하게 검색하고 Parent Node로 문맥을 반환해 정밀도–정보량 trade-off를 완화.

Small-to-Big Chunking Strategy

법률 문서 계층구조 기반 RAG

장-절-조를 hierarchy metadata로 보존, 계층 문맥을 embedding에 반영해 규정 검색 개선.

Legal RAG Pipeline Contextual Embedding

LLMOps 데이터 모니터링 대시보드

Langfuse·RAG 지표·PCA 분포·Hit Rate를 React 19 · FastAPI로 시각화해 검색 품질 추적.

LLMOps Dashboard

그 외 수행

법령·국회·판례 데이터 수집 파이프라인 국가법령정보센터 법령 최신화 · 판례 26만 건 비동기 수집 · 국회 일정 수집, 벡터 DB 적재

사용자 로그 정제·라벨링·정성평가 Query 추출 · 클러스터링·카테고리 라벨링 · 정성평가 도구 구축

2024

Gachon · DAC Lab

DAC Lab 학부인턴

Data Science & AI Convergence Lab · 가천대학교. Biomedical NLP 연구를 수행했고, JMIR Medical Informatics 공동 1저자 publication으로 이어졌습니다.

Research

BioBERT 계열 모델의 parametric knowledge를 활용한 약물–부작용 예측 연구
SIDER 구조 유사성 AUC 0.915 · FAERS 통계 검증 p < .001 실험 설계

Publication

JMIR Medical Informatics 2025 — 공동 1저자, IF 3.8
리뷰 대응 과정에서 한계와 주장 범위를 직접 정리

Biomedical NLP BioBERT JMIR MI

2022

UF · ELI Fall C

University of Florida
ELI Program

English Language Institute · Fall C 2022. 영어 학습과 Reading & Writing 트랙에서 Academic Excellence를 수상했습니다.

Certificates & Awards

Semester Certificate — ELI Fall C Program, University of Florida
Academic Excellence — Reading and Writing, Section 51

Study Abroad Academic Excellence

01 / 07 · Agent Runtime

ARIS

Agentic Runtime Interface System

언제 어디서든, 에이전트와 개발.

서버에 살아 있는 agent runtime을 모바일과 데스크톱에서 이어 다루는 웹 기반 작업 공간.

프로젝트 소개 →

02 / 07 · Research Workspace

ARES

Agentic Research Experimentation System

읽는 연구에서, 실행하는 연구로.

발견한 근거가 Reader, Lab, Insight, Writing으로 계속 이동하는 연구 자산 워크스페이스.

살펴보기 ↗ 프로젝트 소개 →

04 / 07EdTech · 2025

분석하고, 풀고, 다시 만나는 단어 학습 루프.

87%

AVG ADAPTIVE SCORE

05 / 07AI-Native · 2026

메모, 지식 그래프, 에이전트 채팅이 만나는 지식 공간.

128 nodes · 3 clusters

06 / 07Personal · Mobile

독서, 공부, 문화생활을 색으로 남기는 기록장.

07 / 07In development

지원 목표에 맞춰 자동으로 정렬되는 포트폴리오.

JOB DESC

LLM 추론 · 평가 · 분산 학습

→

RE-ORDER

1. ARES
2. ARIS
3. 모두의입법

박민재