COMPUTER SCIENCE · UNDERGRADUATE

박민재

Minjae Park

NLP · RAG · LLM Agent를 중심으로
논문과 프로젝트, 아키텍처 구현을 함께 쌓아 온 컴퓨터공학 학부생입니다.

Scroll for more

PROFILE

박민재

Minjae Park

CS UNDERGRADUATE

박민재 프로필 사진
  • Birth2001.10.05
  • Home경기도 수원시
  • Education가천대학교 컴퓨터공학과 · 컴퓨터공학부
SCI
Published
  • 연구
    기획
  • 실험
    설계
  • 결과
    도출
  • 논문
    작성
  • 동료
    심사
  • 논문
    게재
JMIR MI 2025
공동 1저자 · SCI 게재
GPA
4.42 / 4.5 · 98.2%
전공학점4.44 / 4.5 취득학점110 / 120
성적증명서
LAB Internship
DAC LAB
Biomedical NLP · RAG · Agent
Service
공군 데이터플랫폼팀
AiRWARDS RAG 파이프라인 개발
Research
[ SCI ] Biomedical BERT 모델 임베딩을 통한 약물-부작용 관계 예측 연구
Publications
Publications
Journal · Conference
Biomedical NLP
ADR Prediction BERT Models Vector Similarity
JMIR MI · 2025 자세히 보기
Venue JMIR MI '25
Impact IF 3.8
Citations 3
Role Co-first author
Status Published

Predicting Drug–Side Effect Relationships From Parametric Knowledge Embedded in Biomedical BERT Models

Minjae Park, et al. · JMIR Medical Informatics · 2025/07/10

바이오메디컬 BERT 모델의 임베딩 공간에 내재된 약물-부작용 관계 정보를 활용해, 기존 데이터베이스에 명시되지 않은 잠재적 ADR 관계 후보를 예측하고, SIDER·FAERS·문헌 검토를 통해 그 예측 가능성을 검증했습니다.p < .001)을 함께 설계했고, 리뷰 대응 과정에서 한계와 주장 범위를 스스로 정리했습니다.

Research core

연구 핵심 정리

Biomedical NLP · ADR Prediction · Parametric Knowledge

Abstract

BioBERT 임베딩 공간에 담긴 약물-부작용 관계 신호를 이용해, 기존 데이터베이스에 없는 잠재적 ADR 후보를 예측

약물·부작용 유사도와 알려진 관계 구조를 결합해 relation score를 만들었습니다. 이후 SIDER 내부 평가와 FAERS 외부 검증을 함께 수행해, 모델 점수가 실제 약물감시 데이터와도 연결되는지 확인했습니다.

Background

기존 임베딩이 바이오메디컬 텍스트의 복잡한 문맥과 관계를 충분히 반영하지 못한다는 문제점

약물 부작용은 환자 안전과 신약 개발에 직접 연결되기 때문에, 알려진 부작용을 넘어 잠재 관계를 조기에 찾는 것이 중요합니다. 이 연구는 PubMed/PMC 기반 BERT가 Word2Vec보다 더 풍부한 도메인 관계 정보를 담고 있는지 확인하고자 했습니다.

Objective

바이오메디컬 BERT 임베딩이 알려지지 않은 약물-부작용 관계 예측에 실제로 유용한지 검증

먼저 SIDER의 알려진 관계를 얼마나 잘 복원하는지 평가했습니다. 그다음 SIDER에는 없지만 FAERS나 최신 문헌에서 관찰되는 후보와도 연결되는지 확인해, 벤치마크 성능과 실제 약물감시 활용 가능성을 함께 보려 했습니다.

Method

SIDER 관계 그래프와 언어모델 임베딩 유사도를 결합해 모든 약물-부작용 후보의 relation score를 계산

SIDER 4.1의 158,096개 관계, 1,345개 약물, 6,123개 부작용을 기반으로 8,235,435개 후보 쌍을 평가했습니다. BioBERT, BiomedBERT, PharmBERT, vanilla BERT, Word2Vec을 비교해 도메인 사전학습의 효과를 분리해 보았습니다. 외부 검증에는 FAERS의 901,361개 관계를 사용했습니다.

Results

  • Best AUC0.915
  • Word2Vec0.848
  • FAERS OR4.822

clagator/biobert_v1.1이 AUC 0.915로 가장 높은 성능. Word2Vec과 vanilla BERT보다 높은 성능을 보이며 BERT의 양방향 context-aware 임베딩과 domain adaptation에 따른 성능 향상을 입증

FAERS 외부 검증에서도 모델 예측과 보고 관계 사이에 유의한 연결이 확인되었습니다(P < .001, OR 4.822). 이는 모델이 높게 점수화한 후보가 실제 보고 데이터에서도 더 자주 관찰된다는 뜻입니다. 상위 후보 일부는 2016년 이후 문헌에서도 보고되어, 단순 복원이 아니라 잠재 관계 탐색 가능성을 보여주었습니다.

'24
Conference 연제논문 · 구연발표

바이오메디컬 BERT 모델 기반의 약물 부작용 예측

대한의료정보학회 춘계학술대회 · 연제논문 게재 및 구연발표
Experience
실제로 데이터·시스템을 다룬 시간들.
2022 → 2026 · Lab · Air Force · Study Abroad
2025 — 2026
Air Force · Data Platform

공군 지능정보체계관리단
데이터플랫폼팀

AI신기술체계개발대 데이터관리병으로 복무하며 AiRWARDS 공군 GPT의 RAG 파이프라인을 구축하고, LLMOps 대시보드와 법률·판례·군사용어 도메인 데이터 수집 및 적재 파이프라인을 개발했습니다.

그 외 수행
법령·국회·판례 데이터 수집 파이프라인 국가법령정보센터 법령 최신화 · 판례 26만 건 비동기 수집 · 국회 일정 수집, 벡터 DB 적재
사용자 로그 정제·라벨링·정성평가 Query 추출 · 클러스터링·카테고리 라벨링 · 정성평가 도구 구축
2024
Gachon · DAC Lab

DAC Lab 학부인턴

Data Science & AI Convergence Lab · 가천대학교. Biomedical NLP 연구를 수행했고, JMIR Medical Informatics 공동 1저자 publication으로 이어졌습니다.

Research

  • BioBERT 계열 모델의 parametric knowledge를 활용한 약물–부작용 예측 연구
  • SIDER 구조 유사성 AUC 0.915 · FAERS 통계 검증 p < .001 실험 설계

Publication

  • JMIR Medical Informatics 2025 — 공동 1저자, IF 3.8
  • 리뷰 대응 과정에서 한계와 주장 범위를 직접 정리
Biomedical NLP BioBERT JMIR MI
2022
UF · ELI Fall C

University of Florida
ELI Program

English Language Institute · Fall C 2022. 영어 학습과 Reading & Writing 트랙에서 Academic Excellence를 수상했습니다.

Certificates & Awards

  • Semester Certificate — ELI Fall C Program, University of Florida
  • Academic Excellence — Reading and Writing, Section 51
Study Abroad Academic Excellence
Projects
직접 만들고, 운영하고, 고친 것들.
7 projects · Agent · RAG · EdTech · LegalAI
01 / 07 · Agent Runtime
ARIS
Agentic Runtime Interface System

언제 어디서든, 에이전트와 개발.

서버에 살아 있는 agent runtime을 모바일과 데스크톱에서 이어 다루는 웹 기반 작업 공간.

ARIS 데스크톱 대시보드 — 에이전트 세션과 워크스페이스 상태
ARIS 모바일 채팅 — 실행 중인 에이전트 대화
02 / 07 · Research Workspace
ARES
Agentic Research Experimentation System

읽는 연구에서, 실행하는 연구로.

발견한 근거가 Reader, Lab, Insight, Writing으로 계속 이동하는 연구 자산 워크스페이스.

ARES 데스크톱 리더 — PDF, 아웃라인, 채팅 패널
ARES 모바일 라이브러리
03 / 07 · LegalAI Service
모두의입법
AI 법률 개정안 요약 플랫폼

자연어 처리 기술로,
입법을 모두의 것으로.

핵심 요약·접수 단계·발의자를 한 카드에 모아, 스크롤만으로 입법 흐름을 훑습니다.

모두의입법 데스크톱 피드 — AI 법안 요약 카드와 단계 필터
모두의입법 모바일 피드
모두의입법 피드 — AI 요약 법안 카드, 접수 단계, 발의자
01 · Summary Feed
모두의입법 법안 상세 — GPT 요약, 발의자 명단, 심사 단계
02 · Bill Summary
모두의입법 타임라인 — 국회 일정과 날짜별 위원회 심사
03 · Timeline
모두의입법 검색 — 질문으로 찾는 입법 현황
04 · Ask & Discover
모두의입법 · Product Tour

Summary Feed

AI 요약으로 쉽게 읽는 법안 피드

핵심 요약·접수 단계·발의자·스크랩 수를 한 카드에 모아, 스크롤만으로 입법 흐름을 훑습니다.

AI Bill Summary

법안 내용부터 발의자 목록, 현재 심사 단계까지.

GPT-5가 긴 원문을 짧은 요약으로 줄여, 원문을 다 읽지 않아도 핵심을 파악합니다.

Timeline

한눈에 확인하는 오늘의 국회

접수·처리·가결 현황과 날짜별 위원회 심사를 한 줄기로 이어, 진행을 시간으로 읽습니다.

Ask & Discover

질문으로 찾는 입법 현황

키워드 대신 질문으로 법안과 진행 상황을 묻고, 추천 질문으로 빠르게 탐색합니다.

04–07
04 / 07EdTech · 2025

분석하고, 풀고, 다시 만나는 단어 학습 루프.

87%
AVG ADAPTIVE SCORE
05 / 07AI-Native · 2026

메모, 지식 그래프, 에이전트 채팅이 만나는 지식 공간.

128 nodes · 3 clusters
06 / 07Personal · Mobile

독서, 공부, 문화생활을 색으로 남기는 기록장.

07 / 07In development

지원 목표에 맞춰 자동으로 정렬되는 포트폴리오.

JOB DESC
LLM 추론 · 평가 · 분산 학습
RE-ORDER
1. ARES
2. ARIS
3. 모두의입법

대학원 연구실에서,
연구로 기여하고 싶습니다.

AI/NLP, RAG, LLM Agent를 중심으로 연구 문제를 찾고 구현으로 검증해 왔습니다. 연구실 지원, 면담, 프로젝트·논문 피드백과 관련해 메일 주시면 관심 주제와 준비 과정을 정리해 빠르게 답장드리겠습니다.