본문 바로가기
AI

의료용 인공지능 FDA 승인 과정에서 주의할 점 심층 분석

by goodgyeol 2025. 10. 10.

의료용 인공지능 FDA 승인 과정에서 주의할 점 심층 분석

1. 초기 SaMD 분류 및 성능 입증: 의도된 사용 범위와 Predicate 선정의 중요성

의료용 인공지능(AI) 프로그램을 개발하고 FDA 승인을 추진하는 과정에서 가장 먼저 그리고 가장 신중하게 접근해야 할 단계는 의료기기로서의 소프트웨어(SaMD, Software as a Medical Device) 분류와 **의도된 사용 범위(Intended Use)**를 명확히 정의하는 것입니다. FDA는 AI의 위험도와 기능에 따라 4가지 등급(Class I to IV)으로 SaMD를 분류하며, 이 초기 분류가 향후 경로, 경로 등 전체 승인 절차의 복잡성과 소요 시간을 결정합니다.

주의할 점은 의도된 사용 범위를 설정할 때, AI가 '진단 보조' 역할을 수행하는지 아니면 **'자율적인 진단 및 치료 결정'**을 내리는지 명확히 구분해야 한다는 것입니다. 자율적 AI는 더 높은 위험 등급(Class II 이상)으로 분류되어 더 엄격한 임상 데이터와 성능 입증을 요구합니다. 특히, 경로를 선택할 경우, 이미 FDA 승인을 받은 유사 제품인 **Predicate (선행 제품)**을 정확하게 선정해야 합니다. 여기서 주의할 점은, AI의 기술적 메커니즘이 $\text{Predicate}$와 **실질적 동등성(Substantial Equivalence)**을 갖추어야 함에도 불구하고, AI 특유의 기능성을 간과하고 무리하게 동등성을 주장할 경우 승인 심사 과정에서 심각한 지연이나 반려를 초래할 수 있다는 점입니다. 따라서 초기 개발 단계부터 **FDA와의 사전 상담(Pre-Submission)**을 통해 SaMD 등급과 선정의 타당성을 검증받고, AI의 성능이 민감도(Sensitivity)와 특이도(Specificity) 측면에서 기존 $\text{Predicate}$에 **열등하지 않음(Non-Inferiority)**을 입증할 수 있는 임상 시험 계획서를 철저하게 설계해야 합니다. 이 단계의 미흡함은 AI 개발의 모든 투자를 무산시킬 수 있는 핵심적인 위험 요소입니다.


2. 임상 데이터의 품질 관리: 데이터 편향 최소화와 Annotation 오류 방지

AI의 성능은 곧 학습 데이터의 품질에 의해 결정되므로, 승인 과정에서 임상 데이터의 수집, 정제, 그리고 검증 과정은 가장 집중적인 심사 대상이 됩니다. 여기서 가장 주의해야 할 요소는 **데이터 편향(Data Bias)**의 철저한 관리와 참 표준(Ground Truth)의 정확성 확보입니다.

데이터 편향 문제는 AI가 특정 인구 집단에게 불공평한 진단 결과를 내리는 의료 불평등으로 직결됩니다. FDA는 AI 프로그램이 학습된 데이터셋이 **다양한 인종, 성별, 나이, 그리고 다양한 의료 환경(장비 제조사, 영상 획득 프로토콜)**의 영상을 충분히 포괄하고 있는지 검토합니다. 특히, 하나의 지역이나 병원 데이터에만 의존하여 학습된 AI는 **일반화 성능(Generalization Performance)**이 낮아 FDA 승인 후 시장에서 성능 저하를 일으킬 위험이 크므로, 다기관 연구데이터 다양성 분석 보고서를 제출하는 것이 필수적입니다. 또한, 학습 데이터의 레이블링(Labeling), 즉 **참 표준(Ground Truth)**을 확립하는 과정에서 발생하는 Annotation 오류를 방지해야 합니다. 참 표준은 반드시 **숙련된 복수 의료 전문가(예: 영상의학과 의사)**의 **합의(Consensus)**를 통해 구축되어야 하며, Annotation 품질 관리(Quality Control) 절차와 그 결과를 FDA에 투명하게 제시해야 합니다. 레이블 오류는 AI 모델의 성능을 근본적으로 왜곡시켜 승인 과정에서 AI의 임상적 타당성을 입증하지 못하게 만드는 결정적인 실수로 작용합니다.


3. 규제 문서 작성의 전문성: 설명 가능성(XAI) 보고와 V V의 일관성

FDA 승인 과정은 임상 데이터의 성능 입증뿐만 아니라, AI 모델의 개발 및 검증 과정을 상세히 기록한 **규제 문서(Regulatory Submission)**의 완벽성에 달려 있습니다. 여기서 주의할 점은 **설명 가능성(XAI)**에 대한 보고와 검증 및 확인(V V) 절차의 일관성 유지입니다.

최근 FDA는 AI의 블랙박스(Black Box) 문제를 해소하기 위해 **설명 가능성(XAI)**에 대한 보고를 강조합니다. AI 개발사는 AI가 특정 진단을 내릴 때 **어떤 시각적 특징(Visual Features)**에 근거했는지(예: Grad-CAM과 같은 주목 영역 지도를 통해), 그리고 이 근거가 의학적으로 타당한지를 입증하는 자료를 제출해야 합니다. 단순히 성능 수치만 제출하고 AI의 논리를 설명하지 못하면, AI의 신뢰성책임성을 확보했다고 보기 어려워 심사가 지연될 수 있습니다. 또한, V V (Verification and Validation) 과정에서 AI 프로그램의 요구사항, 디자인, 코딩, 테스트 단계가 FDA가 요구하는 **품질 시스템 규정(Quality System Regulation, QSR)**을 준수했음을 철저히 입증해야 합니다. 특히, 임상 시험에서 사용한 알고리즘 버전과 V V 문서에 기재된 모델의 세부 사양이 단 하나의 불일치 없이 완벽하게 일치해야 합니다. 이러한 문서상의 사소한 불일치나 누락은 FDA 심사관의 신뢰를 잃게 하여 승인 절차를 처음부터 다시 시작해야 하는 결과를 초래할 수 있습니다.


4. 사후 관리 및 IT 통합 계획: 지속적 학습 모델의 관리와 PACS 연동 표준

AI의 승인은 끝이 아니라 시작입니다. 시장 출시 후에도 AI의 안전성과 유효성을 지속적으로 보장하기 위한 사후 관리 계획병원 IT 시스템 통합 계획은 승인 심사의 중요한 축을 차지합니다. 여기서 주의할 점은 지속적 학습 모델에 대한 규제 요건과 연동 표준 준수입니다.

지속적 학습형 AI 모델은 시장 출시 후 새로운 데이터로 업데이트될 때마다 성능이 저하되는 모델 성능 이탈(Model Drift) 위험을 항상 안고 있습니다. FDA는 이를 관리하기 위해 사전 명시된 변경 관리 계획을 요구하며, 이 계획에는 AI의 허용 가능한 성능 변동 범위와, 이 범위를 벗어날 경우 어떻게 모델을 업데이트하고 FDA에 보고할지에 대한 상세한 절차가 포함되어야 합니다. 또한, AI 솔루션이 병원의 PACS (영상 정보 시스템) (전자의무기록)에 원활하게 통합되어야만 임상 효용성을 가질 수 있습니다. 연동 시에는 AI 결과가 DICOM SR (Structured Report) 형식으로 전송되는지, 그리고 AI의 주목 영역 지도가 DICOM의 Presentation State 기능을 통해 원본 영상에 정확히 오버레이되는지 등 국제 표준 준수 여부를 철저히 확인해야 합니다. 규제 당국은 AI의 기술적 안전성뿐만 아니라 실제 의료 환경에서의 운용 안전성까지 고려하므로, IT 통합 계획의 구체성과 표준 준수 여부는 승인 후 AI의 성공적인 시장 진입을 결정하는 핵심 주의 사항이 됩니다.