FracAtlas: 근골격 방사선 사진의 골절 분류, 국소화 및 분할을 위한 데이터 세트
과학 데이터 10권, 기사 번호: 521(2023) 이 기사 인용
1 알트메트릭
측정항목 세부정보
디지털 방사선 촬영은 골절 진단을 위한 가장 일반적이고 비용 효율적인 표준 중 하나입니다. 이러한 진단을 위해서는 시간이 많이 걸리고 엄격한 교육이 필요한 전문가의 개입이 필요합니다. 최근 컴퓨터 비전 알고리즘이 발전하면서 컴퓨터를 이용한 진단에 대한 관심이 급증하고 있습니다. 알고리즘을 개발하려면 적절한 주석이 포함된 대규모 데이터 세트가 필요합니다. 기존 X-Ray 데이터 세트는 작거나 적절한 주석이 부족하여 기계 학습 알고리즘의 개발과 분류, 현지화 및 분할을 위한 알고리즘의 상대적 성능 평가를 방해합니다. 방글라데시의 3개 주요 병원에서 수집한 이미지를 선별하여 선별한 새로운 X-Ray 스캔 데이터세트인 FracAtlas를 소개합니다. 우리의 데이터 세트에는 오픈 소스 라벨링 플랫폼인 makeense.ai를 사용하여 2명의 전문 방사선 전문의와 정형외과 의사의 도움을 받아 골절 분류, 위치 파악 및 분할을 위해 수동으로 주석이 달린 4,083개의 이미지가 포함되어 있습니다. 922개의 골절 사례가 포함된 717개의 이미지가 있습니다. 각 골절 인스턴스에는 자체 마스크와 경계 상자가 있는 반면, 스캔에는 분류 작업을 위한 전역 레이블도 있습니다. 우리는 이 데이터 세트가 골절 진단을 위한 기계 학습 알고리즘을 개발하고 평가하는 데 관심이 있는 연구자들에게 귀중한 리소스가 될 것이라고 믿습니다.
최근 수십 년 동안 컴퓨터 보조 진단(CAD) 시스템에 대한 수요가 급증했습니다. 또한, 최근 다양한 의학 분야에서 대규모 데이터 세트와 고급 기계 학습 알고리즘을 활용하는 진단 자동화 프로세스가 급속히 발전하고 있습니다1,2. CNN(Convolutional Neural Network)3, YOLO(You Only Look Once)4 및 U-NET5와 같은 모델은 X-Ray 스캔에서 이상 징후를 탐지하는 데 전문가 수준의 성능을 달성할 수 있습니다. 그러한 모델을 훈련하려면 크고 주석이 잘 달린 데이터세트가 필요합니다6,7,8. 병원이나 진단센터에서는 이러한 데이터를 수집하기가 어렵습니다. 주석 프로세스는 편견과 인적 오류를 제거하기 위한 합의를 위해 여러 의사와 방사선 전문의의 참여가 필요하므로 비용이 매우 많이 들 수 있습니다. 의료 데이터는 민감한 특성으로 인해 획득한 데이터를 공개적으로 사용하는 것도 매우 어렵습니다. 요약하자면, 이러한 데이터 세트를 생성하는 데는 비용과 시간이 많이 소요됩니다2,9.
공개적으로 이용 가능하고 이상 현상에 초점을 맞춘 잘 알려진 X-Ray 데이터세트로는 MURA10, MedPix11, GRAZPEDWRI-DX12, IIEST1, MOST13, VinDr-CXR2, VinDr-SpineXR14 및 ChestX-ray1415가 있습니다. 이러한 데이터세트 중 MURA는 팔꿈치, 손가락, 팔뚝, 손, 상완골, 어깨, 손목 등 다양한 부위의 40,561개 이미지가 포함된 2D 근육 골격 방사선 사진 모음입니다10. 각 이미지에는 '정상' 또는 '비정상'이라는 라벨이 지정되어 분류 작업에 적합하지만 현지화 및 분할을 위한 적절한 주석이 부족합니다. MedPix는 '골절'이라는 키워드로 필터링하여 954개의 이미지를 생성할 수 있는 다양한 질병에 대한 2D 및 3D 의료 스캔의 온라인 데이터베이스입니다. 이러한 이미지에는 X선, 실제 이미지, 자기공명영상(MRI), 컴퓨터 단층촬영(CT) 스캔, 초음파 영상이 포함됩니다. 그러나 데이터세트에는 정리되지 않은 주석, 잘못된 라벨이 지정된 이미지, 일부 스팸 이미지 등의 문제가 있습니다. GRAZPEDWRI-DX는 최근 발표된 데이터 세트로, 6,091명의 환자로부터 수집된 위치 파악에 대한 주석이 포함된 20,327개의 스캔이 포함되어 있습니다. 이는 적절하게 큰 데이터 세트이지만 손목 골절만 다루고 인체의 나머지 부분은 생략합니다. IIEST는 217개의 이미지를 포함하는 2D X-ray의 작은 데이터세트로, 그 중 49개는 건강한 이미지, 99개는 골절된 이미지, 69개는 암성 뼈 스캔 이미지입니다. 이 데이터 세트는 매우 작으며 기계 학습 활동에 적합하지 않습니다. MOST는 KL(Kellgren-Lawrence) 등급 시스템16으로 분류된 4,446개의 X선 및 MRI 스캔을 포함하는 데이터 세트로, 등급 0부터 등급 4까지 5개 등급이 있으며 심각도가 하나씩 증가합니다. 이 데이터 세트는 자금 부족 및 폐쇄로 인해 더 이상 공개 도메인에서 사용할 수 없습니다. 또한 무릎 관절 골절에만 적용됩니다. VinDr-CXR은 또한 현지화를 위한 수동 주석이 포함된 18,000개의 흉부 엑스레이(CXR) 이미지가 포함된 최근 게시된 데이터 세트입니다. 이 데이터 세트에는 28가지 유형의 흉부 질환 및 이상에 대한 샘플이 포함되어 있습니다. 이는 흉부 질환을 식별하기 위한 좋은 데이터 세트이지만 골절 식별에는 적합하지 않습니다. 마찬가지로 VinDr 그룹에는 비슷한 이유로 골절 연구에 적합하지 않은 다른 데이터 세트 VinDr-Mammo17, VinDr-SpineXR14 및 PediCXR18이 있습니다. ChestX-ray14는 112,000개의 CXR 스캔이 포함된 방사선 그래프용 데이터 세트입니다. 이 데이터 세트에는 흉부 질환 샘플만 포함되어 있으므로 골절 연구에도 적합하지 않습니다. 인체 방사선 사진의 일부 주요 데이터 세트는 표 1의 FracAtlas 데이터 세트19와 비교됩니다.