1. 개요 합성데이터란?
합성데이터는 딥러닝, 생성형 AI를 활용하여 원본 데이터의 기본 통계 속성을 그대로 유지하여 만든 인공적인 데이터이다. 실제 세계에서 생성하는 데이터가 아니라 디지털 세계에서 생성하는 것으로 개인정보 보호등의 규제로 인하여 실제 데이터의 활용이 어렵거나 활용할 수 있는 데이터의 양이 부족한 경우에 활용된다.
어디에 사용되나? 합성데이터는 머신러닝 모델을 학습시키는데 사용되어, AI모델을 위한 고품질의 실제 학습 데이터에 대한 수요가 계속 증가하고 있지만 데이터 공급이 부족하거나 시간이 많이 걸리고 데이터 프라이버시 문제 및 보안 요구사항으로 인하여 데이터 사용이 어려운 금융·의료 분야에서 잠재적인 해결책이 된다.
증강(Augmentation) 및 익명화와 합성데이터의 차이점 이미지를 회전하거나 밝게 조정하여 새로운 이미지를 만드는 증강과 개인정보 보호를 위하여 데이터 세트에서 개인 정보를 제거하는 익명화는 일반적으로 합성데이터로 간주되지 않는다. 하지만...
원문 링크 : 합성데이터