합성 데이터는 실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용해 추정된 모형에서 새롭게 생성한 모의 데이터 (Simulated Data)를 말합니다. 합성 데이터는 인공적일 수도 있지만, 수학적으로나 통계적으로 실제 데이터를 반영하기도 하는데, 연구 결과에 따르면, 합성 데이터는 실제 사물이나 사건, 사람을 기반으로 얻은 데이터보다 AI 모델을 훈련하는 게 더 적합하다고 한다.
개발자가 신경망을 훈련하려면 신중하게 레이블이 붙여진 대규모 데이터 세트가 필요하며, 훈련하는 데이터가 다양하면 다양할수록 보다 정확한 AI 모델을 만들 수 있다. 문제는 수천에서 수천만 개의 요소가 포함된 데이터 세트를 수집하고 레이블을 지정하는 데는 장시간이 소요될 뿐만 아니라 비용이 엄청나게 비싸다는 것이다.
이때 합성 데이터를 활용하면 적은 비용으로 대량의 데이터를 확보할 수 있다. 최초의 전용 합성 데이터 서비스업체인 AI 레버...
#
AIReverie
#
GAN
#
Simulateddata
#
syntheticdata
#
모의데이터
#
인공진ㅇ
#
합성데이터
원문 링크 : AI가 낳은 합성 데이터 (Synthetic Data)