마이크로소프트가 더 빠른 AI 학습 인프라를 만드는 이유: AI 반복 학습 루프 & 자기개선

AI 반복 학습 루프에서 핵심은 더 큰 모델이 아니라 스스로 실험하고 결과를 배우는 속도다. 코딩 AI는 코드를 작성하고 실행한 뒤 오류를 수정하고 재실행하며, AI 신약 개발은 약물을 설계하고 실험 결과를 받아 다시 설계한다. 로봇과 자율주행은 행동 후 데이터를 모아 다시 학습한다. 결국 실험 → 데이터 → 학습 → 피드백 → 재실험의 속도가 AI 발전 속도를 좌우한다.

많은 연구자들은 AGI를 단순한 똑똑한 챗봇이 아니라 성능을 스스로 높이는 시스템으로 보는 이유도 여기에 있다. 문제를 풀고 결과를 평가한 뒤 새로운 데이터를 만들고 다시 학습하는 과정이 자동화되면 자기개선이 가능해지며, 이 반복 속도가 빨라질수록 성능 향상은 기하급수적으로 가속될 가능성이 제시된다. 이를 뒷받침하는 인프라 경쟁도 중요하다. AI가 단순한 답변 생성이 아니라 수많은 가설을 만들고 시뮬레이션하고 평가하며 재학습해야 하기 때문이다. 현재 서비스 수요를 넘어 앞으로의 반복 학습 루프를 더 빠르게 돌리려는 노력이 큰 흐름으로 자리한다.

이번 연구의 핵심은 모델 자체가 아니라 수만 개의 GPU를 하나의 거대한 컴퓨터처럼 연결해 학습 속도를 극한까지 높이는 인프라 기술이다. 마이크로소프트는 MLPerf Training 벤치마크에서 Llama 3.1 405B 모델 학습 작업을 약 7분 만에 완료했다. 8,192개의 GPU를 활용하되 하나의 거대한 AI 슈퍼컴퓨터처럼 움직이도록 구성하는 방식이 주목된다. 같은 랙 내 GPU는 NVLink로 초당 1 800GB의 속도로 연결되고, 다른 랙은 Azure MRC 네트워크로 초당 100GB 속도로 연결해 중요한 통신을 빠르게 처리한다. 네트워크 병목을 최소화해 학습 스텝 시간의 추가 지연을 약 20밀리초 수준으로 줄였고, 전체 학습 규모를 늘려도 속도가 거의 변하지 않는 Weak Scaling Efficiency가 99.8%에 이른다. 이러한 성과는 GPU 수를 늘려도 효율적으로 확장될 수 있음을 보여 준다.

이번 연구의 시사점은 AI 발전 속도를 높이는 기반 인프라가 가능하다는 점이다. 앞으로 코딩 에이전트, AI 신약 개발, 로봇, 자율주행 등 대부분의 분야에서 얼마나 많은 실험과 피드백을 얼마나 빠르게 반복할 수 있는지가 핵심이 될 전망이다. 마이크로소프트는 8,192개 GPU를 거의 하나처럼 활용하는 방식으로 AI 반복 학습 루프를 가속할 수 있는 가능성을 제시했다.

요청 처리 중입니다...

마이크로소프트가 더 빠른 AI 학습 인프라를 만드는 이유: AI 반복 학습 루프 & 자기개선

등록된 다른 글