삽질하며 얻은 위키피디아 데이터를 얻어내는 방법을 정리한다. 1. 데이터 다운로드 Wikimedia Downloads Database backup dumps (current page) A complete copy of all Wikimedia wikis, in the form of wikitext source and metadata embedded in XML.
A number of raw database tables in SQL form are also available. These snapshots are provided at the very least monthly and... dumps.wikimedia.org 위의 사이트에 들어가서 위키피디아 데이터를 다운로드 한다.
여기서 주의 할 점은 다양한 포맷으로 위키 데이터가 존재하는데, .XML 로 된 파일을 받아야 한다는 점이다. 나중에 이를 처리하는 파일에서 XML 파일만 처리하기 때문이다.
아래 그림과 같이 , XML이고, ...
#
구축
#
말뭉치
#
위키피디아
원문 링크 : How to get wikipedia corpus?