이번 포스팅에서는 서포트벡터머신을 이용하여 OCR(OPTICAL CHARACTER RECOGNITION) 광학문자인식 수행을 해볼 것이다. OCR 소프트웨어의 목적은 종이 기반의 문서를 처리하는 것으로, 출력됐거나 손으로 쓴 글을 전자적인 형태로 변환해 데이터베이스에 저장될 수 있게 하는 것 첨부파일 letterdata.csv 파일 다운로드 데이터는 위에 첨부해둔 파일을 사용하면 된다.
데이터에 대하여 설명을 해보자면 OCR 소프트웨어는 문서를 처리할 때 종이를 행렬로 나눠 그리드(GRID)의 각 셀이 하나의 글리프(GLYPH: 그림 문자로 문자, 기호, 숫자를 의미)를 포함하게 만든다. 영어 알파벳 대문자 26개의 2000개 예제를 포함 각 예제는 20개의 흑백 글꼴을 무작위 모양으로 다시 만들고 왜곡시켜 출력한 것이다.
간단하게 말하면 위의 모양의 알파벳을 잘 식별하는 것이 목적이다. 데이터는 총 20000개로 이루어져 있고 종속변수 letter, 독립변수 16개로 이루어져있다....
원문 링크 : 서포트벡터머신(SVM)을 이용하여 광학문자 분류하기