로딩
요청 처리 중입니다...

python으로 한글/영어를 자동으로 구별하는 알고리즘 짜보기(txt파일 읽기, 영어/한글 구분하기)

 python으로 한글/영어를 자동으로 구별하는 알고리즘 짜보기(txt파일 읽기, 영어/한글 구분하기)

오늘은 유명인사들의 연설 자료 수집 중, "한글과 영문이 혼합되어 있는 사례"가 나와서 이를 쉽게 해결하는 알고리즘을 짜보는 시간을 가져보겠다. 내가 찾아보고자 하는 자료는 [오바마 취임 연설]이며 이 문제를 어떤 사고를 가지고 해결하는지 생각해 보자. 1.

문제 상황 : 한글과 영문이 혼합된 데이터 발견 오바마 취임 연설문 나의 목적은 "순수 영문 연설 수집"이다. 하지만 내가 수집한 데이터는 영문 + 한글 이다.

그럼 이 문제를 어떻게 해결 할 수 있을까? 2-1.

문제 해결 : 직접 손으로 나누기 가장 처음 해결 방법은 수작업으로 글자를 나누는 방법이다. 위부터 6문단을 이 방법으로 나누어 정리한다면, 다음과 같은 결과를 가질 수 있다.

[My fellow citizens: I stand here today humbled by the task before us, grateful for the trust you have bestowed, mindful of the sacrific...

# encoding # 파이썬텍스트파일저장 # 파이썬텍스트파일읽기 # 파이썬 # 단어추출 # split # readlines # readline # python # isalpha # 한글영어구분