soynlp
soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어..
키자드에 등록된 총 228개의 포스트를 확인하실 수 있습니다.
soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어..
Mecab(은전한닢) eunjeon.blogspot.com/2013/02/blog-post.html 은전한닢 프로젝트를 소개합니다. 은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인 eunjeon.blogs..
Gensim Python library for topic modelling, document indexing and similarity retrieval with large corpora 자연어 처리를 위한 python 패키지 Topic modeling 에 자주 이용되는 Latent Dirichlet Alloca..
확률의 기초 확률 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것 표본 공간 사건에서 발생할 수 있는 모든 경우 확률 변수 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수 P(X=사건)=확률..
Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필..
Doc2Vec 개념 및 방법 개념 Word2Vec에 이어 구글 연구팀이 개발한 문서 임베딩 기법(Le&Mikolov, 2014) 타겟 단어와 이전 단어 k 개가 주어졌을 때, 이전 단어들 + 해당 문서의 아이디로 타겟 단어를 예측하는..
Multilingual BERT 104개 언어 한국어 처리 위해서는 BERT 다국어 버전을 받아야 한다. github.com/google-research/bert/blob/master/multilingual.md google-research/bert TensorFlow code and pre-trained mod..
단어 의미 중의성 중의성 언어 표현에서 둘 이상의 의미를 가지는 표현들 어휘적 중의성 다의어에 의한 중의성 하나의 단어가 주변 문맥이나 상황에 따라 다른 의미들로 해석되는 것 "손 좀 보자" 동음어에 의한..
구문 분석(Syntactic Analysis) 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출 기계 번역, 정보 검색, 전문가 시스템에서 문장 의미의 분석을 돕는 세부 기술로..
어휘 분석(Lexical Analysis) 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구 어휘: 어휘적 의미의 기본 단위 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정..
언어를 이루는 단위 음절(Syllable) 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 한국어 음절 초성: 가장 처음에 오는 소리, 자음 중성: 가운데 소리, 모음 종성: 마지막 소리, 자음 자연어처리에서..
Corpus 말뭉치 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함 Corpus 구축 데이터의 품질에 학습된 모델의 성능이 크게 영향..
언어의 중의성 언어의 중의성 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것 규칙의 예외 언어의 규칙 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것 ex) 한국어 형태소의..
NVIDIA Graphic Card Driver 장착된 그래픽 카드에 맞춰 그래픽카드 드라이브 설치 www.nvidia.co.kr/Download/Find.aspx?lang=kr NVIDIA Driver 다운로드 - 고급 검색 SD Studio 드라이버 Studio 드라이버는 핵심..
SVM(Support Vector Machine) 각 훈련 데이터 포인트들의 클래스 결정 경계를 구분하는 것을 학습 Support Vector: 두 클래스 사이의 경계에 위치한 데이터 포인터 새로운 데이터 포인트에 대해 예측할 때는 데이..
Ensemble 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법 여러 개의 학습 알고리즘을 사용해 더 좋은 성능을 얻는 방법 Bagging(Bootstrap Aggregation) 기본 요소로 결정 트리 사용 샘플을 여러 번 뽑..
Decision Tree (결정 트리) 분류와 회귀 문제에 널리 사용하는 모델 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 결정 트리의 학습은 정답에 가장 빨리 도달하는 예/아니오 질문(테스트) 목록을 학..
Linear Model 입력 특성에 대한 선형 함수를 만들어 예측을 수행 특성 개수: p + 1 Linear Regression 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법 단순 선형 회귀:..
k-최근접 이웃(K-Nearest Neighbor, KNN) 가장 간단한 머신러닝 알고리즘 장점 구현이 쉽다 알고리즘을 이해하기 쉽다 수학적으로 거리를 계산하는 방법만 알면 이해하기가 쉽다 숫자로 구분된 속성에 우수한 성능..
카이(Khaiii) Kakao Hangul Analyzer III 국립국어원이 구축한 세종 corpus를 이용해 CNN 모델을 적용해 학습 C++로 구현해 GPU 없이도 형태소 분석이 가능하며 실행 속도 빠름 http://tech.kakao.com/2018/12/13/..
Okt(Open Korean Text) twitter에서 만든 오픈소스 한국어 처리기 twitter-korean-text를 이어받아 만들고 있는 프로젝트 github.com/open-korean-text/open-korean-text open-korean-text/open-korean-text Open..
Data Preprocessing 문장 부호 제거 불용어 제거 단어 최대 길이 설정 단어 패딩 벡터 표상화 불용어 제거 문장에서 자주 출현하나 전체적인 의미에 큰 영향을 주지 않는 단어 영어에서는 조사, 관사 등과 같은 어..
텍스트 전처리 비정형 데이터(Unstructured Data) 일정한 규격이나 형태를 지닌 숫자 데이터(Numeric Data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화되지 않은 데이터 전처리 비정형 데이터를..
Kaggle(캐글) 2010년 설립된 예측모델 및 분석 대회 플랫폼 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁 opendatascience.com/10-tips-to-get-started..
Machine Comprehension 기계가 텍스트를 이해하고 논리적 추론을 할 수 있는지 데이터 학습을 통해 보는 것 기계가 어떤 텍스트에 대한 정보를 학습하고 사용자가 질의를 던졌을 때 그에 대해 응답하는 문제 Data..
EDA(Exploratory Data Anaysis) 탐색적 데이터 분석 정해진 틀 없이 데이터에 대해 최대한 많은 정보를 추출 데이터에 대한 정보 데이터의 평균값, 중앙값, 최솟값, 최댓값, 범위 분포, 이상치(outlier) 등 데이터..
Text Classification 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇 가지 범주(class) 중 어느 범주에 속하는지 분류 데이터의 정답 라벨 유무에 따라 학습 방법 선택 지도 학습을 통한 텍스트 분류..