yimstar9의 등록된 링크

키자드에 등록된 총 247개의 포스트를 확인하실 수 있습니다.

Naver Blog

[빅분기실기] 구글 코랩에서 R 써보기

https://colab.research.google.com/notebook#create=true&language=r https://colab.to/r 두 사이트 들어가면 파이썬이 아닌 R로 코랩이 켜진 것을 확인 할 수 있다. -런타인 유형 변경 설정에서 유형이 R로 바껴있는것을 볼 수 있다.

Naver Blog

[공유] OpenCV첫번째. 이미지를 띄워보자.

출처 Infra In HanYang|ㅇ승민ㅇ opencv영상 띄어보기 스크랩된 글은 재스크랩이 불가능합니다.

Naver Blog

앙상블(Ensemble)

의사결정나무의 문제점을 ctree와 다른 방식으로 보완하기 위하여 개발된 방법 주어진 자료로부터 예측 모형을 여러 개 만들고, 이것을 결합하여 최종적인 예측 모형을 만드는 방법 배깅(Breiman, 1996) -> 부스팅 개발 -> 랜덤포레스트(Random Forest) 앙상블에서 사용되는 기법: 배깅, 부스팅, 랜덤포레스트   1. 배깅(Bagging) 불안정한 예측모형에서 불안전성을 제거함으로써 예측력을 향상 Where 불안정한 예측모형: 데이터의 작은 변화에도 예측 모형이 크게 바뀌는 경우 Bootstrap AGGregatING의 준말 주어진 자료에 대하여 여러 개의 부트스트랩(bootstrap)자료를 만들고, 각 부트스트랩 자료에 예측 모형을 만든 다음, 이것을 결합하여 최종 예측 모형을 만드는 방법 부트스트랩자료: 주어진 자료로부터 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 것 실습. install.packages("party") install.packages("

Naver Blog

서포트벡터머신(Support Vector Machine)

서포트벡터머신(Support Vector Machine)는 Corres와 Vapnik에 의해서 1995년에 제안되었다. 서포트벡터머신은 서포트벡터 분류기를 확장하여 비선형 클래스 경계를 수용할 수 있도록 개발한 분류 방법. 초평면(Hyperplane) 최대마진분류기(Maximum Margin Classifier): 데이터가 있을 때, 이것을 곡선이 아닌 직선이나 평면으로 구별하는 방법 초평면(Hyperplane): 최대 마진 분류기가 경계로 사용하는 선이나 면 분리 초평면(Separating Hyperplane): 데이터를 완벽하게 분리하는 초평면 마진(Margin): 데이터와 초평면의 수직 거리(가장 짧은 거리) 최대마진 초평면(Maximal Margin Hyperplane): 마진이 가장 큰 초평면 최대마진분류기(Maximum Margin Classifier): 데이터가 초평면에 의해 가장 잘 분류 서포트벡터(Support Vector): 양쪽 데이터의 경계값을 포함하는 초평면

Naver Blog

군집분석(Cluster Analysis)

데이터 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐 가는 방법으로 그룹(군집)을 형성한 후 각 그룹의 성격을 파악하거나 그룹 간의 비교분석을 통해서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 분석 방법 유사도: 거리(distance)를 이용하는데 거리의 종류는 다양하지만, 가장 일반적으로 사용하는 것이 유클리디안(Euclidean)거리로 측정한 거리정보를 이용해서 분석대상을 몇 개의 집단으로 분류 군집 분석의 목적: 데이터 셋 전체를 대상으로 서로 유사항 개체 들을 몇 개의 군집으로 세분화하여 대상 집단을 정확하게 이해하고, 효율적으로 활용하기 위함. 군집 분석으로 그룹화된 군집은 변수의 특성이 그룹 내적으로는 동일하고, 외적으로는 이질적인 특성을 갖는다. 군집 분석의 용도는 고객의 충성도에 따라서 몇 개의 그룹으로 분류하고, 그룹별로 맞춤형 마케팅 및 프로모션 전략을 수립하는 데 활용된다. 군집 분석에서 중요한 사항: 군집화를 위해서 거리 측정에

Naver Blog

연관분석(Association Analysis)

하나의 거래나 사건에 포함된 항목 간의 관련성을 파악하여 둘 이상의 항목들로 구성된 연관성 규칙을 도출하는 탐색적인 분석 방법 “장바구니 분석” 연관성규칙은 지지도(support), 신뢰도(confidence), 향상도(lift)를 평가척도로 사용 연관분석은 구매패턴을 분석하여 고객을 대상으로 상품을 추천하거나 프로모션 및 마케팅 전략을 수립하는데 활용 연관분석 특징 사건의 연관규칙을 찾는 데이터마이닝 기법 y변수가 없으며, 비지도학습에 의한 패턴 분석 방법 거래 사실이 기록된 트랜잭션(Transaction)형식의 데이터 셋을 이용 사건과 사건 간의 연관성을 찾는 방법 예) 기저귀와 맥주(Diapers vs. Beer) 이야기: Karen Heath는 1992년 맥주와 기저귀의 상관관계 발견 지지도(제품의 동시 구매패턴), 신뢰도(A제품 구매 시 B제품 구매패턴), 향상도(A제품과 B제품간의 상관성)을 연관규칙의 평가도구로 사용 활용분야: 상품구매 규칙을 통한 구매패턴

Naver Blog

오류분류표(Confusion matrix)

1) 오류분류표 분류 분석 모형의 평가에 일반적으로 사용 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표 예측치 합계 True False 실제값 True TP FN P False FP TN N 합계 P' N' P+N • TP(True Positives): 실제값과 예측치 모두 True인 빈도 • TN(True Negatives): 실제값과 예측치 모두 False인 빈도 • FP(False Positives): 실제값은 False이나 True로 예측한 빈도 • FN(False Negatives): 실제값은 True이나 False로 예측한 빈도   2) 오류분류표 활용 모형 평가 지표 (1) 정분류율(accuracy, recognition rate) • 전체 관측치중 실제값과 예측치가 일치한 정도 • 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표 (2) 오분류율(error rate, misclassification rate) • 모형이 제대

Naver Blog

XGBoost

Distributed(Deep) Machine Learning Community(DMLC) group 내 Tianqi Chen에 의한 연구 프로젝트로 시작. the Higgs Machine Learning Challenge 라는 Kaggle challenge에서 우승 solution으로 선정되어 알려졌고, 이후 xgboost를 이용하여 다른 Kaggle 경쟁에서도 다수 우승 (2015년동안 29개 Kaggle challenge 에서 17개의 solution 이 XGBoost를 사용) xgboost: 앙상블 학습기법으로 모델을 생성하는 분류모델 [표 15.6] 배깅과 부스팅 알고리즘 비교 분류 배깅(Bagging) 부스팅(Boosting) 공통점 전체 데이터 셋으로부터 복원추출방식. n개의 학습데이터 셋을 생성하는 부트스트랩 방식 사용 차이점 병렬학습방식: n개의 학습 데이터셋으로부터 n개의 트리 모델 생성 순차학습방식: 첫번째 학습 데이터 셋으로부터 트리모델 à 두번째 학습 데이터

Naver Blog

인공신경망(Artificial Neural Network)

인간의 두뇌 신경(뉴런)들이 상호작용하여 경험과 학습을 통해서 패턴을 발견하고 이를 통해서 특정 사건을 일반화하거나 데이터를 분류하는데 이용되는 기계학습방법. 인간의 개입 없이 컴퓨터가 스스로 인지하고 추론하고, 판단하여 사물을 구분하거나 특정 상황의 미래를 예측하는데 이용될 수 있는 기계학습 방법 문자, 음성, 이미지 인식, 증권시장 예측, 날씨 예보 등 다양한 분야에서 활용. (1) 생물학적 신경망 구조 인간의 생물학적 신경망의 구조 수상돌기로부터 외부 신호를 입력받고 시냅스에 의해서 신호의 세기를 결정한 후 이를 세포핵으로 전달하면 입력신호와 세기를 토대로 신경자극을 판정하여 축색돌기를 통해서 다른 신경으로 전달 (2) 인공신경망과 생물학적 신경망의 비교 [그림 15.7] 생물학적 신경망과 인공신경망 생물학적 신경망 인공신경망 역할 수상돌기 입력신호(x) 외부 신호 받음 시냅스 은닉층 신호의 세기(weight)결정 세포핵 활성함수 신경자극에 대한 판정, 전달여부 결정 축색돌기

Naver Blog

주성분 분석(Principal Component Analysis)

많은 변수로 구성된 데이터에 대해 주성분이라는 새로운 변수를 만들어 기존 변수보다 차원을 축소하여 분석을 수행 주성분 P1은 데이터 분산을 가장 많이 설명할 수 있는 것을 선택하고 P2는 P1과 수직인 주성분을 만들어 다중 공선성 문제를 해결 다중 공선성(MultiCollinearity): 독립변수 사이에 강한 상관관계가 나타나서 종속변수에 영향을 미치는 경우 완전 공선성: 독립 변수들 사이에 정확한 선형 관계가 존재하는 경우 다중 공선성 문제는 분석과 예측의 정확성을 위해서 피하거나 해결해야 한다.   실습. ### PCA data("iris") head(iris) # 변수간 상관관계 확인 cor(iris[1:4]) # 변수간 S.L와P.L, S.L와 P.W간의 상관관계 높음 # 다중공선성 문제 발생 예상 # 독립변수 새롭게 설계 필요 # 전처리 과정 iris2 <- iris[, 1:4] ir.species <- iris[,5] # 중앙을 0, 분산은 1로 설정 prcomp.re

Naver Blog

판별분석(Discriminant Analysis)

판별 분석: 두개 이상의 모집단으로부터 표본이 섞였을 경우, 개별 경우에 대하여 그것이 어떤 모집단에 속하는지를 판별하기 위한 함수를 만들어서 데이터를 분류하는 방법 판별함수는 그룹 안 분산(Variance within group)에 비하여 그룹 간 분산(Variance between group)의 최대화로 얻어짐. 로직스틱 회귀분석과 많이 비교됨. 종류: 1) 선형(Linear)판별 분석: 정규 분포의 분산-공분산 행렬이 범주에 관계없이 동일한 경우 적용 2) 이차(Quadratic)판별 분석: 정규 분포의 분산-공분산 행렬이 범주별로 다른 경우 적용 1. 선형 판별 분석(Linear Discriminant Analysis) 선형 판별 분석: 데이터를 특정 축에 투영하여 데이터를 잘 구분할 수 있는 직선을 찾는 것을 목표로 하는 분석 방법 실습 #패키지 설치 install.packages("caTools") install.packages("MASS") library(caTools

Naver Blog

시계열분석(Time Series Analysis)

시계열 그래프 그리기 http://wolfpack.hannam.ac.kr/Stat_Notes/softwares/about_R/GGPLOT_%EC%8B%9C%EA%B3%84%EC%97%B4%EA%B7%B8%EB%9E%98%ED%94%84.pdf 시계열 자료: 시간의 변화에 따라 관측치 또는 통계량의 변화를 기록해 놓은 자료 시계열 분석은 현재의 현상 이해를 기초로 미래를 예측하는 분석 방법 경기예측, 판매예측, 주식시장분석, 예산 및 투자 분석 등의 분야에서 활용 1. 시계열 분석 (Time Series Analysis) 시계열 분석: 어떤 현상에 대해서 시간의 변화량을 기록한 시계열 자료를 대상으로 미래의 변화에 대한 추세를 분석하는 방법   1.1 시계열분석의 특징 시계열분석은 설명변수와 반응변수를 토대로 유의수준에 의해서 판단하는 추론 통계방식 시계열분석의 특징과 분석에 사용되는 데이터 셋의 전제조건: y변수 존재: 시간 t를 설명변수(x)로 시계열을 반응변수(y)로 사용 미

Naver Blog

베이지안(Baysian)

베이지안 확률 모델은 주관적인 추론을 바탕으로 만들어진 ‘사전확률’을 추가적인 관찰을 통한 ‘사후확률’로 업데이트하여 불확실성을 제거할 수 있다고 믿는 방법. 베이즈 정리는 posteriori확률을 찾는 과정이고 베이즈 추론을 MAP(Maximum a Posteriori)문제라고 부르기도 한다. 실습. install.packages("e1071") install.packages("caret") library(e1071) data <- read.csv(file = "heart.csv", header = T) head(data) str(data) library(caret) set.seed(1234) tr_data <- createDataPartition(y=data$AHD, p=0.7, list=FALSE) tr <- data[tr_data,] te <- data[-tr_data,] Bayes <- naiveBayes(AHD~. ,data=tr) Bayes predicted <- pr

Naver Blog

변수 제거

1. 주성분 분석 2. 0에 가까운 분산을 가지는 변수 제거 분산이 0에 가까운 변수는 제거해도 큰 영향이 없음. nearZeroVar()함수 https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/nearZeroVar where 'saveMetrics=FALSE'속성: 예측변수의 컬럼위치에 해당하는 정수 벡터 'saveMetrics=TRUE'속성: 컬럼을 가지는 데이터프레임 freqRatio: 가장 큰 공통값 대비 두번째 큰 공통값의 빈도의 비율 percentUnique: 데이터 전체로 부터 고유 데이터의 비율 zeroVar: 예측변수가 오직 한개의 특이값을 갖는지 여부에 대한 논리 벡터 nzv: 예측변수가 0에 가까운 분산예측 변수인지 여부에 대한 논리 벡터 실습. install.packages("caret") library(caret) install.packages("mlbench") library(mlben

Naver Blog

다차원 척도법(Multi-dimensional Scaling)

여러 대상의 특징 사이 관계에 대한 수치적 자료를 이용하여 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법 2차원 또는 3차원에서의 특정 위치에 관측치를 배치해서 보기 쉽게 척도화 즉, 항목 사이 거리를 기준으로 하는 자료를 이용하여 항목들의 상대적인 위치를 찾고 거리가 가까운 개체들끼리 Group 화 하여 분류할 수 있다. 다차원 척도법 적용 절차 1) 자료 수집: 특성을 측정 2) 유사성, 비유사성 측정: 개체 사이의 거리 측정 3) 공간에서 개체 사이 거리 표현 4) 개체의 상호 위치에 따른 관계가 개체들 사이 비유사성에 적합여부 결정 다차원 척도법의 종류 1) 계량적(전통적) 다차원 척도법(Classical MDS) 숫자 데이터로만 구성. stats패키지의 cmdscale()함수 https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/cmdscale   실습 eurodist 데이터를 이용하여 유럽 주요 도

Naver Blog

의사결정 나무(Decision Tree)

CART(Classification and Regression Tree) 가장 많이 쓰는 기법 C4.5 & C5.0 CART와 다르게 node에서 다지분리(Multiple Split)이 가능 CHADID(Chi-squared Automatic Interaction Detection) 범주형 변수에 적용 가능   4.1 의사결정 트리(Decision Tree) 의사결정트리 방식은 나무(Tree)구조 형태로 분류 결과를 도출 (1) party 패키지 이용 분류분석 조건부 추론 나무 CART기법으로 구현한 의사결정나무의 문제점 1) 통계적 유의성에 대한 판단없이 노드를 분할하는데 대한 과적합(Overfitting) 발생 문제. 2) 다양한 값으로 분할 가능한 변수가 다른 변수에 비해 선호되는 현상 이 문제점을 해결하는 조건부 추론 나무(Conditional Inference Tree). party패키지의 ctree()함수 이용 실습 (의사결정 트리 생성: ctree()함수 이용) 1단계

Naver Blog

error ModuleNotFoundError: No module named 'tensorflow.keras'

ModuleNotFoundError Traceback (most recent call last) in () 1 import tensorflow as tf ----> 2 from tensorflow.keras.models import Sequential 3 from tensorflow.keras.layers import Dense 4 from tensorflow.keras.optimizers import SGD 5 ModuleNotFoundError: No module named 'tensorflow.keras' 기존 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras.optimizers import SGD 수정 후 from tensorflow.python.keras.models import Sequential from tensorflow.

Naver Blog

Error Could not locate zlibwapi.dll. Please make sure it is in your library path

https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html Installation Guide :: NVIDIA Deep Learning cuDNN Documentation Abstract This cuDNN 8.7.0 Installation Guide provides step-by-step instructions on how to install and check for correct operation of NVIDIA cuDNN on Linux and Microsoft Windows systems. For previously released cuDNN installation documentation, refer to... docs.nvidia.com 에서 zlib를 받아서 압축푼후 zlib123dllx64폴더 전체를 환경변수에 추가해준다. 그리고 안에 zlibwapil.dll 파일을 C:\Windows\System32 C

Naver Blog

파이참 텐서플로 Pycharm에 tensorflow-gpu 설치

1. 텐서플로-gpu 설치 pip install --upgrade tensorflow-gpu --user 2. 그래픽드라이버 설치 https://www.nvidia.com/Download/index.aspx?lang=kr Download the latest official NVIDIA drivers Download the latest official NVIDIA drivers www.nvidia.com 3. cuda 설치 https://developer.nvidia.com/cuda-toolkit-archive CUDA Toolkit Archive Previous releases of the CUDA Toolkit, GPU Computing SDK, documentation and developer drivers can be found using the links below. Please select the release you want from the list below, and b

Naver Blog

분산분석(ANOVA Analysis) (F-검정)

T-검정과 동일하게 평균에 의한 차이 검정 방법 두 집단 이상의 평균 차이를 검정 분석분석을 시행할 때 주의점: • 1개의 범주형 독립변수와 종속변수 간의 관계를 분석하는 일원 분산분석과 두 개 이상의 독립변수가 종속변수에 미치는 효과를 분석하는 이원 분산분석으로 분류. • 독립변수는 명목척도(성별), 종속변수는 등간척도나 비율척도로 구성되어야 한다. • 마케팅전략의 효과, 소비자 집단의 반응 차이 등과 같이 기업의 의사결정에 도움을 주는 비계량적인 독립변수와 계량적인 종속변수 간의 관계를 파악할 때 이용한다 만일 ANOVA 가 아닌 여러 번 t 검정을 하면 안되나? -> 1종 오류가능성이 증대됨 예) 세 집단을 비교하기 위해서는 세 번의 독립표본 t 검정을 수행하여야 함. 각 t 검정에서 유의수준을 0.05로 설정하였다면, 세 번 모두 귀무가설이 맞는데 귀무가설을 기각하지 않은 옳은 결정을 할 확률은 0.95 0.95 0.95 = 0.86, 1종 오류는 0.14 분산분석에서 집

Naver Blog

회귀분석(Regression Analysis)

회귀분석(Regression Analysis) 회귀분석: 특정 변수(독립변수)가 다른 변수(종속변수)에 어떠한 영향을 미치는 가를 분석하는 방법 인과관계가 있는지를 분석하는 방법 where 인과관계: 변수 A가 변수 B의 값을 변하게 하는 원인이 되는 관계. 이때 변수 A를 독립변수, 변수 B를 종속변수로 지칭 한 변수의 값을 가지고 다른 변수의 값을 예측해 주는 분석방법 상관관계 분석 vs. 회귀분석 차이점 1) 상관관계 분석: 변수 간의 관련성 분석 2) 회귀분석: 변수 간의 인과관계 분석 회귀분석의 특징 1) 가장 강력하고 사용범위가 넓은 분석 방법 2) 독립변수가 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수에 의해서 회귀방정식(Y=a+bX where a: 상수, b: 회귀계수, X: 독립변수, Y: 종속변수)을 도출하여 회귀선을 추정 3) 회귀계수는 단위시간에 따라 변하는 양(기울기)이며, 회귀선을 추정함에 있어 최소자승법을 이용 4) 독립변수와 종속변수가 모두 등간

Naver Blog

로지스틱 회귀분석(Logistic Regression Analysis)

종속변수와 독립변수 간의 관계를 나타내어 예측 모델을 생성한다는 점에서 선형 회귀분석 방법과 유사 로지스틱 회귀분석의 특징 - 분석 목적: 종속변수와 독립변수 간의 관계를 통해서 예측 모델 생성 - 회귀분석과 차이점: 종속변수는 반드시 범주형 변수(예, Yes/No, iris데이터의 species) - 정규성: 정규분포 대신에 이항분포를 따른다. - 로짓 변환: 종속변수의 출력범위를 0과 1로 조정하는 과정(예, 혈액형 A [1, 0, 0, 0] - 활용분야: 의료, 통신, 날씨 등 다양한 분야   실습 (날씨 관련 요인 변수로 비(rain) 유무 예측) install.packages("ROCR") library(car) library(lmtest) library(ROCR) 1단계: 데이터 가져오기 weather = read.csv("weather.csv", stringsAsFactors = F) dim(weather) head(weather) str(weather) 2단계: 변

Naver Blog

변수 선택

회귀모델에서 독립변수의 증가는 모델의 결정계수를 증가시켜 설명력을 높이는 장점이 있지만 다중 공선성 문제를 일으킬 수 있어서 추정의 신뢰도를 저하시킬 수 있고, 독립변수가 많을 경우 예측성능이 좋지 않을 가능성이 많고 독립성, 등분산성 등의 가정을 만족시키기 어렵기 때문에 독립변수를 줄일 필요가 있다. 전진 선택법(Forward Selection): 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가 후진 제거법(Backward elimination): 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법 단계선택법(Stepwise selction): 모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가. 이렇게 변수의 추가 또는 삭제를 반복. 또는 절편만 포함된 모델에서 시작해 변수의 추가, 삭제를 반

Naver Blog

상관관계 분석

상관관계분석(Correlation Analysis): 변수들 간의 관련성을 분석하기 위해 사용하는 분석 방법 하나의 변수가 다른 변수와 관련성이 있는지, 있다면 어느 정도의 관련성이 있는지를 개관할 수 있는 분석기법 상관관계 분석 수행 시, 회귀분석에서 변수 간의 인과관계를 분석하기 전에 변수 간의 관련성을 분석하는 선행자료 (가설검정 전 수행) 로 이용 변수 간의 관련성을 위해 상관계수인 피어슨(Pearson) r 계수를 이용하여 관련성 유무와 정도를 파악 상관관계 분석의 척도인 피어슨 상관계수(Pearson correlation coefficient: r)와 상관관계의 정도는 [표 14.3] [표 14.3] 피어슨 상관계수와 상관관계 정도 피어슨 상관계수 R 상관관계 정도 ± 0.9 이상 매우 높은 상관관계 ± 0.9 ~ ± 0.7 높은 상관관계 ± 0.7 ~ ± 0.4 다소 높은 상관관계 ± 0.4 ~ ± 0.2 낮은 상관관계 ± 0.2 미만 상관관계 없음 상관계수 r은 -1

Naver Blog

요인분석 (Factor Analysis)

요인분석: 변수들의 상관성을 바탕으로 변수를 정제하여 상관관계 분석이나 회귀분석에서 설명변수(독립변수)로 사용된다. 1. 요인분석 요인분석(Factor Analysis): 다수의 변수를 대상으로 변수 간의 관계를 분석하여 공통 차원으로 축약하는 통계기법 요인분석 1) 탐색적 요인분석: 요인 분석을 할 때 사전에 어떤 변수들끼리 묶어야 한다는 전제를 두지 않고 분석하는 방법 2) 확인적 요인 분석: 사전에 묶일 것으로 기대되는 항목끼리 묶였는지를 조사하는 방법 타당성: 측정 도구가 측정하고자 하는 것을 정확히 측정할 수 있는 정도 논문 작성을 위한 통계분석 방법에서 인구통계학적 분석(빈도분석, 교차분석 등)을 시행한 이후 통계량 검정 이전에 구성 타당성(Construct validity)검증을 위해서 요인분석(Factor Analysis) 시행 요인분석을 위한 전제조건 하위요인으로 구성되는 데이터 셋이 준비되어 있어야 한다. 분석에 사용되는 변수는 등간척도나 비율척도여야 하며, 표

Naver Blog

R과 Python을 이용한 빅데이터 분석 및 시각화

첨부파일 A4팀 R과 Python에 기반한 데이터 분석 및 시각화.pdf 파일 다운로드 첨부파일 R.zip 파일 다운로드 첨부파일 Python.zip 파일 다운로드 첨부파일 Dataset.zip 파일 다운로드 깃허브 https://github.com/yimstar9/Big-Data-Analysis_with-Python-and-R/tree/main/Source%20CODE 포트폴리오 내용이 100페이지가 넘어서 블로그에는 요약본만 올려놓겠습니다. 목차 1. USD/KRW 환율 데이터 분석 2. 위스콘신 유방암 데이터 분석 3. BostonHousing 데이터 분석 4. diamonds 데이터 군집분석 5. 텍스트분석 6. R과 Python의 시각화(차트) 패키지 비교 7. 출처 및 참고자료 8. 소스별첨 1. USD/KRW 환율 데이터 분석 USD/KRW 환율 1년치 일일 데이터로 ARIMA모델을 이용하여 2022년 12월 우리나라 미국 달러 대비 원화 환율을 예측하고 시각화를 해본다

Naver Blog

기술통계분석

1.1 빈도분석 빈도분석(Frequency Analysis) 명목척도 또는 서열척도 같은 범주형 데이터를 대상으로 비율을 측정하는데 주로 이용 명목척도: 명목상 의미 없는 수치로 표현. 예) 거주지역, 성별 서열척도: 계급 순위를 수치로 표현. 예) 직급, 학력 수준 빈도수, 비율 등으로 나타냄 1.2 기술통계분석 등간척도나 비율척도와 같은 연속적 데이터를 분석할 때 이용 등간척도: 속성의 간격이 일정한 값을 갖는 변수. 예) 만족도 조사의 보기 절대 특성에 원점이 척도. 0을 기준으로 한 수치. 비율척도: 등간척도의존재하는 사칙연산이 가능. 예) 성적, 나이, 수량, 길이, 금액2 2. 척도별 기술통계량 구하기 실습 (전체 데이터 셋의 특성 보기) 1단계: 데이터 셋 가져오기 setwd("C:/Rwork/ ") data <- read.csv("descriptive.csv", header = TRUE) head(data) 2단계: 데이터 셋의 데이터 특성 보기 dim(data) le

Naver Blog

교차분석과 카이제곱 검정

교차분석: 두 개 이상의 범주형 변수를 대상으로 교차 분할표를 작성하고, 이를 통해서 변수 상호 간의 관련성 여부를 분석 특히 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 카이제곱 검정: 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법 1. 교차분석 교차검정(Cross Table Analyze): 범주형 자료(명목/서열 척도)를 대상으로 두 개 이상의 변수들에 대한 관련성을 알아보기 위해서 결합분포를 나타내는 교차 분할표를 작성하고 이를 통해서 변수 상호간의 관련성 여부를 분석하는 방법 교차분석은 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석방법으로 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 연구 환경에서 변수(독립/종속 변수)를 확인하여 모델링한 후 범주형 데이터로 변환하는 변수 리코딩 과정을 거친다. 대상변수를 분할표로 작성하기 위해서는 데이터프레임을 생성해야 한다. 변수 모델링: 특정

Naver Blog

집단간 차이분석

1. 추정과 검정 1.1 점 추정과 구간 추정 [표13.1] 점추정과 신뢰구간 추정 1.2 모평균의 구간 추정 표본 평균이 따르는 분포 ~N(μ, σ^2/n) 모표준편차 σ의 값이 알려지지 않는 경우 표본의 크기 n이 충분히 클 때 (n>= 30)는 표본표준편차 S 사용 [표 13.2] 신뢰도와 모평균 신뢰구간 실습 (우리나라 중학교 2학년 남학생의 평균 신장 표본조사) 우리나라 중학교 2학년 남학생의 평균 신장 표본 조사를 위한 검정 통계량은 다음과 같다. 전체 표본 크기(N): 10,000명 표본 평균(X): 165.1cm 표본 표준편차(S): 2cm N = 10000 X = 165.1 S = 2 low <- X -1.96 * S / sqrt(N) high <- X + 1.96 * S / sqrt(N) low; high 신뢰수준 95%의 모평균 신뢰구간: 165.0608 ≤ c ≤ 165.1392 실습 (신뢰구간으로 표본오차 구하기) high - X (low - X) * 100

Naver Blog

22.12.3 빅분기 실기 시험

일반 학원에서 국가시험 보는건 처음인듯. 10시에 시험 시작 집앞이라 가는데 걱정없었다. 컴퓨터로 시험보는데 미리 온 사람들은 컴퓨터로 이것저것 연습해보거나 그전에 공부했던 자료들을 본다. 시험보는 웹IDE주소는 9시 30분쯤 칠판에 공개했다. 9시 59분까지도 핸드폰, 컴퓨터 사용가능했다. 문득 든 생각인데 시험 주소를 외부사람에게 알려주거나 메모장에 미리 필답형 문제를 적어놓으면 어떻게 되는거지? 감독관이 발견못하면 모르는건데 부정행위 하는사람도 은근 있었을 것 같다.

Naver Blog

왜도, 첨도, 히스토그램, 기술통계랑

왜도 평균을 중심으로 하는 확률분포의 비대칭 정도를 나타내는 지표. 분포의 기울어진 방향과 정도를 나타내는 양 >0 : 분포의 오른쪽 방향으로 비대칭 꼬리가 치우침 <0 : 분포의 왼쪽 방향으로 비대칭 꼬리가 치우침 =0 : 평균을 중심으로 좌우대칭 첨도 표준정규분포와 비교하여 얼마나 뾰족한가를 측정하는 지표 =0 (또는 3) : 정규분포 곡선 >0 : 정규분포보다 뾰족한 형태 <0 : 정규분포보다 완만한 곡선 형태 ※ 첨도식에서 -3을 적용하지 않으면 정규분포의 첨도는 3 #1단계: 왜도와 첨도 사용을 위한 패키지 설치 install.packages("moments") library(moments) cost <- data$cost #2단계: 왜도 구하기 skewness(cost) #3단계: 첨도 구하기 kurtosis(cost) # kurtosis()함수에서 첨도 식에서 -3을 미 적용 -> 정규분포첨도는 3 #4단계: 히스토그램으로 왜도와 첨도 확인 hist(cost) par(m

Naver Blog

척도별 기술통계량

명목척도 기술통계량 명목상 의미 없는 수치로 표현된 거주지역이나 성별과 같은 명목척도 변수를 대상 구성비율은 표본의 통계량으로 의미 #성별 변수의 기술통계량과 빈도수 length(data$gender) summary(data$gender) table(data$gender) #이상치(outlier) 제거 data <- subset(data, gender == 1 | gender == 2) x <- table(data$gender) x barplot(x) #구성 비율 계산 prop.table(x) y <- prop.table(x) round(y * 100, 2) 실습 m <- matrix(1:4, 2) m prop.table(m, 1) prop.table(m, 2) 서열척도 기술통계량 계급 순위를 수치로 표현한 계급이나 학력 수준 등과 같은 서열척도 변수를 대상 table()함수로 구해진 빈도수를 통해서 표본의 통계량 산출 #학력수준 변수를 대상으로 구성 비율 산출 length(dat

Naver Blog

[빅분기 실기] t1-25-sigmoid

[심화 학습] basic1 데이터에서 f2 값에 시그모이드 함수(그림 내 수식)를 적용하고, f4가 ISFJ인 (변경된)f2의 합을 구하시오! (소수점 둘째자리까지 출력, 반올림) https://www.kaggle.com/code/yimstar9/t1-25-sigmoid t1-25-sigmoid Explore and run machine learning code with Kaggle Notebooks | Using data from Big Data Certification KR www.kaggle.com library(dplyr) df<-read.csv("../input/bigdatacertificationkr/basic1.csv") sigmoid<-function(x){ y<-1/(1+exp(-x)) return(y) } ans<-df%>%mutate(pre_f2=sigmoid(f2))%>%filter(f4=='ISFJ')%>%summarise(sum=round(sum(pre_f2

Naver Blog

[빅분기 실기] T1-25 문자열 슬라이싱

데이터에서 f4가 E로 시작하면서 부산에 살고 20대인 사람은 몇 명일까요? https://www.kaggle.com/code/yimstar9/t1-27-str-slicing/edit t1-27-str_slicing Explore and run machine learning code with Kaggle Notebooks | Using data from Big Data Certification KR www.kaggle.com library(dplyr) df <- read.csv("../input/bigdatacertificationkr/basic1.csv") df_E<-df[grep("^E",df$f4),] ans<-df_E%>%filter(city=='부산'&(age)%/%10==2)%>%nrow() print(ans)

Naver Blog

빅분기 실기 5회 후기 및 복원,가답안

단답형 구글에서 개발 하였으며, 방대한 양의 데이터를 신속하게 처리하는 분산 병렬 데이터 처리 기술은? 맵리듀스 데이터 내부에 데이터 구조에 대한 메타정보를 갖고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는 것이 중요한 데이터 형식은 무엇인가 반정형데이터 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 과적합을 초래 할 수 있다. 과대표집 데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환하는 비식별화 방법 / 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는 데이터변환 방법은? 데이터마스킹 예측 10 20 30 40 실제 9 18 32 44 rmse 구하기 5 ( )는 dying ReLU 현상을 해결하기 위해 제시된 함수 ReLU는 x<0에서 모든 값이 0이지만, ( )는 작은 기울기를 부여함 Leaky ReLU ARIMA에 대한 설명 얼

Naver Blog

[빅분기 실기] kaggle로 공부법(독학)

퇴근후딴짓님 유튜브 주소 https://www.youtube.com/@ai-study Kaggle주소 https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr 유투버(퇴근후딴짓)님의 kaggle입니다. 혼자 공부하기에 너무 정리가 잘되어 있어서 추천드립니다. 여기서 진행했던 스터디 그룹도 도움이 매우 많이 됐습니다. kaggle 회원가입후 로그인을 하세요 > View more을 누르고 스크롤 조금 아래로 내리면 > 본인이 선택한 언어를 클릭해줍니다. > 본인이 이 문제 코드를 작성한적이 있으면 Edit My Copy이라고 뜨고 없으면 Copy&Edit가 뜹니다. 클릭해줍니다. > 기존 작성되어있는 코드는 주석처리하시고 새로 작성하시면 됩니다. > File에 Editor Type으로 노트북, 스크립트를 선택 할 수 있습니다.(시험환경은 script) > Ctrl+Enter로 한줄,블럭 실행도 가능하고 RunAll로 소스 전체

Naver Blog

빅분기 실기 가이드 및 공부 자료, 22년 후반기 빅분기~ADsP 후기

시험순서(빅분기필기-ADsP-빅분기실기) 시험이 한달 간격으로 있어서 준비하기 좋았습니다. 전공은 로봇공학으로 통계쪽 지식은 전혀 없는 상태였고 프로그래밍 언어는 C,C++만 주로 했었습니다. 10월 1일 빅분기 필기 9월 초부터 빅분기 필기를 공부하며 파이썬과 R 기초를 공부했습니다. 파이썬과 R은 C언어를 알고있으니 쉬운편이였는데 빅분기 내용은 대부분이 처음보는 내용이여서 외우는데 꽤 고생좀 했습니다. 시험 전날까지 파이썬,R은 하루에 4시간 정도씩 해서 끝냈고, 빅분기는 2시간 정도씩 공부했습니다. 필기 내용을 100% 이해(이해하려고 유툽영상, 정리된 내용 찾아 따로 공부 했으나 50%정도 밖에 이해를 못했습니다)는 하지 못한채 단순히 외우기만 해서 시험마치고 나온 순간에도 합격 자신이 없었습니다. 검토하면서 답안지에 옮겨적었는데 그때 답을 7개정도 고쳐쓴게 6개가 맞아서 70점대로 간신히 합격했습니다. 10월 29일 ADsP 필기 카페에서는 ADsP내용이 빅분기내용에 포함된

Naver Blog

[빅분기 실기] R,Python 베이스라인, 기본코드

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다. 아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다. R # 라이브러리 추가 library(randomForest) # 데이터 불러오기 X_train<-read.csv("../input/big-data-analytics-certification-kr-2022/train.csv") X_test<-read.csv("../input/big-data-analytics-certification-kr-2022/test.csv") # ID컬럼 버림 train<-X_train[,-1] test<-X_test[,-1] # 학습 및 예측 m2_rf<-randomForest(Segmentation~.,train,ntree=200) p2_rf<-predict(m2_rf,test) # csv 파일 만들기 resul

Naver Blog

[빅분기 실기 R] Factor 변수 levels 통일

> table(train$Employment.Type) Government Sector Private Sector/Self Employed 434 1056 > table(test$Employment.Type) Casual employment Government Sector 3 134 Private Sector/Self Employed 360 서로 레벨이 같지 않아 모델생성 및 예측에서 Error: `data` and `reference` should be factors with the same levels. 에러가 발생한다. 해결하고자 levels(레벨개수 적은쪽)<-levels(레벨개수 많은쪽) 해줬더니 > table(train$Employment.Type) Casual employment Government Sector 434 1056 Private Sector/Self Employed 0 > table(test$Employment.Type) Casual employment Go

Naver Blog

[빅분기 실기 R] 기출2회 작업2형 2회독

#https://www.kaggle.com/code/limmyoungjin/tutorial-t2-2-r/notebook # %% [markdown] # ## 전자상거래 배송 데이터 # ### 제품 배송 시간에 맞춰 배송되었는지 예측모델 만들기 # 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) # # ![image.png](attachment:f70c3a4b-9984-4656-af95-dac047a900cb.png) # # [시험용 데이터셋 만들기] 코드는 예시문제와 동일한 형태의 X_train, y_train, X_test 데이터를 만들기 위함임 # # (유의사항) # - 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜

Naver Blog

ADsP 데이터 분석 준 전문가 최종 합격

사전 공개 점수에서 변동없음. 100점 목표로 공부를 했는데 아쉬움이 ㅠ 이제 6일남은 빅분기 실기도 마무리 단계이다.

Naver Blog

[빅분기 실기] 주관식 오답노트 99문제(feat.수제비)_빅데이터 분석기사 실기 (주관식 단답형)

수제비 책 문제 오답노트 99개 모음 이것만 달달 외우면 작업1형은 문제없을듯

Naver Blog

[빅분기 실기 R] 모의고사1 작업2형

https://www.kaggle.com/code/agileteam/mock-exam-t2-baseline-tutorial [MOCK EXAM] T2. Baseline Tutorial Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com ################## 시험 안내 문구 및 코드 ################## # 출력을 원하실 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 # 데이터 파일 읽기 예제 library(dplyr) library(randomForest) library(caret) library(ModelMetrics) o_X_test <-read.csv("..

Naver Blog

패스맵 데이터

월드컵 축구 경기가 끝난후 패스맵을 보다 든 생각 저 패스맵 데이터는 어디서 받을 수 있는거지 저거 내가 직접 그려보고 싶은데 빅분기 시험 끝나면 원본데이터 찾아서 직접 그려봐야겠다 https://sharmaabhishekk.github.io/projects/passmap Creating Passmaps in Python Passmaps using Matplotib and Pandas sharmaabhishekk.github.io

Naver Blog

[빅분기 실기] T1-26. menu컬럼에 &quot;라떼&quot; 키워드가 있는 데이터의 수는?

https://www.kaggle.com/code/yimstar9/t1-26-str-contains # your code library(dplyr) df<-read.csv("/kaggle/input/bigdatacertificationkr/payment.csv") ans<-nrow(df[grep("라떼",df$menu),]) cat(ans) grep("문자열", 데이터프레임) return값 : 인덱스 grepl("문자열", 데이터프레임) return값 : TRUE/FALSE

Naver Blog

[빅분기 실기] T1-27. 바닐라라떼 5점, 카페라떼 3점, 아메리카노 2점, 나머지 0점이다 총 메뉴의 점수를 더한 값은?

library(dplyr) df<-read.csv("/kaggle/input/bigdatacertificationkr/payment.csv") df$menu<-gsub(" ","",df$menu) ans<-df%>%mutate(score=ifelse(menu%in%"바닐라라떼",5,ifelse(menu%in%"아메리카노",2,ifelse(menu%in%"카페라떼",3,0))))%>%summarise(sum=sum(score)) cat(ans$sum) 공백 없애기 gsub(" ","",df ) " " 공백을 ""공백제거, df에서

Naver Blog

[빅분기 실기] T1-29. 12월인 데이터 수는?

https://www.kaggle.com/code/yimstar9/t1-29-datetime-format # your code df<-read.csv("/kaggle/input/bigdatacertificationkr/payment.csv") library(dplyr) library(lubridate) ans<-df%>%mutate(pre_date=ymd(date))%>%filter(month(pre_date)==12) cat(nrow(ans))

Naver Blog

T1-28. 시간(hour)이 13시 이전(13시 포함하지 않음) 데이터 중 가장 많은 결제가 이루어진 날짜(date)는? (date 컬럼과 동일한 양식으로 출력)

https://www.kaggle.com/code/yimstar9/t1-28-value-counts-index df<-read.csv("/kaggle/input/bigdatacertificationkr/payment.csv") library(dplyr) ans<-df%>%filter(hour<13)%>%select(date)%>%table() cat(names(which.max(ans)))

Naver Blog

[빅분기 실기] T1-30. 12월 25일 결제 금액(price)은 12월 총 결제금액의 몇 %인가? (정수로 출력)

https://www.kaggle.com/code/yimstar9/t1-30-datetime-percent/edit t1-30-datetime-percent Explore and run machine learning code with Kaggle Notebooks | Using data from Big Data Certification KR www.kaggle.com df<-read.csv("/kaggle/input/bigdatacertificationkr/payment.csv") library(dplyr) library(lubridate) ans<-df%>%filter(month(ymd(date))==12)%>%group_by(date)%>%summarise(dailysum=sum(price))%>%mutate(ratio=(dailysum/sum(dailysum))*100)%>%filter(date==20221225) cat(as.integer(ans$ratio))

Naver Blog

[빅분기 실기 R] 빅데이터 분석기사 4회 작업2형

https://www.kaggle.com/competitions/big-data-analytics-certification-kr-2022/overview Big Data Analytics Certification KR 2022 This competition is for beginners in machine learning. www.kaggle.com # This R environment comes with many helpful analytics packages installed # It is defined by the kaggle/rstats Docker image: https://github.com/kaggle/docker-rstats # For example, here's a helpful package to load library(tidyverse) # metapackage of all tidyverse packages library(dplyr) library(ModelMet

Naver Blog

[빅분기 실기 R] 기출4회 작업형2 3모델(RF,XGB,nnet)

https://www.kaggle.com/code/yimstar9/r-4th-type2-score-0-32166-3models-rf-xgb-nnet?scriptVersionId=111701872 [R]4th_type2_score:0.32166 (3models:RF,XGB,nnet) Explore and run machine learning code with Kaggle Notebooks | Using data from Big Data Analytics Certification KR 2022 www.kaggle.com library(tidyverse) # metapackage of all tidyverse packages library(dplyr) library(xgboost) #library(ModelMetrics) library(caret) library(nnet) library(randomForest) df_train<-read.csv("../input/big-data-analy

Naver Blog

[에러] Could not locate zlibwapi.dll. Please make sure it is in your library path!

Could not locate zlibwapi.dll. Please make sure it is in your library path! 에러

Naver Blog

버프스위트-파이썬 Request post,get 매크로

import requests import time import json from bs4 import BeautifulSoup import re import sys def Login(i,p): Login_param = { 'id' : i, 'pwd' : p, } Login_header = { 'Content-Type': 'application/x-www-form-urlencoded', } response = requests.post('http://주소.html', data=Login_param, headers=Login_header, verify=False) session = response.headers.get('Set-Cookie') print(response.ok) return session def 함수명get(session,**args): #get요청 변수_param={ } 변수_header={ 'Referer':'http://주소', 'Cookie': session } res

Naver Blog

[빅분기 실기 R] T2-6. Bike-sharing-demand

https://www.kaggle.com/code/limmyoungjin/r-t2-6-bike-sharing-demand/notebook [R] T2-6. Bike-sharing-demand Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com # %% [code] {"jupyter":{"outputs_hidden":false},"execution":{"iopub.status.busy":"2022-11-21T06:17:23.093280Z","iopub.execute_input":"2022-11-21T06:17:23.095423Z","iopub.status.idle":"2022-11-21T06:17:26.204835Z"}} # 시험환경 세팅 (코드 변경 x) #Bike-sharing-demand library(dplyr) library

Naver Blog

[빅분기 실기 R] 이기적카페 1주차 예상문제2 유방암 발생여부 예측 (종속변수 diagnosis : B(양성) , M(악성)

# 데이터 출처 : https://archive.ics.uci.edu/ml/datasets/Breast%20Cancer%20Wisconsin%20(Diagnostic)에서 변형 # 데이터 설명 : 유방암 발생여부 예측 (종속변수 diagnosis : B(양성) , M(악성) ) # 문제타입 : 분류유형 # 평가지표 : f1-score # trainData url : https://raw.githubusercontent.com/Datamanim/datarepo/main/cancer/train.csv # testData url : https://raw.githubusercontent.com/Datamanim/datarepo/main/cancer/test.csv # subData url : https://raw.githubusercontent.com/Datamanim/datarepo/main/cancer/submission.csv library(dplyr) library(caret) li

Naver Blog

[빅분기 실기 R] T2-1. 타이타닉(Titanic) 생존여부 예측모델 만들기

생존여부 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 생존 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 accuracy 평가지표에 따라 채점) (가) 제공 데이터 목록 y_train: 생존여부(학습용) X_trian, X_test : 승객 정보 (학습용 및 평가용) (나) 데이터 형식 및 내용 y_trian (712명 데이터) 시험환경 세팅은 예시문제와 동일한 형태의 X_train, y_train, X_test 데이터를 만들기 위함임 유의사항 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜닝, 모형 앙상블 등이 수반되어야 한다. 수험번호.csv파일이 만들어지도록 코드를 제출한다. 제출한 모델의 성능은 accuracy로 평가함 csv 출력형태 library(dplyr) library(ran

Naver Blog

[빅분기 실기 R] T1-9. Standardization / #표준화 #중앙값

# 주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 # 데이터셋 : basic1.csv #install.packages("caret") library(caret) df<-read.csv('basic1.csv') st=preProcess(df) median(predict(st,df)$f5,na.rm=T) df1<-na.omit(df$f5) m<-mean(df1) s<-sd(df1) df.z<-(df1-m)/s median(df.z) 0.259313257274601 0.259313257274601 Engineer-Big-Data-Analysis_R/[R]_T1_9_z_score_(caret라이브러리).ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) 표준화는 scale함수를 써도 될듯?

Naver Blog

[빅분기 실기 R] T1-10. Yeo-Johnson and Box–Cox / #여존슨 #박스-콕스 #결측치 #최빈값

# 주어진 데이터에서 20세 이상의 데이터 추출한 후, 'f1'컬럼을 결측치를 최빈값으로 채운 후, # f1 컬럼의 여-존슨과 박스콕스 변환 값을 구하고, 두 값의 차이를 절대값으로 구한다음 모두 더해 소수점 둘째 자리까지 출력(반올림)하시오 # 데이터셋 : basic1.csv library(dplyr) library(caret) df=read.csv('../input/bigdatacertificationkr/basic1.csv') df1<-df%>%filter(age>=20)%>%mutate(pre_f1=ifelse(is.na(f1),as.numeric(names(which.max(table(f1)))),f1)) yeo<-preProcess(df1,c("YeoJohnson","scale","center")) bxcx<-preProcess(df1,c("BoxCox","scale","center")) tr_y<-(predict(yeo,df1))$pre_f1 tr_b<-(predict(

Naver Blog

[빅분기 실기 R] T1_11. min-max scaling / #스케일링 #상하위값 상위5% 하위5%값

# min-max스케일링 기준 상하위 5% 구하기 # 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 # - 데이터셋 : basic1.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script library(dplyr) #install.packages("caret") library(caret) df<-read.csv('basic1.csv') #방법1 normalize <- function(x) { return((x-min(x))/(max(x)-min(x))) } df%>%mutate(norm_f5=normalize(f5))%>%summarise(v1=quantile(norm_f5,0.95),v2=quantile(norm_f5,0.05))%>%sum #방법2 mm=preProcess(df,'range') df %>% mutate(mm_f5=predi

Naver Blog

[빅분기 실기 python] 정시 배송 예측

# 데이터 설명 : e-commerce 배송의 정시 도착여부 (1: 정시배송 0 : 정시미배송) # x_train: https://raw.githubusercontent.com/Datamanim/datarepo/main/shipping/X_train.csv # y_train: https://raw.githubusercontent.com/Datamanim/datarepo/main/shipping/y_train.csv # x_test: https://raw.githubusercontent.com/Datamanim/datarepo/main/shipping/X_test.csv # x_label(평가용) : https://raw.githubusercontent.com/Datamanim/datarepo/main/shipping/y_test.csv # 데이터 출처 :https://www.kaggle.com/datasets/prachi13/customer-analytics (참고, 데이터 수정)

Naver Blog

딥러닝 환경구축 for Windows(Cuda, CuDNN)

1. 본인 그래픽카드가 cuda toolkit지원 여부 확인 목록에 없거나 Compute Capability 가 3.0아래면 cuda toolkit 사용불가. 2.cuda 설치 CUDA Toolkit Archive | NVIDIA Developer 3.CuDNN 설치 nvidia 계정 필요 NVIDIA Developer Program Membership Required | NVIDIA Developer 다운받은 zip파일을 cuda가 설치된 폴더에 압축 풀어주면 된다. C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0(본인이 설치한 버전)\ 4. 환경변수 설정 시스템 환경 변수 편집 -> 고급-> 환경변수 사용자변수 Path ->편집에 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0(본인이 설치한 버전)\bin C:\Program Files\NVIDIA GPU Computing

Naver Blog

readr ::read_csv와 read.csv 차이

read_csv 함수는 데이터를 tibble로 R에 가져오는 반면, read.csv는 대신 일반 이전 R 데이터 프레임을 가져옵니다. Tibbles는 다음과 같은 이유로 일반 데이터 프레임보다 낫습니다. 더 빠르게 로드 입력 유형을 변경하지 마십시오 열을 목록으로 가질 수 있습니다. 비표준 변수 이름 허용(예: 변수는 숫자로 시작하고 공백을 포함할 수 있음) 행 이름을 만들지 마십시오 티블이 기존 데이터 프레임보다 나은 다른 미묘한 이유가 있지만 지금은 다음 사항만 알아야 합니다. read_csv는 티블을 생성합니다. read.csv는 일반 데이터 프레임을 만듭니다. 데이터가 R에 로드될 때까지 기다리는 것 외에 할 일이 더 많은 데이터 과학자라면 데이터 프레임 대신 tibble을 로드해야 합니다. 출처 : https://medium.com/r-tutorials/r-functions-daily-read-csv-3c418c25cba4 R Function Tutorials: read_c

Naver Blog

[빅분기 실기 R] row,column,변수 명에 한글 포함&숫자로 시작

Q. 2022년 데이터 중 2022년 중앙값보다 큰 값의 데이터 수 library(dplyr) library(stringr) df <- read.csv("../input/big-data-analytics-certification/t1-data2.csv",row.names=1) rownames(df)<-rownames(df)%>%str_remove(pattern = "년") rownames(df)<-paste0("year",rownames(df)) df%>%t%>%data.frame%>%filter(year2022>median(year2022))%>%select(year2022)%>%count R은 변수에 한글이 있을경우 제대로 작동안한다, 숫자로 시작할 경우에도 마찬가지 한글 지워주고 앞에 영어 포함시킴

Naver Blog

[ADsP] 합격

10월에 빅분기 시험공부도 하고 그뒤로 한달더 공부(총 두달)를 하고 가서 그런지 난이도가 쉽게 느껴졌다. 실기가 없는 시험이라 너무 좋다.

Naver Blog

burpsuite-파이썬

버프 스위트 설치 후 실행 화면이다. 버프스위트가 좋아져서 프록시 설정없이도 사용가능하다 1번 눌러서 브라우저 열고 패킷 분석 하고 싶은 곳 전에 2번 intercept is on을 눌러준다. intercept is on 상태에서 모든패킷이 버프스위트에 뜬다 내가 데이터를 줄테니 처리해세요 POST, 원하는걸 달라고 요청하는건 GET 응답은 RESPONSE이다. Foward은 패킷 단계별로 진행하는것 http history 는 지나간 패킷 히스토리 우클릭해서 Send to Repeater 하면 이창이 뜨는데 send버튼을 누르면 응답을 볼 수 있다. request 수정후 send보내도 응답을 볼 수 있다 잘못된 request를 보내면 400 bad request 가 뜬다. http 응답코드는 위키백과에서 자세히 볼수 있다. https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C HTTP 상태 코드 - 위키백과

Naver Blog

[빅분기 실기 R] 유방암 발생여부 예측 (종속변수 diagnosis : B(양성) , M(악성) )

이기적 카페 [빅분기실기2유형]1주차 예상문제 2 https://cafe.naver.com/yjbooks/15825 1주차 예상문제 2 데이터 출처 : https://archive.ics.uci.edu/ml/datasets/Breast%20Cancer%20Wisconsin%20(Diagnostic)에서 변형 ... cafe.naver.com # 데이터 출처 : https://archive.ics.uci.edu/ml/datasets/Breast%20Cancer%20Wisconsin%20(Diagnostic)에서 변형 # 데이터 설명 : 유방암 발생여부 예측 (종속변수 diagnosis : B(양성) , M(악성) ) # 문제타입 : 분류유형 # 평가지표 : f1-score # 데이터 출처 : https://archive.ics.uci.edu/ml/datasets/Breast%20Cancer%20Wisconsin%20(Diagnostic)에서 변형 # 데이터 설명 : 유방암 발생여부 예

Naver Blog

패키지 MASS, dplyr에서 select함수 에러(충돌) Error in select(., Kor) : unused argument (Kor)

Error in select(., Kor) : unused argument (Kor) 원인 : select함수가 MASS패키지와 dplyr패키지 둘다 있기 때문 해결방법 1. select함수 사용할때 마다 dplyr::select() 로 정확히 호출 2. select<-dplyr::select 로 select는 dplyr의select함수라고 선언 library(dplyr) Kor <- c(90, 85, 90) Eng <- c(70, 85, 75) df<-data.frame(Kor,Eng) df%>%select(Kor) dplyr의 select함수는 데이터프레임의 column을 선택하여 해당하는 column만 보여주는 함수입니다. dplyr 패키지만 불러왔을때는 에러없이 작동합니다. library(dplyr) Kor <- c(90, 85, 90) Eng <- c(70, 85, 75) df<-data.frame(Kor,Eng) library(MASS) df%>%select(Kor) 하지

Naver Blog

[빅분기 실기 R] T2 2회 기출유형 R

https://www.kaggle.com/code/limmyoungjin/tutorial-t2-2-r/notebook [Tutorial] T2 2회 기출유형 R Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 전자상거래 배송 데이터 제품 배송 시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) [시험용 데이터셋 만들기] 코드는 예시문제와 동일한 형태의 X_train, y_train, X_test 데이터를 만들기 위함임 (유의사항) 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리,

Naver Blog

[빅분기 실기 R] 4회 기출 작업형1

https://www.kaggle.com/code/yimstar9/4th-type1/notebook 4th-type1 Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 작업형1 풀이 1-1. age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력 data_path: ../input/bigdatacertificationkr/basic1.csv 정답 : [50] df <- read.csv("../input/bigdatacertificationkr/basic1.csv") library(dplyr) ans<-df%>%summarise(dif=IQR(age))%>%floor print(ans) 1-2.(loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, t

Naver Blog

[빅분기 실기 R] 이탈예측(분류) 4모델(의사결정나무,로지스틱회귀,랜덤포레스트,서포트벡터머신)

Engineer-Big-Data-Analysis_R/이탈예측(분류)_4모델.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) #https://www.datamanim.com/dataset/03_dataq/typetwo.html #분류 #서비스 이탈예측 데이터 #데이터 설명 : 고객의 신상정보 데이터를 통한 회사 서비스 이탈 예측 (종속변수 : Exited) x_train <-read.csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/X_train.csv", stringsAsFactors = T) y_train <-read.csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/churnk/y_train.csv", stringsAsFactors = T) x_test <-read.csv(

Naver Blog

[빅분기 실기 R](수정) 이탈예측(분류) 4모델(의사결정나무,로지스틱회귀,랜덤포레스트,서포트벡터머신)

#https://www.datamanim.com/dataset/03_dataq/typetwo.html #분류 #서비스 이탈예측 데이터 #데이터 설명 : 고객의 신상정보 데이터를 통한 회사 서비스 이탈 예측 (종속변수 : Exited) # install.packages("caret") # install.packages("ModelMetrics") # install.packages("randomForest") # install.packages("rpart") # install.packages("car") # install.packages("lmtest") # install.packages("ROCR") # install.packages("dplyr") library(dplyr) library(caret) library(car) library(lmtest) library(ROCR) library(ModelMetrics) library(randomForest) library(rpart) l

Naver Blog

[빅분기 실기 R] T1-24. Time-Series5 시차 데이터 생성

### 주어진 데이터(basic2.csv)에서 새로운 컬럼(1일 이전 시차 컬럼)을 만들고, Events가 1이면서 Sales가 1000000이하인 조건에 맞는 새로운 컬럼 합을 구하시오 ### 데이터셋 : basic2.csv ### 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 df<-read.csv('basic2.csv') library(dplyr) library(data.table) df %>% mutate(la=shift(PV,1))%>% filter(Events==1 & Sales<=1000000) %>% summarise(value=sum(la)) Engineer-Big-Data-Analysis_R/[R]_T1_24_Time_Series5_시차_데이터_생성.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) 1일 이전 시차 컬럼->전날 데이터를 오늘로 이동 library(data.table)

Naver Blog

[R] Error in type.convert.default:invalid multibyte string at '&lt;ec&gt;&lt;84&gt;&lt;9c&gt;?&lt;b8&gt;'

> df<-read.csv('basic1.csv') Error in type.convert.default(data[[i]], as.is = as.is[i], dec = dec, : invalid multibyte string at '<ec><84><9c>?<b8>' office 365 엑셀의 인코딩 문제이다. fileEncoding과 encoding 파라미터를 변경해주면 해결된다. df<-read.csv('basic1.csv',header = T, stringsAsFactors=T,fileEncoding="UTF-8",encoding='CP949') df<-read.csv('basic1.csv',header = T, stringsAsFactors=T,fileEncoding = 'euc-kr', encoding = 'utf-8') fileEncoding="UTF-8" encoding='CP949' 또는 Error in make.names(col.names, unique = TRUE):

Naver Blog

R Error in sum(List) : invalid ‘type’ (list) of argument, sum()에러

리스트 만들어주고 List <- list(1:10, 15, 100) List [[1]] [1] 1 2 3 4 5 6 7 8 9 10 [[2]] [1] 15 [[3]] [1] 100 리스트를 합계 내보려는데 에러가 뜬다. sum(List) Error in sum(List) : invalid 'type' (list) of argument sum(unlist(listvec)) 170 we must first use the unlist function to transform our list into a vector object. R에서는 List 형식은 sum이 안된다. dplyr %>%에서도 데이터프레임 컬럼 내용인데 summarise(sum(컬럼명))을 해도 에러가 났다. unlist로 리스트를 벡터로 변환해주니 sum이 제대로 작동한다.

Naver Blog

R 데이터프레임에서 데이터타입 조건으로 원하는 컬럼만 추출

sapply함수 사용해서 각 컬럼별 is.numeric조건을 적용한다. sapply(df,is.numeric) ID TRUE age TRUE job FALSE marital FALSE education FALSE default FALSE balance TRUE housing FALSE loan FALSE contact FALSE day TRUE month FALSE campaign TRUE pdays TRUE previous TRUE poutcome FALSE y FALSE sapply 리턴값을 df[ ]안에 넣어주면 원하는 조건의 컬럼만 추출된다. df[(sapply(df,is.numeric))]

Naver Blog

[빅분기 실기 R] DataManim 연습문제 작업유형1

1회차 — DataManim 1회차 — DataManim 1회차 캐글 링크 데이터셋 링크 문제풀이 유튜브 링크 작업 1유형 Attention 데이터 출처 : https://archive.ics.uci.edu/ml/datasets/Bank+Marketing (후처리 작업) 데이터 설명 : 은행의 전화 마케팅에 대해 고객의 반응 여부 dataurl : https://raw.githubusercontent.com/Datamanim/datarepo/main/bank/train.csv import pandas as pd df = pd . read_csv ( 'https://raw.githubuse... www.datamanim.com Question1 마케팅 응답 고객들의 나이를 10살 단위로 변환 했을 때, 가장 많은 인원을 가진 나이대는? (0~9 : 0 , 10~19 : 10) library(dplyr) df<-read.csv('https://raw.githubusercontent.co

Naver Blog

[빅분기 실기 R] 작업형 제 1유형 예제 dataManim

작업형 제 1유형 예시문제 (코드기여자 : 익명요청 ㅠ) — DataManim data: "https://raw.githubusercontent.com/Datamanim/dataq/main/mtcars.csv" #mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소 최대 척도(min-max scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. #mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소 최대 척도(min-max scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. # 데이터 파일 읽기 예제 df <- read.csv("data/mtcars.csv", header=TRUE) library(dplyr) library(caret) # 사용자 코딩 minmax<-preProcess(df,"range") df1<-df%>%mutate(scale=predict(minmax, df)$qsec)%>%filter(scal

Naver Blog

[빅분기 실기 R] 작업형 제 1유형 예제(주성분분석)

작업형 제 1유형 예시문제 (코드기여자 : 익명요청 ㅠ) — DataManim #mtcars 데이터셋에서 mpg변수를 제외하고 데이터 정규화 (standardscaler) 과정을 진행한 이후 PCA를 통해 변수 축소를 하려한다. 누적설명 분산량이 92%를 넘기기 위해서는 몇개의 주성분을 선택해야하는지 설명하라 df<- read.csv("https://raw.githubusercontent.com/Datamanim/dataq/main/mtcars.csv",row.names=1) #head(df) df_scale <- scale(df) pca <- prcomp(df_scale) summary(pca) #PC4 #추가된 brand 컬럼을 제외한 모든 컬럼을 통해 pca를 실시한다. 2개의 주성분과 brand컬럼으로 구성된 새로운 데이터 프레임을 출력하고, brand에 따른 2개 주성분을 시각화하여라 (brand를 구분 할수 있도록 색이다른 scatterplot, legend를 표시한다)

Naver Blog

목감기? 코로나?

어제 점심으로 한식뷔페를 다녀오고나서 갑자기 코 안쪽 끝과 목 사이에 먼지가 잔뜩 걸린것 처럼 이물감이 느껴졌다. 뜨거운 물도 계속 마셨는데 시간이 지날수록 점점 심해졌다. 새벽에 일어나서 침을 삼키는데 목이 아팠다. 오늘 점심후 약 먹고 좀 나아진듯 하다. 집에 가면서 코로나 키트 검사해봐야겠다.

Naver Blog

[빅분기 실기 R] T1-19. 시계열 데이터3

### 주어진 데이터에서 2022년 월별 Sales 합계 중 가장 큰 금액과 ### 2023년 월별 Sales 합계 중 가장 큰 금액의 차이를 절대값으로 구하시오. ### 단 Events컬럼이 '1'인경우 80%의 Sales값만 반영함 (소수점 반올림 후 정수 출력) # - 데이터셋 : basic2.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 library(dplyr) library(lubridate) df<-read.csv('basic2.csv') df1<-df%>%mutate(year=year(Date), month=month(Date),flag=ifelse(Events==1,round((Sales*0.8),1),Sales))%>%group_by(year,month)%>%summarise(val=sum(flag))%>%data.frame y2<-df1%>%filter(year %in% 2022)%>%summarise(max(val)) y3<-df1%

Naver Blog

[빅분기 실기 R] T1-18. 시계열 데이터2

## 주어진 데이터에서 2022년 5월 주말과 평일의 sales컬럼 평균값 차이를 구하시오 (소수점 둘째자리까지 출력, 반올림) # - 데이터셋 : basic2.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 df<-read.csv('basic2.csv') library(dplyr) df1=df%>%mutate(year=year(Date), month=month(Date),week=wday(Date,label=T))%>%filter(year==2022&month==5)%>%data.frame weekend=df1%>%filter(week %in% c('Sun','Sat'))%>%summarise(mean(Sales)) weekday=df1%>%filter(!(week %in% c('Sun','Sat')))%>%summarise(mean(Sales)) abs(weekday-weekend)

Naver Blog

[빅분기 실기 R] T1-20. 데이터 병합

첨부파일 basic3.csv 파일 다운로드 첨부파일 basic1.csv 파일 다운로드 # 고객과 잘 맞는 타입 추천 :) # basic1 데이터 중 'f4'를 기준으로 basic3 데이터 'f4'값을 기준으로 병합하고, # 병합한 데이터에서 r2결측치를 제거한다음, 앞에서 부터 20개 데이터를 선택하고 'f2'컬럼 합을 구하시오 # - basic1.csv: 고객 데이터 # - basic3.csv: 잘 어울리는 관계 데이터 (추천1:r1, 추천2:r2) df<-read.csv('basic1.csv') df1<-read.csv('basic3.csv') library(dplyr) df%>%inner_join(df1,by='f4')%>%filter(r2!='')%>%head(20)%>%summarise(sum(f2)) Engineer-Big-Data-Analysis_R/[R]_T1_20_데이터_병합.ipynb at main · yimstar9/Engineer-Big-Data-Analysis

Naver Blog

[R] T1-21. 구간 분할

## 나이 구간 나누기 ### basic1 데이터 중 'age'컬럼 이상치를 제거하고, 동일한 개수로 나이 순으로 3그룹으로 나눈 뒤 각 그룹의 중앙값을 더하시오 ### (이상치는 음수(0포함), 소수점 값) # - data: basic1.csv df<-read.csv('basic1.csv') library(dplyr) library(ggplot2) df%>%filter(age>0&(age*10)%%10==0)%>%mutate(bin=cut_number(age,3))%>%group_by(bin)%>%summarise(v=median(age))%>%summarise(sum(v)) Engineer-Big-Data-Analysis_R/[R]_T1_21_구간_분할.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) library(ggplot2) cut_number(age,3) Usage cut_number(x, n = NU

Naver Blog

[빅분기 실기 R] T1-22. Time-Series4 (Weekly data)

### 주어진 데이터(basic2.csv)에서 주 단위 Sales의 합계를 구하고, 가장 큰 값을 가진 주와 작은 값을 가진 주의 차이를 구하시오(절대값) ### 데이터셋 : basic2.csv library(dplyr) library(lubridate) df<-read.csv('basic2.csv') df%>%mutate(w=week(Date))%>%group_by(w)%>%summarise(v=sum(Sales))%>%select(v)%>%summarise(ans=max(v)-min(v)) #install.packages("readr") library(readr) df%>%mutate(week=cut(as.Date(Date),breaks='week')) %>% group_by(week) %>% summarise(value=sum(Sales))%>% summarise(ans=max(value)-min(value)) > df%>%mutate(w=week(Date))%>%group_b

Naver Blog

[빅분기 실기 R] T1-23. 중복 데이터 제거 Drop Duplicates

### f1의 결측치를 채운 후 age 컬럼의 중복 제거 전과 후의 중앙값의 차이를 구하시오 ### 결측치는 f1의 데이터 중 10번째 큰 값으로 채움 ### 중복 데이터 발생시 뒤에 나오는 데이터를 삭제함 ### 최종 결과값은 절대값으로 출력 # 데이터셋 : basic1.csv df<-read.csv('basic1.csv') library(dplyr) df%>%mutate(pre_f1=ifelse(is.na(f1),sort(f1,decreasing=T)[10],f1),remove_age=ifelse(duplicated(age),NA,pre_f1))%>%summarise(f1m=median(pre_f1)-median(remove_age,na.rm=T)) Engineer-Big-Data-Analysis_R/[R]_T1_23_중복_데이터_제거_Drop_Duplicates.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com

Naver Blog

[빅분기 실기 R] T1-10. 여-존슨과 박스-칵스 변환

# 주어진 데이터에서 20세 이상의 데이터 추출한 후, 'f1'컬럼을 결측치를 최빈값으로 채운 후, # f1 컬럼의 여-존슨과 박스콕스 변환 값을 구하고, 두 값의 차이를 절대값으로 구한다음 모두 더해 소수점 둘째 자리까지 출력(반올림)하시오 # 데이터셋 : basic1.csv library(dplyr) #install.packages("caret") library(caret) df<-read.csv('basic1.csv') Yeo<-preProcess(df,'YeoJohnson') boxc<-preProcess(df,'BoxCox') df1<-df%>%filter(age>=20)%>%mutate(pre_f1=ifelse(is.na(f1),as.numeric(names(which.max(table(f1)))),f1)) yeo_f1=(predict(Yeo,df1))$f1 boxc_f1=(predict(boxc,df1))$f1 round(sum(abs(yeo_f1-boxc_f1),na.

Naver Blog

[빅분기 실기 R] T1-12. 상위,하위 10개 차이

첨부파일 covid-vaccination-vs-death_ratio.csv 파일 다운로드 # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 # (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력) # - 데이터셋 : ../input/covid-vaccination-vs-death/covid_vaccination_vs_death_ratio.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script library(dplyr) df<-read.csv('covid-vaccination-vs-death_ratio.csv') df%>%group_by(country)%>%summarise(v=max(ratio))%>%arrange(-v)%>%filter(v<=100)%>%summarise(ans=mean(head(v,10))-mean(tail

Naver Blog

[빅분기 실기 R] T1-13. 상관관계 구하기

# 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 # - 데이터셋 : ../input/red-wine-quality-cortez-et-al-2009/winequality-red.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - 스크립트 방식 권장: File -> Editor Type -> Script library(dplyr) df<-read.csv('winequality-red.csv') #방법1 round(max(slice(data.frame(cor(df,df$quality)),1:11))+min(slice(data.frame(cor(df,df$quality)),1:11)),2) #방법2 df %>% cor%>% data.frame%>%select(quality)%>%arra

Naver Blog

R Error in parse_repo_spec(repo) : Invalid git repo specification: 'ggbiplot'

install.packages("devtools") library(devtools) install_github("ggbiplot","vqv") > install_github("ggbiplot", "vqv") Error in parse_repo_spec(repo) : Invalid git repo specification: 'ggbiplot' devtools 패키지 설치후 github로 ggbiplot 패키지 설치하려니 에러가 뜬다. install_github("vqv/ggbiplot") 이렇게 수정하고 실행하니 설치가 잘됨 > install_github("vqv/ggbiplot") Downloading GitHub repo vqv/ggbiplot@HEAD v checking for file 'C:\Users\tj-bu\AppData\Local\Temp\RtmpUxlzrt\remotes41147625306\vqv-ggbiplot-7325e88/DESCRIPTION' ... - prep

Naver Blog

[빅분기 실기 R] T1-14. 2개 조건에 따른 상위 값

# city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 (소수점 둘째자리까지 출력) # - 데이터셋 : basic1.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script df<-read.csv('basic1.csv') library(dplyr) df%>%group_by(city,f4)%>%summarise(val=mean(f5,na.rm=T))%>%arrange(-val)%>%data.frame%>%head(7)%>%summarise(sum(val))%>%round(2) Engineer-Big-Data-Analysis_R/[R]_T1_14_2개_조건에_따른_상위_값.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) summarise 하고 난 뒤에 데이터프레임 형식이 풀려버린다.

Naver Blog

[빅분기 실기 R] T1-15. 슬라이싱 & 조건

# 주어진 데이터 셋에서 age컬럼 상위 20개의 데이터를 구한 다음 # f1의 결측치를 중앙값으로 채운다. # 그리고 f4가 ISFJ와 f5가 20 이상인 # f1의 평균값을 출력하시오! # - 데이터셋 : basic1.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script df<-read.csv('basic1.csv') library(dplyr) median(df$f1) df%>%arrange(-age)%>%slice(1:20)%>%mutate(pre_f1=ifelse(is.na(f1),median(f1,na.rm=T),f1))%>%filter(f4=='ISFJ'&f5>=20)%>%summarise(mean(pre_f1)) Engineer-Big-Data-Analysis_R/[R]_T1_15_슬라이싱_&_조건_.ipynb at main · yimstar9/Engineer-Big-Data-Analysi

Naver Blog

[빅분기 실기 R] T1-16. 분산

# 주어진 데이터 셋에서 f2가 0값인 데이터를 age를 기준으로 오름차순 정렬하고 # 앞에서 부터 20개의 데이터를 추출한 후 # f1 결측치(최소값)를 채우기 전과 후의 분산 차이를 계산하시오 (소수점 둘째 자리까지) # - 데이터셋 : basic1.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script library(dplyr) df<-read.csv('basic1.csv') df%>%filter(f2==0)%>%arrange(age)%>%slice(1:20)%>%mutate(pre_f1=ifelse(is.na(f1),min(f1,na.rm=T),f1))%>%summarise(val1=var(pre_f1),val2=var(f1,na.rm=T))%>%data.frame%>%apply(1,diff)%>%round(2) Engineer-Big-Data-Analysis_R/[R]_T1_16_분산.ipynb

Naver Blog

[빅분기 실기 R] T1-17. 시계열 데이터1

첨부파일 basic2.csv 파일 다운로드 # ### 2022년 5월 Sales의 중앙값을 구하시오 # - 데이터셋 : basic2.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 library(dplyr) library(lubridate) df<-read.csv('basic2.csv') head(df) df%>%mutate(year=year(Date),month=month(Date))%>%filter(month==5)%>%summarise(med=median(Sales)) Engineer-Big-Data-Analysis_R/[R]_T1_17_시계열_데이터1.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) library(lubridate) 날짜 lubridate year() year(2022-01-01) return값:2022 날짜 lubridate month() month(2022-0

Naver Blog

[빅분기 실기 R] T1-11. min-max 기준 상하 5%

첨부파일 basic1.csv 파일 다운로드 # min-max스케일링 기준 상하위 5% 구하기 # 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 # - 데이터셋 : basic1.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script library(dplyr) #install.packages("caret") library(caret) df<-read.csv('basic1.csv') #방법1 normalize <- function(x) { return((x-min(x))/(max(x)-min(x))) } df%>%mutate(norm_f5=normalize(f5))%>%summarise(v1=quantile(norm_f5,0.95),v2=quantile(norm_f5,0.05))%>%sum #방법2 mm=preProcess(df,'range') d

Naver Blog

[빅분기 실기 R] T1-7. 값 변경 및 2개 이상의 조건

# 'f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오! # 데이터셋 : basic1.csv library(dplyr) df=read.csv('basic1.csv') df%>%mutate(pre_F4=ifelse(f4=='ESFJ','ISFJ',f4))%>%filter(city=='경기'& f4=='ISFJ')%>%select(age)%>%max T1-7. 값 변경 및 2개 이상의 조건.ipynb - Colaboratory (google.com)

Naver Blog

[빅분기 실기 R] T1-8. 누적합 그리고 보간

# 주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. # 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. # (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다) # 데이터셋 : basic1.csv library(dplyr) library(zoo) df<-read.csv('basic1.csv') df%>%filter(f2==1)%>%mutate(pre_f1=cumsum(ifelse(is.na(f1),0,f1))+f1*0)%>% mutate(f1_cs2=na.locf(pre_f1,fromLast=T))%>%summarise(mean(f1_cs2)) Engineer-Big-Data-Analysis_R/T1_8_누적합_그리고_보간.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) library(zoo) na.locf(o

Naver Blog

[빅분기 실기_R] T1-5. 조건에 맞는 데이터 표준편차

첨부파일 basic1.csv 파일 다운로드 Q1. 주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 # 데이터셋 : basic1.csv library(dplyr) df<-read.csv('basic1.csv') df %>% filter(f4=='ENFJ' | f4=='INFP') %>% group_by(f4) %>% summarise(value=sd(f1,na.rm=T)) %>% select(value) %>% apply(2,diff) %>% abs Engineer-Big-Data-Analysis_R/T1_5_조건에_맞는_데이터_표준편차.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com) %>% group_by(f4) #group_by()에서 지정한 열의 수준(level)별로 그룹화 %>% select(value) #select 열

Naver Blog

R 구간 범주화, 변수 리코딩

mutate(): 변수 리코딩(re-coding) 범주형 변수의 수준 간소화 case_when():cut, ifelse와 비슷한 기능을 한다. %>% mutate( 새로운컬럼명 = case_when( 변수 %in% c("원하는 값1", "원하는 값2", "원하는 값3") ~ "참 리턴값", TRUE ~ "거짓 리턴값" ) ) 연속형 변수-> 범주형 변수 df%>%mutate(education2=case_when( education == 1 ~"대졸", education == 2 ~"고졸", education == 3 ~"중졸" )) df%>%mutate(새로운컬럼명=case_when( 변수 == 비교값 ~"리턴값", 변수 == 비교값 ~"리턴값", 변수 == 비교값 ~"리턴값", TRUE~"리턴값" )) 등간격 범주화 cut_width(변수, width = 폭, boundary = 경계값, colosed = "left") 경계값과 폐구간을 지정하는 boundary와 closed 옵션

Naver Blog

[빅분기 실기 R] T1-6. 결측치 제거 및 그룹 합계

#주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, #'city'와 'f2'을 기준으로 묶어 합계를 구하고, #'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 #데이터셋 : basic1.csv library(dplyr) df<-read.csv('basic1.csv') df%>%filter(!is.na(f1))%>%group_by(city,f2)%>%summarise(sum_f1=sum(f1))%>%filter(city=='경기'&f2==0)%>%data.frame%>%select(sum_f1) Engineer-Big-Data-Analysis_R/T1_6_결측치_제거_및_그룹_합계.ipynb at main · yimstar9/Engineer-Big-Data-Analysis_R (github.com)

1 2 3