본문 바로가기

Data Science/Machine Learning

Scikit-Learn을 이용한 머신러닝

by 엔딴 2020. 10. 21.

sklearn.datasets

더미 데이터 : make_ ~~

연습용 데이터 : load_ ~~ (소규모), fetch_ ~~ (대규모)

함수 : 이름에 '_' (언더바) 존재 -> 이름/인자
객체 : 이름에 대문자 존재 (단어의 첫글자가 대문자) - 이름().함수() (. 사용)

sklearn의 연습용 데이터는 공통의 키를 가짐

'data' -> X ->2D array
'target' -> Y -> 1D array -> 정수(범주형), 실수(연속형)
'target_names' -> 분류 데이터에만 존재하는 키 (0->악성, 1->양성)
'DESCR' -> 데이터 설명문 (print 함수를 이용)
'feature_names' -> 'data의 컬럼명

Scikit-Learn을 이용한 머신러닝 순서

1. X, Y 데이터 준비 (file read, 전처리)

2. 학습용 데이터와 평가용 데이터로 분할 -> train_test_split( ) 함수를 주로 이용

train_test_slit( ) 함수는 데이터를 분할해주 함수
x, y -> 2개의 변수를 넣어주면 각 변수마다 train, test로 분할 (75:25)
train_test_split(test_size =0.3) -> 70:30
x_train, x_test, y_train, y_test -> 이름 부여 (순서에 유의)

3. 모델 생성

from 모델 위치 import 모델명
모델변수이름 = 모델명(파라미터)

4. 모델 학습

모델변수이름.fit(x, y) -> 지도학습
모델변수이름.fit(x) -> 비지도학습

5. 모델 평가 -> 모델 학습과정 평가, 모델 성능 평가

모델변수이름.score(x, y) -> 모델 예측을 선행
분류모델 (정확도), 회귀 모델 (R^2) -> 0~1 사이의 값, 높을수록 좋음

6. 모델 예측

모델변수이름.predict(x)

'Data Science > Machine Learning' 카테고리의 다른 글

머신러닝 (Machine Learning) (0)	2023.05.21
[3주차] (0)	2021.05.27
[2주차] Multiple Regression (0)	2021.05.27
[1주차] Coursera Machine Learning : Regression (0)	2021.05.27
머신러닝 기본 (0)	2020.08.04

티스토리툴바