반응형
sklearn.datasets
더미 데이터 : make_ ~~
연습용 데이터 : load_ ~~ (소규모), fetch_ ~~ (대규모)
함수 : 이름에 '_' (언더바) 존재 -> 이름/인자
객체 : 이름에 대문자 존재 (단어의 첫글자가 대문자) - 이름().함수() (. 사용)
sklearn의 연습용 데이터는 공통의 키를 가짐
- 'data' -> X ->2D array
- 'target' -> Y -> 1D array -> 정수(범주형), 실수(연속형)
- 'target_names' -> 분류 데이터에만 존재하는 키 (0->악성, 1->양성)
- 'DESCR' -> 데이터 설명문 (print 함수를 이용)
- 'feature_names' -> 'data의 컬럼명
Scikit-Learn을 이용한 머신러닝 순서
1. X, Y 데이터 준비 (file read, 전처리)
2. 학습용 데이터와 평가용 데이터로 분할 -> train_test_split( ) 함수를 주로 이용
- train_test_slit( ) 함수는 데이터를 분할해주 함수
- x, y -> 2개의 변수를 넣어주면 각 변수마다 train, test로 분할 (75:25)
- train_test_split(test_size =0.3) -> 70:30
- x_train, x_test, y_train, y_test -> 이름 부여 (순서에 유의)
3. 모델 생성
- from 모델 위치 import 모델명
- 모델변수이름 = 모델명(파라미터)
4. 모델 학습
- 모델변수이름.fit(x, y) -> 지도학습
- 모델변수이름.fit(x) -> 비지도학습
5. 모델 평가 -> 모델 학습과정 평가, 모델 성능 평가
- 모델변수이름.score(x, y) -> 모델 예측을 선행
- 분류모델 (정확도), 회귀 모델 (R^2) -> 0~1 사이의 값, 높을수록 좋음
6. 모델 예측
- 모델변수이름.predict(x)
반응형
'Data Science > Machine Learning' 카테고리의 다른 글
머신러닝 (Machine Learning) (0) | 2023.05.21 |
---|---|
[3주차] (0) | 2021.05.27 |
[2주차] Multiple Regression (0) | 2021.05.27 |
[1주차] Coursera Machine Learning : Regression (0) | 2021.05.27 |
머신러닝 기본 (0) | 2020.08.04 |