split_dataset
Funcția este folosită pentru a împărți un set de date X
și etichetele asociate y
în două subgrupuri: unul pentru antrenament și unul pentru predicții, bazat pe un procentaj dat.
Implementare
Funcția va returna patru seturi de date: X_train
și y_train
pentru antrenament, și X_pred
și y_pred
pentru predicții.
determin numărul total de puncte de date din setul
X
num_data = size(X, 1);calculez numărul de puncte de date care vor fi folosite pentru antrenament, rotunjind produsul dintre procentajul dat și numărul total de date.
num_train_data = round(percentage * num_data);creez un vector de indici
train_indices
pentru datele de antrenamenttrain_indices = 1:num_train_data;creez un vector de indici
pred_indices
pentru datele de predicțiepred_indices = num_train_data + 1:num_data;extrag datele de antrenament
X_trai
n și eticheteley_train
folosind indicii de antrenament.X_train = X(train_indices, :); y_train = y(train_indices);extrag datele de predicție
X_pred
și eticheteley_pred
folosind indicii de predicție.X_pred = X(pred_indices, :); y_pred = y(pred_indices);