Idatha Yakho Yokwenziwa Iphumelele Zonke Izivivinyo futhi Isephule Imodeli Yakho

nimda April 23, 2026

0 7 7 minutes read

Idatha Yakho Yokwenziwa Iphumelele Zonke Izivivinyo futhi Isephule Imodeli Yakho

kubukeka kuqinile. Ukwehlukana kwe-KL bekungaphakathi kwebanga elamukelekayo. Ovivinyweni Lwesitimela Sokwenziwa, Ukuhlola Kwangempela (TSTR), imodeli izuze ukunemba okungu-91% lapho iqeqeshwa kudatha yokwenziwa futhi ihlolwa kudatha yangempela, eyayingaphansi kancane kuno-93% etholwe lapho kusetshenziswa idatha yangempela umehluko kahle phakathi kwemikhawulo ithimba elaliyisungule ukuze kubekezeleleke idatha. Ngaphezu kwalokho, ingcuphe yokucabanga yobulungu ibiphansi uma kuqhathaniswa. Isethi yedatha yokwenziwa yaqinisekiswa njengephephile ukuze isetshenziswe ekuqeqesheni imodeli yokufunda komshini; idatha yangempela yayigcinwe ngokuphephile; futhi imodeli yaqeqeshwa.

Kodwa-ke, ezinyangeni ezintathu kamuva, imodeli yokuhlonza ukukhwabanisa yayihluleka ukubona izigaba zokuthengiselana eyayikutholile ngaphambili ngaphandle kokwehluleka, hhayi nje ukwehlisa isithunzi ekusebenzeni, kodwa yehluleka ngokuphelele. Iqembu lonke lokuziphatha kwe-edge-case lisuswe ngempumelelo kumodeli yangempela.

Ngemva kokuphenya udaba, ithimba alikwazanga ukuthola amaphutha ezobuchwepheshe ngedatha yokwenziwa. Wonke amamethrikhi iqembu eliwagijimile aqhubeka nokudlula.

Kodwa inkinga yayiwukuthi awekho kulawo mamethrikhi empeleni ayekala ukuthi yini ebaluleke ngempela.

Uhlaka Lwemethrikhi Ezintathu nokuthi Kungani Ludukisa Abasebenzi

Unxantathu we-fidelity-utility-privacy usuphenduke isichazamazwi esivamile sokuhlolwa kwekhwalithi yedatha yokwenziwa nangesizathu esihle. Ithwebula izici ezintathu zekhwalithi ofuna ukuyifinyelela ngempela: ingabe idatha yokwenziwa ifana nedatha yangempela (ukwethembeka); ingabe idatha yokwenziwa isitimela amamodeli aziphatha ngendlela efanayo namamodeli aqeqeshwe kudatha yangempela (usizo); futhi ingabe idatha yokwenziwa ivikela ubunikazi babantu okusuka kubo idatha (ubumfihlo)?

Uhlaka ngokwalo luzwakala. Nokho, ukwenziwa kwalolu hlaka yilapho kuphakama khona izinkinga.

Isithombe Ngombhali usebenzisa i-LLM

Iningi labasebenzi lihlola amamethrikhi ekhwalithi amathathu ngokulandelana, lithatha ukuqedwa ngempumelelo kwalelo nalelo linye njenganele ukuthi lisetshenziswe. Le ndlela inephutha ngenxa yezizathu ezintathu ezihlobene ezidinga incazelo enemininingwane:

Inkinga #1: I-Fidelity Metrics Linganisa Ukusabalalisa Okuseceleni, Hhayi Ukusebenzisana Phakathi Kwezici

I-fidelity metrics esetshenziswa kakhulu i-KL Divergence, i-Kolmogorov-Smirnov Test, I-Total Variation Distance, i-Wasserstein Distance yonke ikala izinga lapho isici ngasinye sokusabalalisa kusethi yedatha yokwenziwa siqhathaniswa nesoqobo.
Azikho kulezi zinyathelo ezihlola ukuthi izici zihlobana kanjani.

Lona umehluko ocashile kodwa obalulekile. Isibonelo, cabanga ngesethi yedatha yokunakekelwa kwezempilo lapho inguqulo yokwenziwa ikhiqiza ngokunembile ukusatshalaliswa okuseceleni kweminyaka yobudala yesiguli nobunzima bokugula ukusabalalisa okuseceleni kubonakala kungenakuhlukaniswa. Kodwa kunomehluko omncane ebudlelwaneni phakathi kwezici ezimbili kudatha yokwenziwa. Ngenxa yalokho, lapho imodeli iqeqeshwa kuyo, imodeli ikhomba amasignali afanelekile ngokuhlukana, kodwa ukusebenzisana okungalungile phakathi kwamasignali.

Ngo-2025, ucwaningo olubuyekezwe ngontanga kudatha yokwenziwa yesiguli yahlola amamodeli amahlanu akhiqizayo kumasethi amathathu edatha yomtholampilo. Imiphumela yabonisa ukuthi nakuba ukusabalalisa okuseceleni kwacishe kwafana kakhulu, amaphuzu okuhlobana ayehluka ngamaphoyinti angu-20 noma ngaphezulu. Imiphumela engezansi yayimangalisa: kusethi yedatha eyodwa, amamodeli aqeqeshwe kudatha yokwenziwa ekhiqizwe endaweni engaphansi kwejika (AUC) amanani acishe abe ngu-0.80, kanti amanani e-AUC acishe abe ngu-0.88 atholwe lapho kusetshenziswa idatha yangempela. Okuhlukile okunqume ukuthi bekungokokuqala noma kwakamuva kwakuwukulondolozwa kokuhlobana kunokuthembeka kokusatshalaliswa kwe-marginal.

Ukubhekana nalokhu: Yenza ukuhlolwa kwe-KS ne-KL njengesisekelo ukuze uqinisekise ukufana kokusabalalisa okusemaphethelweni. Hlala uhlanganisa ukuqhathanisa kukamatikuletsheni wokuhlanganisa. Bala inkambiso ye-Frobenius yomehluko ukuze uthole inani elilodwa elimelela inani lesakhiwo sokuhlanganisa elilahlekile. Misa umkhawulo wokulahlekelwa kwesakhiwo sokuxhumanisa ngaphambi kokuhlanganiswa kwedatha, hhayi ngemva kwalokho.

import numpy as np
import pandas as pd
def correlation_drift_score(real_df: pd.DataFrame, synthetic_df: pd.DataFrame) -> float:
“””
Computes the Frobenius norm of the difference between
real and synthetic correlation matrices.
Lower is better. A score above 0.5 warrants investigation.
“””
real_corr = real_df.corr().fillna(0).values
synth_corr = synthetic_df.corr().fillna(0).values
return np.linalg.norm(real_corr — synth_corr, ‘fro’)
score = correlation_drift_score(real_df, synthetic_df)
print(f”Correlation Drift Score: {score:.4f}”)

Inombolo eyodwa. Yigijime njalo. Uma ingaphezu komkhawulo wakho, buyela emuva kujeneretha ngaphambi kokwenza noma yini enye.

Inkinga 2: Izikolo Zezinsiza Ze-TSTR Zifihla Ukuziphatha Komsila Uma Zimele Kuphela Okumaphakathi Okumaphakathi

Isitimela Ngedatha Yokwenziwa, Ukuhlolwa Kwedatha Yangempela kungenye yamamethrikhi asetshenziswayo “amazinga egolide”, futhi ifanele idumela eliyizuzile. Ukuqeqesha imodeli ngedatha yokwenziwa kanye nokwenza ukuthi yenze kahle kudatha yangempela kuwubufakazi obuphusile bokusetshenziswa.

Kodwa-ke, izikolo ze-TSTR zisuselwe kuzilinganiso. Ngakho-ke, bafihla ngqo lokho okuzophulwa ekukhiqizeni. Esibonelweni sokutholwa kokukhwabanisa ekuqaleni kwalesi sihloko, iyonke i-TSTR AUC yayingu-91%, kodwa, lapho ukusebenza kwephulwa nge-decile yevolumu yokwenziwayo, i-decile esebenza kancane kakhulu (imisebenzi eyivelakancane, enenani eliphakeme kakhulu) yehlele ku-67% (idatha yokwenziwa ikhiqize ukuthengiselana okuvamile ngokunembe kakhulu; nokho, idatha yokwenziwa engajwayelekile ayizange imele ngokunembile idatha yokwenziwa engavamile). Ngakho-ke, imodeli eyayiqeqeshwe ngedatha yokwenziwa yafunda ukuziphatha okuvame kakhulu ngokunemba okwedlulele futhi yafunda ukuziphatha okungajwayelekile okuncane ngokunemba okuncane.

Lena inkinga yokulahlekelwa umsila. Kukhulunywa ngakho ngokusemthethweni kumodeli yezincwadi ezigoqayo (u-Alemohammad et al., 2024, ICLR), futhi ingasetshenziswa kunoma yiluphi uhlobo lwenqubo yokwenziwa kokwenziwa kwedatha: Amamodeli akhiqizayo athuthukisiwe ukuze akhiqize izindawo okungenzeka kakhulu zokusabalalisa zimelela kancane kancane izehlakalo ezingavamile. Ijeneretha yedatha yokwenziwa ayizami ukumela kancane izehlakalo ezingavamile – imane imele izibalo zokuthi la mamodeli afunda kanjani.

Lungisa: Ungayibiki i-TSTR ngokuhlanganisa. Bika i-TSTR ngokuhlukene ku-deciles ngayinye ohlukanisele kuyo okuguquguqukayo okuhlosiwe. Ama-deciles lapho ukusebenza okuqeqeshelwe ukwenziwa kwehla ngokucijile kakhulu kusukela ekusebenzeni okuqeqeshwe kwangempela azokukhombisa ukuthi iyiphi i-deciles idatha yakho yokwenziwa engameli ngokunembile.

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
import pandas as pd
import numpy as np
def tstr_by_decile(
real_train: pd.DataFrame,
synthetic_train: pd.DataFrame,
real_test: pd.DataFrame,
target_col: str,
n_deciles: int = 10
) -> pd.DataFrame:
“””
Runs TSTR evaluation stratified by deciles of the target variable.
Returns a comparison dataframe for real vs synthetic training performance.
“””
results = []
real_test = real_test.copy()
real_test[‘decile’] = pd.qcut(
real_test[target_col], q=n_deciles, labels=False, duplicates=’drop’
)
feature_cols = [c for c in real_train.columns if c != target_col]
for label, train_df in [(“Real”, real_train), (“Synthetic”, synthetic_train)]:
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(train_df[feature_cols], train_df[target_col])
for decile_id, group in real_test.groupby(‘decile’):
if len(group[target_col].unique()) < 2:
continue
score = roc_auc_score(
group[target_col],
clf.predict_proba(group[feature_cols])[:, 1]
)
results.append({
‘Train Source’: label,
‘Decile’: decile_id,
‘AUC-ROC’: round(score, 4)
})
return pd.DataFrame(results).pivot(
index=’Decile’, columns=’Train Source’, values=’AUC-ROC’
)
decile_results = tstr_by_decile(real_train, synthetic_train, real_test, ‘fraud_flag’)
print(decile_results)

Inkinga 3: Amamethrikhi obumfihlo kufanele aphathe zonke izici ngokulinganayo uma kungafanele.

Ingcuphe yemibono yobulungu iyona metric evame kakhulu yobumfihlo. Ingcuphe yobulungu ibuza umbuzo owodwa: Ingabe umhlaseli anganquma ukuthi irekhodi elithile likhona yini kusethi yedatha yokuqeqeshwa? Amaphuzu aphansi ayizindaba ezinhle ngempela.

Nokho, lokhu kukalwa ezingeni lerekhodi, ngakho-ke kulinganisa ubungozi bokuhlonza irekhodi lilonke. Uhlobo lokuhlasela oluyingozi luwukuchazwa kwesibaluli; Njengoba kunikezwe ulwazi olutholakala esidlangalaleni olumayelana nezici zomuntu ngamunye, ingabe umhlaseli angakwazi ukubona isibaluli esibucayi kudatha yokwenziwa? Lena imodeli yokuhlasela abalawuli abathintekayo ngayo ngaphansi kwezinga lokuhlonza kabusha le-GDPR futhi isebenza kuleveli yokuhlanganiswa (hhayi ileveli yerekhodi).

I-Consensus Privacy Metrics Framework (i-Pilgram et al., 2025) ichaze izinhlobo ezintathu ezihlukene zezingozi: Ukuhlukanisa (Khomba umuntu oyedwa), Ukuxhunyaniswa (Amarekhodi Esixhumanisi Kuwo Wonke Amasethi Edatha), kanye Nokuqondisa (Thola Izibaluli Ezizwelayo Ezihlanganisweni Zezikhombi Ze-Quasi). Abasebenzi bacishe balinganise ngokukhethekile uhlobo lokuqala (Singling Out). Uhlobo lwesithathu lwengcuphe (Inference) indawo lapho idatha ebucayi ivuza khona futhi ayibonakali ngokuphelele esilinganisweni esijwayelekile sokunquma ubulungu.

Lungisa: Beka kuqala izici zakho ngokusekelwe ekuzweleni ngaphambi kokuhlanganisa. Zifake ngokwezigaba zomphakathi (izici ezingase zifakwe kudatha yokwenziwa ngaphandle kokuvinjelwa), izihlonzi ezilinganayo (inhlanganisela yezici zomphakathi ezingase zinike amandla ukuxhumana), kanye nezibucayi (izibaluli ozama ukuzivikela). Linganisa ubungozi bemibono yobulungu kuphela ezicini ezibucayi futhi ungafaki yonke isethi yedatha. Okulandelayo, yenza uhlolo lwesichasiso: Qeqesha imodeli yangaphandle ukuze ibikezele isici ngasinye esibucayi ngokusekelwe kuzihlonzi ze-quasi usebenzisa idatha yokwenziwa. Qhathanisa ukunemba kwemodeli eqeqeshiwe nemodeli eqeqeshelwe ukubikezela isici ngasinye esibucayi ngokusekelwe kuzihlonzi ezifanayo kodwa kusetshenziswa idatha ebanjiwe. Uma umehluko wokunemba umncane, khona-ke idatha yakho yokwenziwa iyavuza.

from sklearn.ensemble import GradientBoostingClassifier
def attribute_inference_risk(
synthetic_df: pd.DataFrame,
real_test_df: pd.DataFrame,
quasi_identifiers: list,
sensitive_feature: str
) -> dict:
“””
Estimates attribute inference risk by checking how well
a model trained on synthetic data predicts a sensitive feature
using only quasi-identifiers.
High accuracy on real test data = synthetic data is leaking
information about the sensitive attribute.
“””
clf = GradientBoostingClassifier(random_state=42)
clf.fit(synthetic_df[quasi_identifiers], synthetic_df[sensitive_feature])
real_accuracy = clf.score(
real_test_df[quasi_identifiers],
real_test_df[sensitive_feature]
)
majority_class_accuracy = (
real_test_df[sensitive_feature].value_counts(normalize=True).max()
)
lift = real_accuracy — majority_class_accuracy
return {
“inference_accuracy_on_real”: round(real_accuracy, 4),
“baseline_accuracy”: round(majority_class_accuracy, 4),
“inference_lift”: round(lift, 4),
“risk_level”: “HIGH” if lift > 0.10 else “MODERATE” if lift > 0.05 else “LOW”
}
risk = attribute_inference_risk(
synthetic_df, real_test_df,
quasi_identifiers=[‘age_band’, ‘region’, ‘employment_status’],
sensitive_feature=’income_bracket’
)
print(risk)

Uma ubona “ngaphezulu kuka-0.10” (noma iyiphi inombolo) yokuphakamisa, lokhu kusho ukuthi idathasethi yakho yokwenziwa iwuthisha ongcono mayelana nokuhlonza izici ezizwelayo zabasebenzisi bakho kunokungahleliwe. Akunandaba ukuthi i-Inference Inference Score yakho (MIS)) ingaphansi kuka-0.10 noma ngabe ungakanani umkhawulo; lokho akubalulekile.

Uhlaka Oluhlanganisiwe Lokuhlola

Njengoba kushiwo ngaphambili, lezi zinselele ezintathu ngokuyinhloko ziyinselele eyodwa: ngayinye isuka ekusebenziseni amamethrikhi ahloselwe ukuhlola izici zesethi yedatha bese kusetshenziswa lawo mamethrikhi afanayo njengesisekelo sokuthola isitifiketi sesethi yedatha yokukhishwa kokukhiqiza. Lena imisebenzi emibili ehluke kakhulu.

Ngezansi uhlu lokuhlola oluphelele olubhekana negebe ngalinye ekuhlolweni:

I-Dimension, I-Standard Metric, Lokho Ekuphuthelwayo kanye Nokuhlola Okungeziwe

Ukwethembeka

KL Divergence, KS Test
Isakhiwo sokuhlobana phakathi kwezici
I-Correlation Drift Score (i-Frobenius evamile)

Isisetshenziswa

TSTR isilinganiso AUC
Ukusebenza komsila ezenzakalweni ezingavamile
I-TSTR ihlungwe nge-decile eqondiwe

Ubumfihlo

Ingozi Yokukhomba Ubulungu
Isichasiselo sokukhomba ngezihlonzi ezilinganayo
Ukuhlolwa kwe-Attribute Inference Lift

I-Threshold Yesokudla incike endabeni yakho yokusebenzisa

Isici esinganakwa kakhulu se-FCA-ICO-Alan Turing Institute etholakalayo ekuqinisekiseni idatha yokwenziwa kwaba yilesi: “Zero risk = Zero Utility.” Idatha yokwenziwa ayikwazi ukuba yimfihlo ngokuphelele futhi ibe usizo ngesikhathi esifanayo. Umbuzo awusekho ukuthi “Ingabe idatha iyadlula?” Umbuzo uthi “Ingabe ukuhwebelana kuyahlangabezana nezidingo zamacala okusetshenziswa?”

Idatha yokwenziwa esetshenziselwa ukuhlolwa kwe-QA ngaphakathi kohlelo lokusebenza idinga ukwethembeka okuphezulu nokunemba kwesakhiwo. Nokho, njengoba ukufinyelela kudatha kulawulwa, kunokugcizelelwa okuncane kobumfihlo.

Ngakolunye uhlangothi, idatha oyikhiphela abasebenzisi bangaphandle, kuzo zonke izinhlangano, kubalawuli, noma ngezinjongo zocwaningo kufanele ibe neziqinisekiso zobumfihlo eziphakeme. Ezimweni ezinjalo, ungamukela ukwethembeka kwezibalo okuphansi kudatha yokwenziwa.

Ngakho-ke, lapho uthuthukisa uhlaka lwakho lokuhlola, chaza isimo sokusetshenziswa ngaphambi kokuhlola idatha yakho yokwenziwa. Phendula imibuzo elandelayo ngaphambi kokwenza idatha yokwenziwa:

1) Ubani ozokwazi ukufinyelela le dathasethi yokwenziwa futhi ngaphansi kwaziphi izimo? Lokhu kumisa umkhawulo wakho wobumfihlo.

2) Imuphi umsebenzi ongezansi ozowuqeqesha noma uwuvivinye le datha? Lokhu kuchaza ama-metrics okusetshenziswayo athwala umthwalo ngokumelene nomsindo.

3) Ingabe zikhona izici ezidingekayo emsebenzini ongezansi? Uma kunjalo, lokhu kuchaza lapho kufanele ugcine khona ukwethembeka nalapho ungakwazi ukubekezelela ukwehluka.

Sungula le mikhawulo ngokusekelwe ezimpendulweni zakho zemibuzo engenhla ngaphambi kokusebenzisa ukuhlanganisa. Qalisa ukuhlaziya kwakho ngokumelene nama-threshold akho amisiwe (hhayi ama-threshold abikwe ithuluzi ngokuzenzakalelayo).

Ukuvala: Igebe Lekhwalithi Liyigebe Lokulinganisa

Imodeli yokuthola ukukhwabanisa ayizange yehluleke ngenxa yokuthi idatha yokwenziwa ibimpofu. Imodeli yehlulekile ngoba ithimba lihlole izici ezingalungile futhi lenza iziphetho ezingalungile ngokusekelwe ezilinganisweni zazo ezifanele. Ukuthembeka, ukusetshenziswa kanye nobumfihlo yizilinganiso ezifanele.

Amamethrikhi ajwayelekile phakathi kobukhulu ngabunye amaphoyinti amahle okuqala. Kodwa-ke, zenzelwe ukulinganisa nokuchaza idatha futhi azizange zenzelwe ukuqinisekisa idatha yokusetshenziswa kokukhiqiza. Ukuvala leli gebe lokulinganisa kudinga ukuhlola okuthathu okwengeziwe okukhomba izikhala kumamethrikhi ajwayelekile; i-correlation drift, ukusetshenziswa komsila nge-decile, kanye nengozi ye-attribute inference.

Lokhu kuhlola okuthathu akudingi amathuluzi akhethekile. Ukuqaliswa okuthathu okuchazwe kulesi sihloko kusebenza ngaphakathi kwe-scikit-learn evamile kanye ne-NumPy. Umsebenzi onzima awukona ukubhala ikhodi, ukubuza imibuzo efanele ngaphambi kokufaka imodeli yakho ekukhiqizeni.

Source link

nimda April 23, 2026

0 7 7 minutes read