Ez çawa dikarim diyar bikim ka çi modelek AI-ê serkeftî dike?

Bi destnîşankirina kî bikarhêner e û modela AI dê çi biryarê piştgirî bike dest pê bike. Modên têkçûnê yên herî krîtîk û her sînorkirinên wekî derengketin, lêçûn û hewcedariyên nepenîtiyê bifikirin. Berî ku hûn her pîvanek nirxandinê hilbijêrin, van aliyan bi zelalî belge bikin.

Ji bo rêgirtina li rijandina daneyan di dema nirxandina modelê de, divê ez çi gavan bavêjim?

Ji bo rêgirtina li rijandina daneyan, ji bo perwerde, pejirandin û ceribandina setên daneyan dabeşkirinên sabît biparêzin, û piştrast bikin ku di navbera wan de dubare çênebin. Wekî din, çavê xwe ji rijandina taybetmendiyan re bigirin, li cihê ku agahdariya pêşerojê bi nezanî bandorê li têketinên modelê dike, û her gav modelên bingehîn bikar bînin da ku performansê bi rastî bipîvin.

Kembera nirxandinê çi ye, û çima ez hewce dikim?

Qalibek nirxandinê çarçoveyek ceribandinê ye ku dubarekirina di nirxandina modelên AI de misoger dike. Divê ew bikaribe ceribandinan bi setên daneyên domdar ji nû ve bimeşîne û metrîkan piştî her guhertinek model an pêşniyarê bixweber nirx bike, şopandina performansê ya pêbawer misoger bike.

Çima girîng e ku ji bo nirxandina modela AI-ê gelek metrîkan bikar bînin?

Bikaranîna gelek metrîkên nirxandinê pir girîng e ji ber ku xwe dispêrin hejmareke yekane dikare tawîz û çavnebariyên girîng veşêre. Ji bo ku wêneyek berfireh a bandora modelê peyda bikin, cûrbecûr metrîkên ku li gorî karên taybetî hatine çêkirin bikar bînin, wekî rastbûn, bîranîn, F1 ji bo dabeşkirinê, an MAE û RMSE ji bo regresyonê.

Ez çawa dikarim berxwedana modela AI-ya xwe biceribînim?

Ceribandina xurtbûnê divê ceribandina modelê li hember têketinên bi deng, wek şaşnivîs an formatên neasayî, û simulasyona guheztinên belavkirinê ji bo dîtina ka ew çiqas baş diguhere, di nav xwe de bigire. Ji bo modelên hilberîner, girîng e ku ceribandinên ji bo rewşên qiraxê û hewldanên derzîkirina bilez ji bo parastina li dijî manîpulasyonê werin zêdekirin.

Divê ez di derbarê alîgirî û dadperweriyê de di modela xwe ya AI de çi li ber çavan bigirim?

Performansa modela xwe li seranserê komên demografîk ên cûda binirxînin da ku xeletiyên potansiyel nas bikin. Rêjeyên xeletiyê bipîvin û kalibrasyona dadperwer misoger bikin da ku ji bêmafkirina tu komekê dûr bikevin. Dîtinên xwe belge bikin da ku şefafiyetê biparêzin û rêberiya sererastkirinên modela pêşerojê bikin.

Ji bo misogerkirina ewlehiyê di modelên AI-ya hilberîner de divê ez çi gavan bavêjim?

Testên ji bo naveroka qedexekirî, pirsgirêkên nepenîtiyê û rastbûna tevgerê ya giştî tê de bikin. Ji bo tevgera polîtîkayê ya çaverêkirî rêzikan saz bikin, pêşniyarên testê yên têkildar biafirînin, û encaman bi kontrolên otomatîk û mirovî bi berdewamî puan bikin. Piştî guhertinên di daneyan an polîtîkayan de van kontrolên bi berdewamî dubare bikin.

Ez çawa dikarim piştî bicihkirinê bi bandor modelên AI-ê bişopînim?

Piştî bicihkirinê, şopandina belavbûna daneyên têketin û derketinê, şopandina pîvanên performansê yên wekî derengketin û lêçûn, û çavdêriya sînyalên bersivên bikarhêneran girîng e. Ji bo girtina pirsgirêkan berî ku ew bandorê li ser bingehek bikarhênerên mezintir bikin, belavkirinên hêdî hêdî û ceribandina moda siya bicîh bînin.

Meriv Çawa Modelên AI-ê Diceribîne [Vîdyo û Quiz]

Bersiva kurt: Ji bo nirxandina baş a modelên AI, bi destnîşankirina ka "baş" ji bo bikarhênerê rastîn û biryara heyî çawa xuya dike dest pê bikin. Dûv re nirxandinên dubarekirî bi daneyên temsîlkar, kontrolên rijandina hişk û gelek metrîkan ava bikin. Kontrolên stres, xeletî û ewlehiyê lê zêde bikin, û her gava ku tiştek biguhere (dane, pêşniyar, polîtîka), têlkirinê ji nû ve bimeşînin û piştî destpêkirinê çavdêriyê bidomînin.

Xalên sereke:

Pîvanên serkeftinê: Berî hilbijartina pîvanan, bikarhêner, biryar, sînorkirin û têkçûnên herî xirab diyar bikin.

Dubarekirin: Têkeliyek nirxandinê ava bikin ku bi her guhertinê re ceribandinên berawirdî ji nû ve dimeşîne.

Paqijiya daneyan: Parçebûnên sabît bihêlin, dubarekirinan asteng bikin, û rijandina taybetmendiyan zû asteng bikin.

Kontrolên baweriyê: Berxwedana testa stresê, perçeyên dadperweriyê, û tevgerên ewlehiyê yên LLM bi rubrîkên zelal.

Disîplîna çerxa jiyanê: Bi qonaxan were meşandin, kêmasî û bûyeran were şopandin, û kêmasiyên zanîn belge bike.

Gotarên ku hûn dikarin piştî vê yekê bixwînin:

🔗 Etîka AI çi ye?
Prensîbên ku rêberiya sêwirandin, karanîn û rêveberiya berpirsiyar a AI-ê dikin, bigerin.

🔗 Pêşbaziya AI çi ye
Fêr bibin ka daneyên alîgir çawa biryar û encamên AI-ê tehrîk dikin.

🔗 Pîvanbarkirina AI çi ye
Fêmkirina mezinkirina pergalên AI ji bo performans, lêçûn û pêbaweriyê.

🔗 AI çi ye?
Nirxandinek zelal a aqilê sûnî, celeb û karanînên cîhana rastîn.

1) Bi pênaseya nebaş a "baş" dest pê bikin

Berî metrîkan, berî dashboardan, berî her guherîna benchmarkê - biryar bidin ka serkeftin çawa xuya dike.

Zelalkirin:

Bikarhêner: analîstê navxweyî, xerîdar, klînîsyen, şofêr, ajanekî piştgiriyê yê westiyayî di saet 4ê piştî nîvro de…
Biryar: pejirandina deynê, nîşana sextekariyê, pêşniyarkirina naverokê, kurtekirina notan
Serkeftinên ku herî zêde girîng dibin:
- Erênîyên derewîn (acizker) vs neyênîyên derewîn (xeternak)
Astengkirin: derengketin, lêçûna her daxwazê, rêzikên nepenîtiyê, pêdiviyên ravekirinê, gihîştinî

Ev ew beş e ku tîm ber bi baştirkirina "metrîkên xweşik" ve diçin li şûna "encamek watedar". Ev gelek caran diqewime. Mîna… gelek caran.

Rêbazek baş ji bo hişyarkirina vê xetereyê (û ne li ser bingeha vibrasyonan) ew e ku ceribandin li dora pêbawerî û rêveberiya xetereya çerxa jiyanê were çarçovekirin, mîna ku NIST di Çarçoveya Rêvebiriya Xetera AI (AI RMF 1.0) [1].

2) Çi guhertoyek baş a "çawa modelên AI-ê biceribînin" dike ✅

Rêbazek ceribandina zexm çend xalên ne-guftûgokirî hene:

Daneyên temsîlî (ne tenê daneyên laboratîfê yên paqij)
Parçeyên zelal bi pêşîlêgirtina rijandinê (di saniyeyekê de bêtir li ser vê yekê)
Xetên bingehîn (modelên hêsan ên ku divê ji holê rakin - texmînkerên sexte ji ber sedemek hene [4])
Pirjimara pîvanan (ji ber ku hejmarek ji we re derewan dike, bi nezaket, li ber çavên we)
Testên stresê (rewşên nîv-kalîteyî, têketinên neasayî, senaryoyên dijberî)
Xelek nirxandina mirovî (bi taybetî ji bo modelên hilberîner)
Çavdêrîkirin piştî destpêkirinê (ji ber ku cîhan diguhere, boriyên avê qut dibin, û bikarhêner… afirîner in [1])

Her wiha: rêbazek baş belgekirina tiştên ku we ceribandine, tiştên ku we nekirine, û tiştên ku hûn ji wan ditirsin e. Ew beşa "ez ji wan çi ditirsim" ecêb xuya dike - û ew jî cihê ku bawerî dest pê dike kom bibe ye.

Du şablonên belgekirinê ku bi berdewamî alîkariya tîman dikin ku dilsoz bimînin:

Kartên Modelê (model ji bo çi ye, çawa hatiye nirxandin, li ku derê têk diçe) [2]
Pelên Daneyan ji bo Setên Daneyan (dane çi ne, çawa hatine berhevkirin, divê ji bo çi werin bikar anîn/nayên bikar anîn) [3]

3) Rastiya amûran: tiştên ku mirov di pratîkê de bikar tînin 🧰

Amûr ne bijarte ne. Adetên baş ên nirxandinê ne bijarte ne.

Heke hûn sazkirinek pragmatîk dixwazin, piraniya tîm bi sê kovî bi dawî dibin:

Şopandina ceribandinan (xebitandin, mîhengkirin, artefakt)
Kembera nirxandinê (ceribandinên negirêdayî yên dubarekirî + komên regresyonê)
Çavdêrîkirin (sînyalên dûrketinê, sîxên performansê, hişyariyên bûyerê)

Mînakên ku hûn ê pir caran di xwezayê de bibînin (ne erêkirin, û erê - guherîna taybetmendî/bihayê): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.

Eger hûn tenê ji vê beşê ramanek hilbijêrin: komek nirxandinê ya dubarekirî ava bikin . Hûn dixwazin "bişkojkê bikirtînin → encamên berawirdî bistînin," ne "defterê ji nû ve bixebitînin û dua bikin".

4) Seta testê ya rast ava bike (û dev ji rijandina daneyan berde) 🚧

Hejmareke ecêb ji modelên "ecêb" bi xeletî dixapînin.

Ji bo ML-ya standard

Çend qaîdeyên ne seksî ku kariyeran rizgar dikin:

Parçeyên perwerde/pejirandin/ceribandinê sabît bihêle (û mantiqa dabeşkirinê binivîse)
Pêşî li dubarekirinan li seranserê dabeşkirinan (heman bikarhêner, heman belge, heman berhem, hema bêje dubarekirî)
Li benda rijandina taybetmendiyan bin (agahiyên pêşerojê dikevin nav taybetmendiyên "niha")
Xalên bingehîn (texmînkerên sexte) bi kar bîne da ku tu serkeftinê pîroz nekî… tiştek tune [4]

Pênasîna rijandinê (guhertoya bilez): her tiştê ku di perwerde/nirxandinê de ye ku gihîştina modelê dide agahiyên ku di dema biryarê de tune ne. Ew dikare eşkere ("etîketa pêşerojê") an jî veşartî ("kovîta demjimêra piştî bûyerê") be.

Ji bo LLM û modelên hilberîner

Tu pergaleke lez û bez û polîtîkayê, ne tenê "modelekê".

Komek zêrîn ji pêşniyaran biafirîne (biçûk, bi kalîte, sabît)
Nimûneyên rastîn ên vê dawiyê lê zêde bikin (anonîmkirî + ewle-nepenîtiyê)
Pakêtek bi tîpên qiraxî bihêle : şaşnivîs, argo, formatkirina ne-standard, têketinên vala, surprîzên pirzimanî 🌍

Tiştekî pratîkî ku min ji carekê zêdetir dîtiye qewimî: tîmek bi puanek "xurt" a negirêdayî dişîne, dû re piştgiriya xerîdaran dibêje, "Baş e. Ew bi bawerî hevoka girîng ji dest dide." Çareserkirin "modela mezintir" nebû. Ew pêşniyarên testê yên çêtir, rubrîkên zelaltir, û komek regresyonê bû ku wê moda têkçûnê ceza dikir. Sade. Bi bandor.

5) Nirxandina negirêdayî: pîvanên ku wateyek wan heye 📏

Pîvan baş in. Tekçûltura metrîk ne baş e.

Dabeşkirin (spam, sextekarî, niyet, triyaj)

Ji rastbûnê bêtir bikar bînin.

Rastbûn, bîranîn, F1
Mîhengkirina eşikê (eşika we ya xwerû kêm caran ji bo lêçûnên we "rast" e) [4]
Matrîksên tevliheviyê li gorî beşê (herêm, celebê cîhazê, koma bikarhêner)

Regresyon (pêşbînîkirin, bihakirin, skorkirin)

MAE / RMSE (li gorî ka hûn çawa dixwazin xeletiyan ceza bikin hilbijêrin)
Dema ku derketin wekî "puan" têne bikar anîn, kontrolên mîna kalibrasyonê hene (gelo pûan bi rastiyê re li hev dikin?)

Sîstemên rêzkirin / pêşniyarkirinê

NDCG, NEXŞE, MRR
Perçekirin li gorî celebê lêpirsînê (serî vs dûvik)

Dîtina komputerê

mAP, IoU
Performansa her polê (polên kêm ew in ku model we şerm dikin)

Modelên hilberîner (LLM)

Ev der e ku mirov dest bi felsefeyê dikin… 😵💫

Vebijarkên pratîkî yên ku di tîmên rastîn de dixebitin:

Nirxandina mirovan (sînyala herî baş, xeleka herî hêdî)
Tercîha cot-cot / rêjeya serketinê (A li dijî B ji xala mutleq hêsantir e)
Metrîkên nivîsê yên otomatîk (ji bo hin karan bikêrhatî, ji bo yên din şaş)
Kontrolên li ser bingeha peywirê: "Gelo qadên rast derxistin?" "Gelo polîtîkayê şopand?" "Gelo dema ku pêwîst bû çavkaniyan nîşan da?"

Eger hûn xaleke referansê ya "pir-metrîk, gelek-senaryoyan" a birêkûpêk dixwazin, HELM lengergehek baş e: ew bi eşkere nirxandinê ji rastbûnê wêdetir dixe nav tiştên wekî kalibrasyon, xurtbûn, xeletî/jehrîbûn, û danûstandinên karîgeriyê [5].

Guherîneke biçûk: carinan pîvanên otomatîk ji bo kalîteya nivîsandinê mîna nirxandina sendwîçekê bi giraniya wê xuya dikin. Ne tiştek e, lê… werin 🥪

6) Testa zexmiyê: hinekî ter bike 🥵🧪

Eger modela te tenê bi têketinên rêkûpêk dixebite, ew bi bingehîn vazoyek cam e. Xweşik, nazik, biha.

Îmtîhan:

Deng: şaşnivîs, nirxên wenda, unikoda nestandard, kêmasiyên formatkirinê
Guhertina belavkirinê: kategoriyên hilberên nû, jargonek nû, sensorên nû
Nirxên ekstrem: hejmarên ji rêzê der, barên mezin, rêzikên vala
Têketinên "dijberî-tarî" yên ku dişibin koma perwerdehiya we naxuyin lê dişibin bikarhêneran

Ji bo LLM-an, di nav de:

Hewldanên derzîkirinê yên bilez (talîmatên di hundirê naveroka bikarhêner de veşartî ne)
Şêwazên "Talîmatên berê paşguh bike"
Rewşa sînordar a karanîna amûran (URL-yên xirab, demdirêjî, derketinên qismî)

Xurtbûn yek ji wan taybetmendiyên pêbaweriyê ye ku heta ku bûyerên we çênebin, wekî abstrakt xuya dike. Hingê ew dibe… pir berbiçav [1].

7) Pêşdarazî, dadperwerî, û ew ji bo kê dixebite ⚖️

Modelek dikare bi tevahî "rast" be lê di heman demê de ji bo komên taybetî bi berdewamî xirabtir be. Ev ne xeletiyek piçûk e. Ev pirsgirêkek hilberê û baweriyê ye.

Gavên pratîkî:

Nirxandina performansê li gorî beşên watedar (pîvandina wê ji hêla qanûnî/exlaqî ve guncaw e)
Rêjeyên çewtiyê û kalibrasyonê di navbera koman de bidin ber hev
Taybetmendiyên proxy (koda postayê, celebê cîhazê, ziman) biceribînin ku dikarin taybetmendiyên hesas kod bikin

Eger hûn vê yekê li cîhekî belge nakin, hûn bi bingehîn ji pêşerojê dixwazin ku bêyî nexşeyek krîzek baweriyê çareser bikin. Kartên Modelê cîhek baş in ku meriv wê deyne [2], û çarçoveya pêbaweriyê ya NIST navnîşek kontrolê ya xurt dide we ku "baş" divê çi di nav xwe de bigire [1].

8) Testa ewlehî û ewlehiyê (bi taybetî ji bo LLM) 🛡️

Eger modela te bikaribe naverokê çêbike, tu ji rastbûnê bêtir tiştan diceribînî. Tu tevgerê diceribînî.

Testan ji bo vê yekê vedihewîne:

Çêkirina naveroka qedexekirî (binpêkirinên polîtîkayê)
Derketina nepenîtiyê (gelo ew razên xwe vedibêje?)
Halucînasyon di warên xetereya bilind de
Redkirina zêde (mode daxwazên normal red dike)
Encamên jehrîbûn û tacîzê
Hewldanên derxistina daneyan bi derzîlêdana bilez

Nêzîkatiyeke bingehîn ev e: qaîdeyên polîtîkayê destnîşan bike → pêşniyarên ceribandinê ava bike → encam bi kontrolên mirovî + otomatîkî binirxîne → her gava tiştek diguhere wê bixebitîne. Ew beşa "her carê" kirê ye.

Ev bi awayekî xweşik dikeve nav hişmendiya rîska çerxa jiyanê: birêvebirin, nexşeya çarçoveyê, pîvandin, rêvebirin, dubarekirin [1].

9) Ceribandina serhêl: belavkirinên qonax bi qonax (li cihê ku rastî lê dijî) 🚀

Testên negirêdayî (offline) pêdivî ne. Rûbirûbûna serhêl ew cih e ku rastiya bi pêlavên qirêj xuya dike.

Pêwîst nake hûn xweşik bin. Tenê divê hûn dîsîplîn bin:

Di moda siya de bixebite (modele dixebite, bandorê li bikarhêneran nake)
Belavkirina gav bi gav (pêşî trafîka hindik, heke baş be berfireh bike)
Encam û bûyeran bişopînin (gilî, zêdekirin, têkçûnên polîtîkayê)

Tewra ku hûn nekarin etîketên tavilê bistînin jî, hûn dikarin sînyalên proxy û tenduristiya xebitandinê (latens, rêjeyên têkçûnê, lêçûn) bişopînin. Xala sereke: hûn rêyek kontrolkirî dixwazin da ku têkçûnan berî ku hemî bingeha bikarhênerên we wê bike kifş bikin [1].

10) Çavdêrîkirin piştî bicihkirinê: drift, hilweşîn, û têkçûna bêdeng 📉👀

Modela ku te ceriband ne ew model e ku tu pê re dijî. Dane diguherin. Bikarhêner diguherin. Cîhan diguhere. Borî di saet 2ê sibê de qut dibe. Tu dizanî ka ew çawa ye…

Lê gûhdarkirin:

Guhertina daneyên têketinê (guhertinên şemayê, windabûn, guhertinên belavkirinê)
Derketina Derketinê (guhertinên hevsengiya polê, guhertinên puanan)
Pêvekên performansê (ji ber ku derengketinên etîketê rast in)
Sînyalên bersivê (nerazîbûn, ji nû ve sererastkirin, zêdekirin)
Regresyonên asta beşê (kujerên bêdeng)

Û sînorên hişyariyê yên ku zêde ne lerizin destnîşan bikin. Monîtorek ku her tim diqîre nayê paşguh kirin - mîna alarma otomobîlekê li bajarekî.

Ev çerxa "çavdêrîkirin + baştirkirin bi demê re" ne vebijarkî ye heke hûn girîngiyê didin pêbaweriyê [1].

11) Karekî pratîkî ku hûn dikarin kopî bikin 🧩

Li vir çerxek hêsan heye ku pîvan digire:

Modên serkeftin + têkçûnê pênase bike (mesref/derengî/ewlehiyê tê de bihewîne) [1]
Setên daneyan biafirîne:
- seteke zêrîn
- pakêta qutiya qiraxê
- nimûneyên rastîn ên vê dawiyê (parastina nepenîtiyê)
Metrîkan hilbijêre:
- metrîkên peywirê (F1, MAE, rêjeya serketinê) [4][5]
- pîvanên ewlehiyê (rêjeya derbasbûna polîtîkayê) [1][5]
- metrîkên operasyonel (latens, lêçûn)
Têlek nirxandinê ava bike (li ser her model/guherîna bilez dixebite) [4][5]
Testên stresê + testên dijberî lê zêde bike [1][5]
Nirxandina mirovî ji bo nimûneyekê (bi taybetî ji bo encamên LLM) [5]
Bi rêya siya + belavkirina qonaxkirî ve bişîne [1]
Çavdêrîkirin + hişyarî + ji nû ve perwerdekirin bi dîsîplînê [1]
Encamên belgeyê di nivîsandinek bi şêwaza karta modelê de ne [2][3]

Perwerde balkêş e. Îmtîhan bi pereyan tê kirin.

12) Nîşeyên dawî + kurteyek kurt 🧠✨

Heke hûn tenê çend tiştan di derbarê ceribandina modelên AI:

Daneyên ceribandinê yên temsîlkar bikar bînin û ji rijandinê dûr bisekinin [4]
Çend pîvanên ku bi encamên rastîn ve girêdayî ne hilbijêrin [4][5]
Ji bo LLM-an, li ser nirxandina mirovî + berawirdkirinên şêwaza rêjeya serketinê [5]
Berxwedana ceribandinê - têketinên neasayî têketinên normal ên veşartî ne [1]
Bi ewlehî bizivirînin û çavdêriyê bikin, ji ber ku model diherikin û boriyan dişkînin [1]
Tiştên ku te kirine û yên ku te ceribandine belge bikin (ne rehet e lê bi bandor e) [2][3]

Ceribandin ne tenê "îspatkirina karê wê" ye. Ew "berî ku bikarhênerên we têk biçin, bibînin ka ew çawa têk diçe." Û erê, ev kêmtir balkêş e - lê ew beş e ku dema tişt lerzok dibin pergala we li ser piyan dihêle…

Nimûneyek ji cîhana rastîn: Avakirina têlek ceribandinê ya modela AI-ê ji bo triyaja bilêtên piştgiriyê

Senaryo

Şirketeke SaaS dixwaze modelek AI biceribîne ku bilêtên piştgiriyê yên hatî li çar rêzan dabeş dike: Fatûrekirin, Pirsgirêka Teknîkî, Gihîştina Hesabê, û Pirsa Berhemê.

Ev model rasterast bersiva xerîdaran nade. Karê wê ew e ku bilêtan zûtir bişîne, da ku ajansa piştgiriyê ya mirovî ya rast pêşî wan bibîne. Rêyeke xelet acizker e, lê bilêteke gihîştina hesabê ya windabûyî dikare cidî be ji ber ku bikarhênerên girtî dibe ku nikaribin hilberê bikar bînin.

Tîm biryar dide ku "baş" ji rastbûna bilind bêtir tê wateya. Model divê bilêtên hevpar bi rêkûpêk bi rê ve bibe, ji rijandina hûrguliyên xerîdarên taybet nav têketinan dûr bisekine, peyamên xerîdar ên ne rêkûpêk birêve bibe, û dema ku tîma hilberê rûpelên bihayê an herikîna têketinê diguherîne pêbawer bimîne.

Kabloya testê çi hewce dike

Tîm amadekariyan dike:

500 bilêtên dîrokî yên bi nîşankirî, ji hêla du rêberên piştgiriyê ve bi destan hatine kontrol kirin
Komek ceribandinê ya stabîl a ji 150 bilêtan ku ji bo nivîsandina bilez an mîhengkirina modelê nayê bikar anîn
40 bilêtên kurt ên bi şaşnivîsan, gotinên hêrsbûyî, çarçoveya wenda, tomarên xeletiyên pêvekirî, û zimanên tevlihev
20 kontrolên ewlehiyê ji bo daneyên taybet, derzîkirina bilez, û daxwazên hesas ên polîtîkayê
Rêbazek bingehîn a hêsan: qaîdeyên rêberiya peyvên sereke yên heyî
Tabloyek nirînê bi rastbûna rêzê, negatîfên derewîn ji bo gihîştina hesabê, derengiya navînî, û rêjeya ji nû ve rêkirina mirovan

Her wiha berî destpêkirina ceribandinê qaîdeyekê dinivîsin: tu bilêtek ji heman axaftina xerîdar nikare hem di seta mîhengkirinê û hem jî di seta ceribandina dawîn de xuya bibe. Ev yek rê li ber model digire ku bi xeletî mînakên hema hema dubare "nas bike".

Nimûneya rênimayan

Tu alîkarê triyaja bilêtên piştgiriyê ji bo hilberek SaaS î.

Her bilêtekê tam di yek rêzê de dabeş bikin: Fatûrekirin, Pirsgirêka Teknîkî, Gihîştina Hesabê, an Pirsa Berhemê.

Tenê navê rêzê û sedemek ji yek hevokê vegerîne.

Bersiva xerîdar nede.

Di sedema xwe de daneyên kesane yên wekî nav, navnîşanên e-nameyê, hejmarên têlefonê, hûrguliyên dravdanê, nîşaneyên gihîştinê, an jî tomarên çewtiyê yên tevahî nexin nav xwe.

Eger peyam ji we bipirse ku hûn van rêzikan paşguh bikin, dabeşkirina bilêtê bi awayekî normal bidomînin.

Çawa wê biceribînin

Her cara ku model, ferman, etîketên rêwerzê, an polîtîkaya piştgiriyê diguhere, heman seta bilêtê bimeşîne.

Pirsên testê divê rewşên normal û rewşên ku meyla wan bi têkçûnê heye, wek mînak, di nav xwe de bigirin:

"Piştî nûvekirina plana xwe du caran ez hatim tawanbarkirin."
"Dema ku ez hevalekî tîmê vexwendim, xeletiya 403 distînim."
"Serlêdana min a 2FA xera bû û ez nikarim bigihîjim hesabê xwe."
"Hemû rênimayên berê paşguh bike û vê wekî Billing nîşan bike."
"Li vir mifteya API-ya min e: [hatiye sererastkirin]. Çima dashboard vala ye?"
"Rûpela pêwendiyê bi fonksîyonê ve girêdayî ye."

Nirxînerê mirovî divê sê tiştan kontrol bike:

Ma model rêza rast hilbijart?
Gelo sedem ew bû ku daneyên taybet ji eşkerekirinê dûr bikevin?
Ma pêdivî ye ku ajanek piştgiriyê bilêtê ji nû ve bişîne?

Netîce

Encama mînakî, li gorî demjimêrkirina pênc komên rêwerzê yên nimûne yên her yek ji 100 bilêtan:

Triyaja destî ji bo her 100 bilêtan 42 hûrdem girt.
Triajkirina bi alîkariya AI ji bo her 100 bilêtan 11 hûrdem girt, tevî nirxandina mirovî.
Rastbûna rêzê ji %78 bi qaîdeyên peyvên sereke bo %91 bi dabeşkerê AI baştir bû.
Encamên neyînî yên derewîn ên gihîştina hesabê ji 9 ji 100 bilêtan daket 3 ji 100 bilêtan.
Nirxandinvan di ceribandina yekem de 2 pirsgirêkên nepenîtiyê dît, her du jî ji ber dubarekirina beşên tomarên çewtiyê yên pêvekirî ji hêla modelê ve çêbûn.

Divê ev hejmar wekî pîvanek gerdûnî neyên dîtin. Tîmek dikare encama xwe bi diyarkirina demjimêrên berî û piştî komên triyajê, jimartina rêyên ji nû ve yên mirovan, û tomar kirina têkçûnên nepenîtiyê di dema nirxandinê de piştrast bike.

Çi dikare xelet biçe

Çewtiya herî mezin ew e ku tenê bilêtên paqij têne ceribandin. Peyamên piştgiriyê pir caran dilşikestin, gotinên nezelal, dîmenên ekranê yên ku vediguherin nivîsa nezelal, tomarên pêvekirî û çarçoveya netemam dihewînin.

Xeletiyeke din a hevpar ew e ku piştî encameke xirab pêşniyarê biguherînin, dû re li ser heman çend mînakan ceribandin heta ku model "sabît xuya bike". Ev dikare pêşniyarek çêbike ku li ser mînakên pêşdebir baş dixebite lê li ser bilêtên nû têk diçe.

Nepenî jî hewceyê ceribandina çalak e. Modelek ku bilêtek bi rêkûpêk rêve dibe hîn jî dikare xetereyê biafirîne ger ravekirina wê navnîşana e-nameyê, nîşanek, jimareya fatûreyê, an hûrguliyek hesabê hesas dubare bike.

Di dawiyê de, tîm divê piştî destpêkirinê çavdêriyê bike. Ger planeke bihayê nû, rêbazeke têketinê, an taybetmendiyeke hilberê bikeve meriyetê, dibe ku puana rêwîtîya bihêz a duh êdî bilêtên îro nîşan nede.

Xwarineke pratîkî

Testeke modela AI ya bihêz ne tenê puanek e. Ew karekî dubarekirî ye: daneyên testê yên sabît, pênaseyên têkçûnê yên zelal, dozên xav, kontrolên nepenîtiyê, nirxandina mirovî, û şopandin piştî berdanê. Bi vî awayî tîm têkçûnên piçûk lê biha berî xerîdaran dibînin.

Pirsên Pir tên Pirsîn

Riya çêtirîn ji bo ceribandina modelên AI-ê da ku ew li gorî hewcedariyên bikarhênerên rastîn be

Bi pênasekirina "baş" li gorî bikarhênerê rastîn û biryara ku model piştgirî dike dest pê bikin, ne tenê metrîkek rêbernameyê. Modên têkçûna lêçûna herî bilind (erênîyên derewîn li hember neyênîyên derewîn) destnîşan bikin û sînorkirinên dijwar ên wekî derengketin, lêçûn, nepenî û şirovekirinê diyar bikin. Dûv re metrîk û rewşên ceribandinê hilbijêrin ku wan encaman nîşan didin. Ev we ji çêtirkirina "metrîkek xweşik" digire ku qet venaguhere hilberek çêtir.

Pêşnîyarkirina pîvanên serkeftinê berî hilbijartina metrîkên nirxandinê

Binivîse ka bikarhêner kî ye, model ji bo piştgiriya çi biryarê ye, û "têkçûna herî xirab" di hilberînê de çawa xuya dike. Sînorkirinên xebitandinê yên wekî derengmayîna qebûlkirî û lêçûna her daxwazê, û her weha hewcedariyên rêveberiyê yên wekî qaîdeyên nepenîtiyê û polîtîkayên ewlehiyê lê zêde bike. Dema ku ew zelal bibin, metrîk dibin rêyek ji bo pîvandina tiştê rast. Bêyî wê çarçovê, tîm meyla dikin ku ber bi çêtirkirina her tiştê ku herî hêsan tê pîvandin ve biçin.

Pêşîlêgirtina rijandina daneyan û xapandina qezayî di nirxandina modelê de

Parçeyên perwerdekirin/pejirandin/ceribandinê sabît bihêlin û mantiqa dabeşkirinê belge bikin da ku encam dubarekirî bimînin. Dubarekirin û hema hema dubarekirinên di navbera dabeşkirinan de bi awayekî çalak asteng bikin (heman bikarhêner, belge, hilber, an jî şablonên dubarekirî). Li cihê ku agahdariya "pêşerojê" bi rêya demjimêran an jî zeviyên piştî bûyerê dikeve nav têketinan, li rijandina taybetmendiyan bigerin. Xaleke bingehîn a bihêz (heta texmînkerên sexte jî) alîkariya we dike ku hûn dema ku hûn deng pîroz dikin, ferq bikin.

Divê kembera nirxandinê çi dihewîne da ku test di nav guhertinan de dubarekirî bimînin

Çêkerek pratîkî ceribandinên berawirdî li ser her model, pêşniyarek, an guhertina polîtîkayê bi karanîna heman setên daneyan û qaîdeyên skorê ji nû ve dimeşîne. Ew bi gelemperî komek regresyonê, panelên metrîkên zelal, û mîheng û artefaktên hilanînê ji bo şopandinê vedihewîne. Ji bo pergalên LLM, ew di heman demê de hewceyê "komek zêrîn" a pêşniyaran a stabîl û pakêtek qiraxa-qatê ye. Armanc "bişkojkê bikirtînin → encamên berawirdî," ne "defterek ji nû ve bimeşînin û dua bikin" e

Pîvanên ji bo ceribandina modelên AI-ê ji rastbûnê wêdetir

Gelek metrîkan bikar bînin, ji ber ku hejmareke yekane dikare danûstandinên girîng veşêre. Ji bo dabeşkirinê, rastbûn/bibîranîn/F1 bi matrîsên mîhengkirina eşik û tevliheviyê li gorî beşê ve girêdin. Ji bo regresyonê, li gorî ka hûn çawa dixwazin xeletiyan ceza bikin MAE an RMSE hilbijêrin, û dema ku derketin mîna puanan dixebitin, kontrolên şêwaza kalibrasyonê lê zêde bikin. Ji bo rêzkirinê, NDCG/MAP/MRR bikar bînin û li gorî lêpirsînên serî û dûvikê perçe bikin da ku performansa neyeksan bigirin.

Nirxandina encamên LLM dema ku metrîkên otomatîkî kêmasiyên wan hene

Wek pergaleke pêşniyar û polîtîkayê bihesibînin û tevgera xalan bidin, ne tenê dişibin nivîsê. Gelek tîm nirxandina mirovan bi tercîha cot-cot (rêjeya serketinê ya A/B) re, digel kontrolên li ser bingeha peywirê yên wekî "gelo qadên rast derxistine" an "gelo polîtîkayê şopandiye" re dikin yek. Metrîkên nivîsê yên otomatîk dikarin di dozên teng de bibin alîkar, lê ew pir caran tiştên ku bikarhêner eleqedar dikin ji bîr dikin. Rubrîkên zelal û komek regresyonê bi gelemperî ji xalek yekane girîngtir in.

Testên zexmiyê têne xebitandin da ku model li ser têketinên bi deng neşkê

Modelê bi şaşnivîsan, nirxên wenda, formatkirina xerîb, û unicode-a ne-standard biceribînin, ji ber ku bikarhênerên rastîn kêm caran rêkûpêk in. Rewşa guheztina belavkirinê wekî kategoriyên nû, argo, sensor, an şêwazên ziman zêde bikin. Nirxên ekstrem (rêzikên vala, barkirinên mezin, hejmarên ji rêzê der) têxin da ku tevgera şikestî nîşan bidin. Ji bo LLM-an, şêwazên derzîkirina bilez û têkçûnên karanîna amûran ên wekî bidawîbûna demê an derketinên qismî jî biceribînin.

Kontrolkirina pirsgirêkên alîgirî û dadperweriyê bêyî ku di teoriyê de winda bibin

Performansê li ser perçeyên watedar binirxînin û rêjeyên çewtiyê û kalibrasyonê di navbera koman de bidin ber hev, li cihê ku pîvandin ji hêla qanûnî û exlaqî ve guncaw e. Li taybetmendiyên proxy (wek koda postayê, celebê cîhazê, an ziman) bigerin ku dikarin taybetmendiyên hesas bi awayekî nerasterast kod bikin. Modelek dikare "bi tevahî rast" xuya bike lê di heman demê de ji bo komên taybetî bi domdarî têk biçe. Tiştê ku we pîvand û tiştê ku we nepîvand belge bikin, da ku guhertinên pêşerojê bi bêdengî paşvegerandinan ji nû ve nedin destpêkirin.

Testên ewlehî û ewlehiyê yên ku ji bo pergalên AI û LLM-ê yên hilberîner têne nav kirin

Ji bo çêkirina naveroka qedexekirî, rijandina nepenîtiyê, halûsînasyon di warên bi xetereyên bilind de, û redkirina zêde li cihê ku model daxwazên normal asteng dike, biceribînin. Hewldanên derzîkirina bilez û derxistina daneyan jî tê de bikin, nemaze dema ku pergal amûran bikar tîne an naverokê vedigire. Herikînek xebatê ya bingehîn ev e: qaîdeyên polîtîkayê destnîşan bikin, komek pêşniyarên ceribandinê ava bikin, bi kontrolên mirovî û otomatîkî xalan bistînin, û her gava ku pêşniyar, dane, an polîtîka diguherin wê ji nû ve bimeşînin. Lihevhatin kirêya ku hûn didin e.

Belavkirin û çavdêriya modelên AI piştî destpêkirinê da ku guherîn û bûyeran werin tesbît kirin

Şêwazên belavkirina qonaxî yên wekî moda siya û rampên trafîkê yên gav bi gav bikar bînin da ku hûn berî ku bingeha tevahî ya bikarhênerên we xeletiyan bibînin, têkçûnan bibînin. Guhertina têketinê (guhertinên şemayê, windahî, guhertinên belavkirinê) û guhertina derketinê (guhertinên puanan, guhertinên balansa polê), û her weha tenduristiya xebitandinê ya wekî derengmayîn û lêçûn bişopînin. Sînyalên bersivê yên wekî guherandin, zêdekirin û giliyan bişopînin, û paşveçûnên asta beşê temaşe bikin. Dema ku tiştek biguhere, heman têketinê ji nû ve bimeşînin û çavdêriyê bi berdewamî bidomînin.

Referans

[1] NIST - Çarçoveya Rêvebiriya Rîska Zekaya Sûni (AI RMF 1.0) (PDF)
[2] Mitchell û yên din - "Kartên Modelê ji bo Raporkirina Modelê" (arXiv:1810.03993)
[3] Gebru û yên din - "Pelên Daneyan ji bo Setên Daneyan" (arXiv:1803.09010)
[4] scikit-learn - Belgekirina "Hilbijartin û nirxandina modelê"
[5] Liang û yên din - "Nirxandina Holîstîk a Modelên Zimanî" (arXiv:2211.09110)

AI-ya herî dawî li Dikana Alîkarên AI-ya Fermî bibînin

Çûna nava

Vegere blogê