Ger hûn pergalên AI ava dikin, dikirin, an jî tenê dinirxînin, hûn ê bi pirsek hêsan û xapînok re rû bi rû bimînin: daneya AI çi ye û çima ewqas girîng e? Guhertoya kurt: ew sotemenî, pirtûka çêkirina xwarinê, û carinan jî kumpas ji bo modela we ye.
Gotarên ku hûn dikarin piştî vê yekê bixwînin:
🔗 AI çawa trendan pêşbînî dike
Vekolîn dike ka AI çawa qaliban analîz dike da ku bûyer û reftarên pêşerojê pêşbînî bike.
🔗 Meriv çawa performansa AI-ê dipîve
Pîvan û rêbazên ji bo nirxandina rastbûn, karîgerî, û pêbaweriya modelê.
🔗 Meriv çawa bi AI-ê re biaxive
Rêbername li ser çêkirina danûstendinên çêtir ji bo baştirkirina bersivên ji hêla AI-ê ve têne çêkirin.
🔗 Tesbîtkirina AI çi ye
Nirxandinek li ser ka çawa pêşniyar derana AI û kalîteya ragihandinê ya giştî şekil didin.
Daneyên AI çi ne? Pênasînek bilez 🧩
Seta daneya AI çi ye? Ew berhevokek ji mînakan e ku modela we jê fêr dibe an jî li ser wan tê nirxandin. Her mînakek ev tişt hene:
-
Têketin - taybetmendiyên ku model dibîne, wekî perçeyên nivîsê, wêne, deng, rêzên tabloyî, xwendinên sensoran, grafîk.
-
Armanc - etîket an encamên ku model divê pêşbînî bike, wek kategoriyan, hejmaran, firehiya nivîsê, çalakiyan, an carinan jî qet tiştek tune.
-
Metadata - çarçoveya wekî çavkanî, rêbaza berhevkirinê, mohrên demê, lîsans, agahdariya razîbûnê, û notên li ser kalîteyê.
Wek qutiyeke firavînê ya bi baldarî pakkirî ji bo modela xwe bifikirin: malzeme, etîket, agahdariyên xurekî, û erê, nota zeliqok a ku dibêje "vê beşê nexwin." 🍱
Ji bo karên çavdêrîkirî, hûn ê têketinên ku bi etîketên eşkere ve hatine hevber kirin bibînin. Ji bo karên bê çavdêrî, hûn ê têketinên bê etîket bibînin. Ji bo fêrbûna xurtkirinê, daneyên pir caran wekî beş an rêgehên bi rewş, çalakî, xelatan xuya dikin. Ji bo xebata pirmodal, mînak dikarin nivîs + wêne + deng di tomarê de bi hev re bikin yek. Dengê wê xweş xuya dike; bi piranî lûleyên avê ne.
Pêşgotin û pratîkên alîkar: Datasheets for Datasets alîkariya tîman dike ku rave bikin ka çi di hundir de ye û divê ew çawa were bikar anîn [1], û Kartên Modelê belgekirina daneyan li aliyê modelê temam dikin [2].

Çi Setek Daneyên AI-ê ya Baş Dike ✅
Bila em rast bin, gelek model bi ser dikevin ji ber ku daneyên wan ne pir xirab bûn. Daneyên "baş" ev in:
-
Nûnertiya rewşên karanîna rastîn e, ne tenê şert û mercên laboratîfê.
-
bi awayekî rast hatiye nîşankirin . Metrîkên lihevhatinê (mînak, pîvanên bi şêwaza kappa) dibin alîkar ku hevgirtinê kontrol bikin.
-
Têra xwe temam û hevseng e ku ji têkçûna bêdeng li ser dûvikên dirêj dûr bisekine. Nehevsengî normal e; xemsarî ne.
-
Çavkaniya wê zelal e , razîbûn, lîsans û destûrên wê belgekirî ne. Kaxezên bêzar rê li ber dozên balkêş digirin.
-
Bi karanîna kartên daneyan an pelên daneyan ên ku karanîna armanckirî, sînor û awayên têkçûnê yên naskirî diyar dikin, baş hatiye belgekirin
-
tê rêvebirin . Heke hûn nekarin daneyan ji nû ve hilberînin, hûn nekarin modelê jî ji nû ve hilberînin. Rêbernameya ji Çarçoveya Rêvebiriya Rîska AI ya NIST-ê kalîteya daneyan û belgekirinê wekî fikarên pola yekem dibîne [3].
Cureyên Daneyên AI, li gorî tiştê ku hûn dikin 🧰
Li gorî peywirê
-
Dabeşkirin - mînak, spam vs ne spam, kategoriyên wêneyan.
-
Regresyon - nirxek berdewam wekî biha an germahî pêşbînî bike.
-
Etîketkirina rêzê - hebûnên bi navkirî, beşên axaftinê.
-
Nifş - kurtkirin, wergerandin, sernivîsandina wêneyan.
-
Pêşniyar - bikarhêner, tişt, têkilî, çarçove.
-
Tesbîtkirina anomaliyan - bûyerên kêm di rêzenivîsên demî an jî tomarên tomarê de.
-
Fêrbûna bi xurtkirinê - rewş, çalakî, xelat, rêzikên rewşa din.
-
Vegerandin - belge, lêpirsîn, biryarên têkildar.
Li gorî awayê
-
Tabloyî - stûnên mîna temen, dahat, çûnûhatina karmendan. Kêm nirxandî, bi awayekî hovane bandorker.
-
Nivîs - belge, sohbet, kod, nivîsên forumê, danasînên hilberê.
-
Wêne - wêne, skanên bijîşkî, wêneyên satelîtê; bi maske an bê maske, qutî, xalên sereke.
-
Deng - şêweyên pêlan, transkrîpt, etîketên axaftvan.
-
Vîdyo - çarçove, şîrovekirinên demkî, etîketên çalakiyê.
-
Grafîk - girêk, qirax, taybetmendî.
-
Rêzedemên demê - sensor, darayî, telemetrî.
Bi çavdêriyê
-
Bi etîket (zêr, zîv, bi otomatîkî etîketkirî), bi lawazî etîketkirî , bê etîket , sentetîk . Têkela kekê ya ji firotgehê kirî dikare baş be - heke hûn qutiyê bixwînin.
Di hundirê qutiyê de: avahî, dabeşkirin û metadata 📦
Daneyek daneyên bihêz bi gelemperî di nav xwe de digire:
-
Şema - zeviyên tîpkirî, yekîne, nirxên destûrdayî, birêvebirina null.
-
Parçekirin - perwerde, pejirandin, ceribandin. Daneyên ceribandinê veşartî bihêlin - wekî perçeya dawîn a çîkolatayê bihesibînin.
-
Plana nimûnegirtinê - we çawa ji nifûsê mînak kişandin; ji nimûneyên rehetiyê yên ji herêmek an cîhazekê dûr bisekinin.
-
Zêdekirin - zivirandin, çandin, deng, parafraz, maske. Dema ku rast bin baş in; zirardar in dema ku ew şablonên ku qet di xwezayê de çênabin dahênan dikin.
-
Guhertokirin - daneya v0.1, v0.2… bi tomarên guhertinan ên ku deltayan diyar dikin.
-
Lîsans û razîbûn - mafên karanînê, ji nû ve belavkirin û herikîna jêbirinê. Rêkxerên parastina daneyan ên neteweyî (mînak, ICO ya Keyaniya Yekbûyî) navnîşên kontrolê yên pratîkî û yên pêvajoya qanûnî peyda dikin [4].
Çerxa jiyana daneyan, gav bi gav 🔁
-
Biryarê diyar bike - model dê çi biryar bide, û ger xelet be çi dibe.
-
Taybetmendî û etîketên çarçoveyê - pîvanbar, çavdêrîkirî, berhevkirina exlaqî.
-
Agahiyên çavkaniyê - amûr, tomar, anket, korporasyonên giştî, hevkar.
-
Razîbûn û yasayî - agahdariyên nepenîtiyê, redkirin, kêmkirina daneyan. Ji bo "çima" û "çawa" rêbernameya rêziknameyê bibînin [4].
-
Berhevkirin û hilanîn - hilanîna ewle, gihîştina li ser bingeha rolê, birêvebirina PII.
-
Etîket - şîrovekarên navxweyî, crowdsourcing, pispor; bi peywirên zêrîn, denetim û metrîkên peymanê kalîteyê birêve bibin.
-
Paqijkirin û normalîzekirin - rakirina duplikan, çareserkirina kêmasiyan, standardîzekirina yekîneyan, sererastkirina kodkirinê. Karekî bêzar û qehremanî.
-
Parçekirin û piştrastkirin - rê li ber rijandinê bigirin; li cihê ku pêwîst be, dabeş bikin; ji bo daneyên demkî dabeşkirinên bi demê ve girêdayî tercîh bikin; û ji bo texmînên saxlem piştrastkirina xaçerê bi baldarî bikar bînin [5].
-
Belge - pelê daneyan an karta daneyan; karanîna armanckirî, hişyarî, sînorkirin [1].
-
Çavdêrîkirin û nûvekirin - tespîtkirina guherînê, kadansa nûvekirinê, planên bidawîbûnê. RMF-ya AI ya NIST-ê vê xeleka rêveberiyê ya berdewam çarçove dike [3].
Serişteyek bilez û bi şiklê cîhana rastîn: tîm pir caran "demo qezenc dikin" lê di hilberînê de têk diçin ji ber ku daneyên wan bi bêdengî diguherin - rêzikên hilberên nû, zeviyek ji nû ve hatî guhertin, an jî polîtîkayek guhertî. Guhertinek hêsan + derbasbûnek ji nû ve şîrovekirina periyodîk piraniya wê êşê dûr dixe.
Kalîteya daneyan û nirxandin - ne ew qas bêzar e ku xuya dike 🧪
Kalîte piralî ye:
-
Rastbûn - etîket rast in? Metrîkên peymanê û nirxandina periyodîk bikar bînin.
-
Temamî - qad û dersên ku hûn bi rastî hewce ne veşêrin.
-
Lihevhatî - ji etîketên nakok ji bo têketinên wekhev dûr bisekinin.
-
Di wextê xwe de - daneyên kevn texmînan fosîl dikin.
-
Dadperwerî û alîgirî - berfirehî li seranserê demografîk, ziman, amûr, jîngeh; bi vekolînên danasînê dest pê bikin, dûv re testên stresê. Pratîkên ku pêşî belgekirinê digirin (pelên daneyan, kartên modelê) van kontrolên xuya dikin [1], û çarçoveyên rêveberiyê wan wekî kontrolên rîskê tekez dikin [3].
Ji bo nirxandina modelê, dabeşkirinên guncaw û hem metrîkên navînî û hem jî metrîkên koma herî xirab bişopînin. Navînîyek geş dikare kraterek veşêre. Bingehên pejirandina xaçerê di belgeyên amûrên ML-ê yên standard de baş hatine vegotin [5].
Exlaq, nepenî, û lîsans - parastinên 🛡️
Daneyên etîkî ne vibeyek e, ew pêvajoyek e:
-
Razîbûn û sînordarkirina armancê - di derbarê karanîn û bingehên qanûnî de eşkere bin [4].
-
Birêvebirina PII - li gorî guncaw kêm bike, navên din bike, an jî anonîm bike; dema ku xetere zêde bin, teknolojiya zêdekirina nepenîtiyê bifikirin.
-
Wesfkirin û lîsans - rêz li sînorkirinên parvekirina wekhev û karanîna bazirganî bigirin.
-
Pêşdarazî û zirar - vekolîna têkiliyên sexte ("ronahiya rojê = ewle" dê bi şev pir tevlihev be).
-
Çareserkirin - bizanin ka meriv çawa daneyan li ser daxwazê jê dibe û çawa modelên ku li ser wan hatine perwerdekirin vedigerîne (vê yekê di pelê daneya xwe de belge bike) [1].
Çiqas mezin têra xwe mezin e? Mezinahî û têkiliya sînyal-bi-deng 📏
Qaîdeya giştî: eger têkildar bin û ne dubare bin, bi gelemperî alîkar in. Lê carinan hûn bi kêmtir, paqijtir û bi etîketên çêtir ji çiyayên nimûneyên tevlihev çêtir in.
Li bendê bin:
-
Xêzên fêrbûnê - performans li hember mezinahiya nimûneyê xêz bikin da ku bibînin ka hûn bi daneyan ve girêdayî ne an jî bi modelê ve girêdayî ne.
-
Vegirtina dûvikdirêj - çînên kêm lê krîtîk pir caran hewceyê berhevkirina armanckirî ne, ne tenê girseyîtir.
-
Dengê etîket bike - bipîve, paşê kêm bike; hindik tehemûlkirî ye, pêla gelawê nayê.
-
Guhertina belavkirinê - daneyên perwerdeyê ji herêmek an kanalek dibe ku ji bo herêmek an kanalek din neyên giştîkirin; li ser daneyên ceribandinê yên mîna hedefê piştrast bikin [5].
Dema ku di gumanê de bî, pîlotên piçûk bixebitîne û berfireh bike. Ew mîna biharatkirinê ye - lê zêde bike, tam bike, sererast bike, dubare bike.
Li ku derê setên daneyan bibînin û birêve bibin 🗂️
Çavkanî û amûrên populer (niha ne hewce ye ku URL-an jiber bikin):
-
Setên Daneyên Rûyê Hembêzkirinê - barkirin, pêvajo, parvekirina bernamekirî.
-
Lêgerîna Daneyên Google - meta-lêgerîn li seranserê webê.
-
UCI ML Repository - klasîkên ku ji bo xalên bingehîn û hînkirinê hatine hilbijartin.
-
OpenML - peywir + setên daneyan + xebitandin bi eslê xwe.
-
AWS Open Data / Google Cloud Public Datasets - korporasyonên mêvandarkirî, di pîvana mezin de.
Serişteya pispor: tenê dakêşanê neke. Lîsans û pelê daneyan bixwîne , dû re kopiya xwe bi hejmarên guhertoyê û çavkaniya wê belge bike [1].
Etîketkirin û şîrovekirin - cihê ku rastî tê danûstandin ✍️
Têbînî ew cih e ku rêbernameya we ya etîketa teorîk bi rastiyê re têkoşîn dike:
-
Şêwekirina peywirê - rêwerzên zelal bi mînak û mînakên dijber binivîsin.
-
Perwerdehiya şîrovekaran - bersivên zêrîn bi tov belav bikin, dorhêlên kalibrkirinê bimeşînin.
-
Kontrolkirina kalîteyê - metrîkên peymanê, mekanîzmayên lihevkirinê, û denetimên periyodîk bikar bînin.
-
Amûrkirin - amûrên ku rêzên pejirandina şemayê û nirxandinê bicîh tînin hilbijêrin; tewra tabloyên hesaban jî dikarin bi rêgez û kontrolan re bixebitin.
-
Xalên bersivdayînê - notên şîrovekaran bigirin û xeletiyên model bikin da ku rêbernameyê baştir bikin.
Eger ew mîna sererastkirina ferhengekê bi sê hevalên ku li ser viraştan li hev nakin hîs bike… ev normal e. 🙃
Belgekirina daneyan - eşkerekirina zanîna nepenî 📒
Pelgeyeke daneyê ya sivik an qerta daneyê divê van tiştan vehewîne:
-
Kê, çawa û çima berhev kiriye.
-
Bikaranînên armanckirî û karanînên ji derveyî çarçovê.
-
Valahî, xeletî, û modên têkçûnê yên naskirî.
-
Protokola etîketkirinê, gavên QA, û statîstîkên peymanê.
-
Lîsans, razîbûn, têkilî ji bo pirsgirêkan, pêvajoya rakirinê.
Şablon û mînak: Pelên daneyan ji bo Setên Daneyan û Kartên Modelê xalên destpêkê yên bi berfirehî têne bikar anîn [1].
Dema ku hûn ava dikin binivîsin, ne piştî. Bîr medyayek hilanînê ya neqeliş e.
Tabloya Berawirdkirinê - cihên dîtin an jî mazûvaniya setên daneyên AI 📊
Belê, ev hinekî ramanwer e. Û gotin bi zanebûn hinekî ne yekreng e. Baş e.
| Amûr / Depo | Binêrevan | Biha | Çima ew di pratîkê de dixebite |
|---|---|---|---|
| Setên Daneyên Rûyê Hembêzkirinê | Lêkolîner, endezyar | Asta azad | Barkirina bilez, weşana zindî, skrîptên civakî; belgeyên hêja; setên daneyên guhertoyî |
| Lêgerîna Daneyên Google | Her kes | Belaş | Rûbera fireh; ji bo kifşkirinê pir baş e; carinan metadata nelihevhatî ye jî |
| Depoya UCI ML | Xwendekar, perwerdekar | Belaş | Klasîkên bijartî; piçûk lê rêkûpêk; ji bo xetên bingehîn û hînkirinê baş e |
| OpenML | Lêkolînerên repro | Belaş | Kar + setên daneyan + xebitandin bi hev re; şopên çavkanî yên xweş |
| Qeyda Daneyên Vekirî ya AWS | Endezyarên daneyan | Bi piranî belaş | Hosting li gorî asta Petabyte; gihîştina ewr-native; lêçûnên derketina demjimêrê |
| Setên Daneyên Kaggle | Pratîsyen | Belaş | Parvekirina hêsan, senaryo, pêşbirk; sînyalên civakê dibin alîkar ku deng were fîltrekirin |
| Setên Daneyên Giştî yên Google Cloud | Analîst, tîm | Belaş + ewr | Nêzîkî hesabkirinê tê mêvandarkirin; Entegrasyona BigQuery; bi baldariyî li ser fatûreyê |
| Portalên akademîk, laboratuar | Pisporên nişê | Diguhere | Pir pispor; carinan kêm belgekirî - hîn jî hêjayî nêçîrê ye |
(Heke şaneyek sohbetbar xuya bike, ev bi mebest e.)
Avakirina ya xwe ya yekem - kîteke destpêkê ya pratîkî 🛠️
Hûn dixwazin ji "daneya AI çi ye" ber bi "Min yek çêkir, ew dixebite" ve biçin. Vê rêya herî kêm biceribînin:
-
Biryar û pîvanê binivîse - mînakî, bi pêşbînîkirina tîmê rast, rêyên xelet ên piştgiriyê kêm bike. Pîvan: makro-F1.
-
5 mînakên erênî û 5 mînakên neyînî rêz bike - bilêtên rastîn nimûne bike; çêneke.
-
Rêbernameyek ji bo etîketê amade bike - yek rûpel; qaîdeyên têketin/derxistinê yên eşkere.
-
Nimûneyek piçûk û rastîn berhev bikin - çend sed bilêt li seranserê kategoriyan; agahiyên şexsî yên ku hûn ne hewce ne derxînin.
-
Bi kontrolên rijandinê veqetînin - hemû peyamên ji heman xerîdar di yek dabeşkirinê de bihêlin; ji bo texmînkirina guherînê pejirandina xaçerêyî bikar bînin [5].
-
Bi QA re şîroveyan binivîse - du şîrovekar li ser komekê; nakokiyan çareser bike; rêbernameyê nûve bike.
-
Xaleke bingehîn a hêsan perwerde bikin - pêşî lojîstîk (mînak, modelên xêzik an veguherînerên kompakt). Mebest ceribandina daneyan e, ne qezenckirina madalyayan e.
-
Xeletiyên binirxînin - li ku derê têk diçe û çima; daneya xwe nûve bikin, ne tenê modelê.
-
Belge - pelê daneyê yê piçûk: çavkanî, girêdana rêbernameya etîketê, dabeşkirin, sînorên naskirî, lîsans [1].
-
Plana nûjenkirinê - kategoriyên nû, zargotinên nû, domainên nû tên; nûvekirinên piçûk û pir caran plansaz bike [3].
Tu dê ji vê lûpê bêtir ji hezar girtinan fêr bibî. Her wiha, kopiyên hilanînê bihêle. Ji kerema xwe.
Xefikên hevpar ên ku li ser tîman derdikevin 🪤
-
Rizandina daneyan - bersiv dikeve nav taybetmendiyan (mînak, karanîna qadên piştî çareseriyê ji bo pêşbînîkirina encaman). Wekî xapandinê hîs dibe ji ber ku ew wusa ye.
-
Cûrbecûrî kêm e - erdnîgarî an amûrek wekî cîhanî xuya dike. Ceribandin dê zivirîna çîrokê eşkere bikin.
-
Guherîna etîketê - pîvan bi demê re diguherin lê rêbernameya etîketê naguhere. Ontolojiya xwe belge bike û guherto bike.
-
Armancên kêm-diyar - heke hûn nekarin pêşbîniyek xirab diyar bikin, daneyên we jî wê nekarin.
-
Lîsansên bêserûber - niha paqijkirin, paşê lêborîn xwestin, ne stratejiyek e.
-
Zêdekirina zêde - daneyên sentetîk ên ku artefaktên nerealîst fêr dikin, mîna perwerdekirina aşpêjekî li ser fêkiyên plastîk.
Pirsên Pir tên Pirsîn (FAQs) ên Bilez derbarê hevokê de ❓
-
Ma "Daneyên AI çi ne?" tenê mijarek pênaseyê ye? Bi piranî, lê ew di heman demê de nîşanek e ku hûn xema perçeyên bêzar ên ku modelan pêbawer dikin dixwin.
-
Gelo ez her tim hewceyê etîketan im? Na. Sazkirinên bêçavdêrî, xwe-çavdêrî, û RL pir caran etîketên eşkere derbas dikin, lê kursîkirin hîn jî girîng e.
-
Ma ez dikarim daneyên giştî ji bo her tiştî bikar bînim? Na. Rêz li lîsansan, şertên platformê û erkên nepenîtiyê bigirin [4].
-
Mezintir an çêtir? Bi awayekî îdeal herdu jî. Ger divê hûn hilbijêrin, pêşî çêtir hilbijêrin.
Têbînîyên Dawî - Hûn dikarin çi dîmenderê bigirin 📌
Ger kesek ji we bipirse ka komek daneyên AI çi ne , bibêjin: ew berhevokek mînakên kurkirî û belgekirî ye ku modelek fêr dike û diceribîne, di rêveberiyê de pêçayî ye da ku mirov bikaribin baweriya xwe bi encaman bînin. Çêtirîn komên daneyan temsîlkar, baş nîşankirî, ji hêla qanûnî ve paqij û bi berdewamî têne parastin. Ya mayî hûrgulî ne - hûrguliyên girîng - li ser avahî, dabeşkirin û hemî wan parastinên piçûk ên ku nahêlin model di trafîkê de bigerin. Carinan pêvajo wekî baxçevaniyê bi pelên hesaban re hîs dike; carinan jî wekî komkirina pîkselan. Çi dibe bila bibe, li daneyan veberhênan bikin, û modelên we dê kêmtir ecêb tevbigerin. 🌱🤖
Referans
[1] Pelên Daneyan ji bo Setên Daneyan - Gebru et al., arXiv. Girêdan
[2] Kartên Modelê ji bo Raporkirina Modelê - Mitchell et al., arXiv. Girêdan
[3] Çarçoveya Rêvebiriya Rîska Zekaya Sûni ya NIST (AI RMF 1.0) . Girêdan
[4] Rêbername û çavkaniyên GDPR-ya Keyaniya Yekbûyî - Ofîsa Komîserê Agahdariyê (ICO). Girêdan
[5] Pejirandina xaçerê: nirxandina performansa texmînker - Rêbernameya Bikarhêner a scikit-learn. Girêdan