Moenie toelaat dat berging die sleutelbottelnek in modelopleiding word nie

Daar word gesê dat tegnologiemaatskappye óf soek vir GPU's óf op pad is om dit aan te skaf. In April het Elon Musk, uitvoerende hoof van Tesla, 10 000 GPU's gekoop en gesê dat die maatskappy sal voortgaan om 'n groot hoeveelheid GPU's van NVIDIA te koop. Aan die ondernemingskant druk IT-personeel ook hard om te verseker dat GPU's voortdurend gebruik word om opbrengs op belegging te maksimeer. Sommige maatskappye kan egter vind dat terwyl die aantal GPU's toeneem, GPU-ledigheid erger word.

As die geskiedenis ons enigiets oor hoëprestasie-rekenaarkunde (HPC) geleer het, is dit dat berging en netwerking nie opgeoffer moet word ten koste daarvan om te veel op berekening te fokus nie. As berging nie data doeltreffend na die rekenaareenhede kan oordra nie, selfs al het jy die meeste GPU's ter wêreld, sal jy nie optimale doeltreffendheid bereik nie.

Volgens Mike Matchett, 'n ontleder by Small World Big Data, kan kleiner modelle in geheue (RAM) uitgevoer word, wat meer fokus op berekening moontlik maak. Groter modelle soos ChatGPT met miljarde nodusse kan egter nie in die geheue gestoor word nie weens die hoë koste.

"Jy kan nie miljarde nodusse in die geheue pas nie, so berging word selfs belangriker," sê Matchett. Ongelukkig word databerging dikwels tydens die beplanningsproses oor die hoof gesien.

In die algemeen, ongeag die gebruiksgeval, is daar vier algemene punte in die modelopleidingsproses:

1. Modelopleiding
2. Afleidingstoepassing
3. Databerging
4. Versnelde berekening

Wanneer modelle geskep en ontplooi word, prioritiseer die meeste vereistes vinnige bewys-van-konsep (POC) of toetsomgewings om modelopleiding te begin, met databergingsbehoeftes wat nie die hoogste oorweging gegee word nie.

Die uitdaging lê egter in die feit dat opleiding of inferensie-ontplooiing maande of selfs jare kan duur. Baie maatskappye skaal vinnig hul modelgroottes gedurende hierdie tyd op, en die infrastruktuur moet uitbrei om die groeiende modelle en datastelle te akkommodeer.

Navorsing van Google oor miljoene ML-opleidingswerkladings toon dat gemiddeld 30% van opleidingstyd aan die insetdatapyplyn bestee word. Terwyl vorige navorsing gefokus het op die optimalisering van GPU's om opleiding te bespoedig, bly daar steeds baie uitdagings in die optimalisering van verskillende dele van die datapyplyn. Wanneer jy beduidende rekenkrag het, word die werklike knelpunt hoe vinnig jy data in die berekeninge kan voer om resultate te kry.

Spesifiek, die uitdagings in databerging en -bestuur vereis beplanning vir datagroei, wat jou in staat stel om voortdurend die waarde van data te onttrek soos jy vorder, veral wanneer jy meer gevorderde gebruiksgevalle soos diep leer en neurale netwerke aandurf, wat hoër eise stel aan berging in terme van kapasiteit, werkverrigting en skaalbaarheid.

In die besonder:

Skaalbaarheid
Masjienleer vereis die hantering van groot hoeveelhede data, en namate die volume data toeneem, verbeter die akkuraatheid van modelle ook. Dit beteken dat besighede elke dag meer data moet insamel en stoor. Wanneer berging nie kan skaal nie, skep data-intensiewe werkladings knelpunte, wat werkverrigting beperk en lei tot duur GPU ledige tyd.

Buigsaamheid
Buigsame ondersteuning vir veelvuldige protokolle (insluitend NFS, SMB, HTTP, FTP, HDFS en S3) is nodig om aan die behoeftes van verskillende stelsels te voldoen, eerder as om beperk te word tot 'n enkele tipe omgewing.

Latency
I/O latency is van kritieke belang vir die bou en gebruik van modelle, aangesien data verskeie kere gelees en herlees word. Die vermindering van I/O latency kan die opleidingstyd van modelle met dae of maande verkort. Vinniger modelontwikkeling lei direk tot groter besigheidsvoordele.

Deurset
Die deurset van bergingstelsels is deurslaggewend vir doeltreffende modelopleiding. Opleidingsprosesse behels groot hoeveelhede data, tipies in teragrepe per uur.

Parallelle toegang
Om hoë deurset te bereik, verdeel opleidingsmodelle aktiwiteite in verskeie parallelle take. Dit beteken dikwels dat masjienleeralgoritmes gelyktydig toegang tot dieselfde lêers vanaf verskeie prosesse (moontlik op verskeie fisiese bedieners) verkry. Die bergingstelsel moet gelyktydige eise hanteer sonder om prestasie in te boet.

Met sy uitstaande vermoëns in lae latensie, hoë deurset en grootskaalse parallelle I/O, is Dell PowerScale 'n ideale bergingsaanvulling tot GPU-versnelde rekenaars. PowerScale verminder effektief die tyd wat benodig word vir ontledingsmodelle wat multi-teragreep-datastelle oplei en toets. In PowerScale all-flash berging, verhoog bandwydte met 18 keer, wat I/O-bottelnekke uitskakel, en kan by bestaande Isilon-klusters gevoeg word om die waarde van groot hoeveelhede ongestruktureerde data te versnel en te ontsluit.

Boonop bied PowerScale se multi-protokol toegang vermoëns onbeperkte buigsaamheid vir die uitvoer van werkladings, sodat data gestoor kan word met een protokol en toegang verkry word deur 'n ander. Spesifiek, die kragtige kenmerke, buigsaamheid, skaalbaarheid en ondernemingsgraadfunksionaliteit van die PowerScale-platform help om die volgende uitdagings aan te spreek:

- Versnel innovasie met tot 2,7 keer, wat die modelopleidingsiklus verminder.

- Elimineer I/O-bottelnekke en verskaf vinniger modelopleiding en validering, verbeterde modelakkuraatheid, verbeterde datawetenskapproduktiwiteit en maksimum opbrengs op rekenaarbeleggings deur ondernemingsgraadkenmerke, hoë werkverrigting, gelyktydigheid en skaalbaarheid te benut. Verbeter modelakkuraatheid met dieper datastelle met hoër resolusie deur tot 119 PB se effektiewe bergingskapasiteit in 'n enkele groep te benut.

- Bereik ontplooiing op skaal deur klein en onafhanklike skaal van rekenaar en berging te begin, wat robuuste databeskerming en sekuriteitsopsies lewer.

- Verbeter datawetenskapproduktiwiteit met in-plek analise en vooraf-gevalideerde oplossings vir vinniger, laerisiko-ontplooiings.

- Gebruik bewese ontwerpe gebaseer op die beste tegnologieë, insluitend NVIDIA GPU-versnelling en verwysingsargitekture met NVIDIA DGX-stelsels. PowerScale se hoë werkverrigting en gelyktydigheid voldoen aan die bergingswerkverrigtingvereistes in elke stadium van masjienleer, van data-verkryging en voorbereiding tot modelopleiding en afleiding. Saam met die OneFS-bedryfstelsel kan alle nodusse naatloos binne dieselfde OneFS-gedrewe groepering werk, met ondernemingsvlakkenmerke soos prestasiebestuur, databestuur, sekuriteit en databeskerming, wat vinniger voltooiing van modelopleiding en validering vir besighede moontlik maak.


Postyd: Jul-03-2023