„Databricks“ parduoda „Databricks“ duomenų intelekto platformą – debesijos pagrindu veikiančią platformą, skirtą padėti įmonėms valdyti ir analizuoti didelius duomenų rinkinius, kurti duomenų srautus [1], kurti ir diegti mašininio mokymosi modelius bei kurti dirbtiniu intelektu pagrįstas programas.
Štai, „Databricks“ parduodamų, produktų ir paslaugų analizė:
„Databricks Lakehouse“ platforma: ji sujungia duomenų ežero mastelio keitimą ir ekonomiškumą su duomenų saugyklos duomenų valdymo ir ACID operacijų galimybėmis [2]. Ji suteikia vieningą pagrindą įvairiems duomenų darbo krūviams, įskaitant duomenų saugyklas, duomenų inžineriją ir mašininį mokymąsi.
Duomenų intelekto variklis: veikiantis „Lakehouse“ architektūros ir generatyvaus dirbtinio intelekto pagrindu, duomenų intelekto variklis supranta unikalią įmonės duomenų semantiką, kad automatiškai optimizuotų našumą ir valdytų infrastruktūrą. Jis taip pat supaprastina naudotojo patirtį, įgalindamas, natūralia kalba pagrįstą, duomenų paiešką ir atradimą, ir teikia natūralios kalbos pagalbą kodo rašymui, klaidų šalinimui ir dokumentacijos naršymui.
Duomenų inžinerija: „Databricks“ teikia įrankius efektyviems ir keičiamo dydžio ETL (išgavimo, transformavimo, įkėlimo) srautams kurti, kad būtų galima paruošti duomenis analizei ir mašininiam mokymuisi. Tai apima tokius įrankius, kaip „Lakeflow“ deklaratyvūs srautai ir automatinis įkėlimas, skirti duomenų įkėlimui ir apdorojimui supaprastinti.
Mašininis mokymasis ir dirbtinis intelektas: platforma siūlo įrankių rinkinį duomenų mokslininkams ir mašininio mokymosi inžinieriams, kad būtų galima supaprastinti visą mašininio mokymosi gyvavimo ciklą – nuo duomenų paruošimo ir modelio kūrimo iki diegimo ir stebėjimo. Tai apima funkcijas, skirtas didelių kalbos modelių (LLM) ir generatyvinių dirbtinio intelekto programų kūrimui ir pritaikymui.
„Databricks SQL“: tai serverių neturinti duomenų saugykla, sukurta „Databricks Lakehouse“ platformoje, leidžianti vartotojams vykdyti SQL užklausas ir verslo analitikos programas dideliu mastu, užtikrinant optimalų našumą ir vieningą valdymą.
„Delta Sharing“: „Databricks“ sukurtas atviras protokolas, skirtas saugiai bendrinti duomenis su kitomis organizacijomis, nepriklausomai nuo jų skaičiavimo platformos, skatinant bendradarbiavimą ir vengiant priklausomybės nuo tiekėjo.
„Databricks Marketplace“: atvira prekyvietė, kurioje vartotojai gali atrasti, įvertinti ir pasiekti duomenų rinkinius ir analitinius išteklius iš išorinių tiekėjų, įskaitant iš anksto sukurtus mašininio mokymosi modelius, užrašines, programas ir ataskaitų suvestines.
Iš esmės „Databricks“ siekia suteikti organizacijoms vieningą platformą, skirtą valdyti savo duomenis, juos analizuoti ir kurti bei diegti dirbtinio intelekto programas, kad būtų galima gauti įžvalgų ir skatinti inovacijas.
„Duomenų analizės programinės įrangos bendrovė „Databricks“ baigia finansavimo etapą, kurio vertė siekia 100 mlrd. JAV dolerių – 61 % daugiau, nei paskutinis finansavimo etapas gruodžio mėnesį.
Pasak su šiuo klausimu susipažinusių šaltinių, naujajam finansavimo etapui kartu vadovaus „Thrive Capital“, „Insight Partners“ ir „WCM Investment Management“. Pasak šaltinių, „Andreessen Horowitz“ taip pat planuoja investuoti į bendrovę.
Papildomi investuotojai ir kita informacija, įskaitant finansavimo etapo dydį, dar nepaskelbta.
„Databricks“, parduodanti programinę įrangą, padedančią įmonėms pasiekti ir analizuoti duomenų rinkinius, sparčiai augo dėl dirbtinio intelekto bumo. Duomenų mokslininkai jos klientų įmonėse naudoja jos programinę įrangą dideliems surinktos informacijos kiekiams analizuoti.
Pavyzdžiui, „Adidas“ naudoja „Databricks“, kad analizuotų milijonų klientų atsiliepimų nuotaikas, kurias ji naudoja savo produktams tobulinti.
Šiais metais bendrovė paskelbė apie naujas partnerystes su „Palantir“ ir SAP, kurios leidžia šioms programinės įrangos įmonėms sujungti savo duomenis su „Databricks“ ir pasiūlyti savo bendriems klientams turtingesnes įžvalgos paslaugas.
„Databricks“ investuos dalį naujų lėšų į produktų kūrimą, įskaitant duomenų bazių, skirtų dirbtinio intelekto agentams, o ne žmonėms, kūrimą.
„Databricks“ generalinis direktorius Ali Ghodsi teigė, kad kapitalo įliejimas taip pat bus naudojamas, siekiant neatsilikti nuo dirbtinio intelekto talentų karų.
Bendrovė, kurioje dirba beveik 9000 darbuotojų, teigė, kad metus baigs, pritraukusi 3000 darbuotojų.
„Databricks“ neplanavo taip greitai vėl pritraukti lėšų, sakė Ghodsi.
Tačiau investuotojai kasdien kreipiasi į Ghodsi, klausdami, ar jie gali investuoti pinigų, sakė jis.
„Prieš du mėnesius taip nebuvo, bet pastarąjį mėnesį tai tiesiog buvo nuolat“, – sakė jis.
Investuotojai nori pirkti vėlyvos stadijos, privačių įmonių akcijas po pastarųjų epizodų, įskaitant „Figma“ pirminį viešą siūlymą ir „Palantir“ akcijų kainų kilimą, sakė Ghodsi.
Nepaisant Volstrito apetito viskam, kas susiję su dirbtiniu intelektu, šis finansavimo etapas leis bendrovei atidėti savo IPO planus. „Finansų komanda man patarė nevartoti šio termino, bet manau, kad „Databricks“ turi šansą tapti trilijono dolerių vertės įmone“, – sakė Ghodsi. „Tačiau mūsų laukia daug darbo, kad tai pasiektume.“ [3]
1. Duomenų srautas – tai sistema, automatizuojanti duomenų perkėlimo ir transformavimo iš vieno ar kelių šaltinių į paskirties vietą procesą, paprastai skirtą analizei ar kitam verslo naudojimui. Tai apima duomenų įkėlimą, apdorojimą ir pateikimą, dažnai su transformacijomis, siekiant užtikrinti, kad duomenys būtų tinkamo naudoti formatu. Duomenų srautai yra labai svarbūs šiuolaikinėms duomenimis pagrįstoms organizacijoms, nes jie leidžia efektyviai integruoti duomenis, sumažinti rankinį darbą ir pagreitinti prieigą prie vertingų įžvalgų.
Pagrindinės sąvokos:
Šaltiniai:
Iš kur gaunami duomenys, pvz., duomenų bazės, debesijos platformos arba išoriniai šaltiniai.
Transformacijos:
Duomenų modifikacijos, įskaitant valymą, filtravimą, agregavimą ir praturtinimą.
Paskirties vietos:
Kur saugomi apdoroti duomenys, pvz., duomenų saugyklos, duomenų ežerai arba kitos sistemos.
Duomenų srautų privalumai:
Automatizavimas:
Automatizuoja duomenų judėjimą ir transformavimą, sumažina rankinį darbą ir galimas klaidas.
Duomenų kokybė:
Pagerina duomenų kokybę, taikant valymo, standartizavimo ir patvirtinimo procesus.
Efektyvumas:
Supaprastina duomenų integravimą ir prieigą, todėl lengviau gauti įžvalgų iš duomenų.
Mastelio keitimas:
Leidžia organizacijoms tvarkyti didelius duomenų kiekius ir sudėtingus apdorojimo reikalavimus.
Sumažintas duomenų silosų skaičius:
Sujungia duomenis iš skirtingų šaltinių, panaikina informacijos silosus ir skatina bendradarbiavimą.
Greitesnės įžvalgos:
Suteikia greitesnę prieigą prie duomenų analizei, ataskaitoms ir sprendimų priėmimui.
Duomenų srautų tipai:
Paketinis apdorojimas: Apdoroja duomenis didelėmis partijomis suplanuotais intervalais.
Apdorojimas realiuoju laiku: Apdoroja duomenis, kai jie gaunami, taip įgalinant beveik realiuoju laiku atliekamą analizę ir įžvalgas.
Duomenų srautų naudojimo atvejų pavyzdžiai:
Duomenų saugyklos: Duomenų perkėlimas iš įvairių šaltinių į centrinę duomenų saugyklą verslo analitikai ir ataskaitoms.
Mašininis mokymasis: Duomenų paruošimas mašininio mokymosi modelių mokymui.
Analizė realiuoju laiku: Duomenų iš daiktų interneto įrenginių apdorojimas, siekiant stebėti ir analizuoti realaus laiko įvykius.
El. prekyba: Duomenų iš internetinių pardavimų, klientų sąveikos ir atsargų valdymo sistemų integravimas.
Iš esmės duomenų srautai yra šiuolaikinės duomenų infrastruktūros pagrindas, leidžiantis organizacijoms panaudoti savo duomenų galią įvairiems verslo tikslams.
2. Duomenų saugyklos naudoja ACID (atomiškumo, nuoseklumo, izoliacijos, patvarumo) savybes, kad užtikrintų duomenų vientisumą ir patikimumą operacijų metu, ypač atliekant sudėtingą analitinį apdorojimą. Šios savybės garantuoja, kad duomenų modifikacijos apdorojamos, kaip vienas „viskas arba nieko“ vienetas, išlaikant duomenų nuoseklumą, užkertant kelią vienu metu vykdomų operacijų trukdžiams ir užtikrinant, kad pakeitimai būtų nuolat saugomi.
Išsamiau:
Atomiškumas:
Užtikrina, kad operacija laikoma vienu darbo vienetu. Jei kuri nors operacijos dalis nepavyksta, visa operacija atšaukiama, užkertant kelią daliniams atnaujinimams ir išlaikant duomenų nuoseklumą.
Nuoseklumas:
Garantuoja, kad bet kuri operacija perkels duomenų bazę iš vienos galiojančios būsenos į kitą. Užtikrina, kad duomenų modifikacijos atitiktų apibrėžtas taisykles ir apribojimus, išlaikant duomenų vientisumą.
Izoliacija:
Suteikia mechanizmą, skirtą izoliuoti, vienu metu vykdomas, operacijas, užkertant kelią jų trukdymui viena kitai. Skirtingi izoliacijos lygiai (pvz., serializuojamas, kartojamas skaitymas, skaitymo patvirtinimas) kontroliuoja, kiek operacijos gali matyti viena kitos pakeitimus.
Patvarumas:
Užtikrina, kad įvykdžius operaciją, pakeitimai yra visam laikui saugomi ir išliks po sistemos gedimų. Tai paprastai pasiekiama, įrašant duomenis į nuolatinę saugyklą.
ACID duomenų saugyklose:
Duomenų vientisumas:
Duomenų saugyklose analitiniais tikslais saugomi dideli duomenų kiekiai. ACID operacijos yra labai svarbios, norint išlaikyti duomenų vientisumą sudėtingų ETL (išgavimo, transformavimo, įkėlimo) procesų metu, kai duomenys iš kelių šaltinių yra sujungiami ir transformuojami.
Lygiagreti prieiga:
Duomenų saugyklas dažnai vienu metu pasiekia keli vartotojai ir programos. ACID savybės užtikrina, kad vienu metu vykdomos operacijos nesukeltų duomenų neatitikimų ar klaidų.
Sudėtingos operacijos:
Duomenų saugyklos apima sudėtingas operacijas, tokias, kaip agregavimas, sujungimas ir skaičiavimai. ACID operacijos padeda užtikrinti, kad šios operacijos būtų vykdomos patikimai ir kad duomenys išliktų nuoseklūs.
„Delta Lake“ ir atvirų lentelių formatai:
Atvirų lentelių formatai, tokie, kaip „Delta Lake“, „Apache Hudi“ ir „Apache Iceberg“, perkėlė ACID operacijas į duomenų saugyklas, leisdami joms veikti labiau, kaip duomenų saugykloms su patikimomis operacijų galimybėmis.
„Lakehouse“ architektūra:
„Lakehouse“ sujungia duomenų saugyklų lankstumą su duomenų saugyklų operacijų galimybėmis, siūlydamos vieningą platformą tiek saugojimui, tiek analizei. ACID operacijos yra pagrindinis šios architektūros komponentas, užtikrinantis duomenų nuoseklumą ir patikimumą „Lakehouse“ saugykloje.
Pavyzdys:
Apsvarstykite duomenų saugyklą, naudojamą finansinėms ataskaitoms. ACID operacijos užtikrina, kad įkėlus operacijų iš skirtingų šaltinių paketą, jos būtų arba visiškai apdorotos, arba atšauktos, taip išvengiant neatitikimų finansinėse ataskaitose.
Komentarų nėra:
Rašyti komentarą