V decembri 2022 Open AI predstavila verejnosti ChatGPT a nakoniec nás uviedla do novej éry – technologickej, ekonomickej a spoločenskej paradigmy. Hoci neurónové siete a LLM (Large Language Model) nie sú novinkou a pokiaľ ide o akademickú sféru a výskum, sú tu už desaťročia, predstavenie ChatGPT a teraz aj GPT-4 verejnosti prekvapilo všetkých mimo týchto oblastí. A vlastne aj samotní tvorcovia sú každý deň prekvapení možnosťami tejto novej technológie.
Práve som si pozrel túto prednášku TED od samotného Raya Kurzweila, ktorá bola nahraná pred 8 rokmi. Nielenže so 100 % presnosťou predpovedal technológie ChatGPT, Bing a Bard, ktoré práve zažívame, ale predpovedal aj pokrok nanobotov, ktoré môžeme implementovať do našich tiel na rôzne účely. Pričom jedným z nich je schopnosť nanobotov pripojiť sa ku cloudu a využívať ďalšie výpočtové zdroje a informácie ako má v súčasnosti mozog. Inými slovami, vaša myseľ by bola priamo napojená na ďalšie zdroje informácií a výpočtov, takže by ste nielen vedeli viac, ale aj rýchlejšie mysleli.
V konečnom dôsledku by to mohlo viesť k možnosti oddeliť naše telo od mysle, čím by sme dosiahli nesmrteľnosť, a to sa nazýva singularita. Takže hoci predpoveď o technológii LLM bola stopercentne presná, neviem posúdiť, ako ďaleko sme s nanobotmi, ale pokrok je jasný a zdá sa, že cesta, ktorú pred rokmi naznačil Ray Kurzweil, sa každým dňom viac a viac prelína s naším každodenným životom.
AGI je skratka pre Artificial General Intelligence, čo v preklade znamená “Obecná umelá inteligencia”. Osobne som tento termín počul prvýkrát v decembri, keď som počúval rozhovor Sama Altmana (generálneho riaditeľa Open AI). Našťastie je o niečo ľahšie uchopiteľný ako vyššie spomínaná singularita.
V súčasnej podobe máme k dispozícii obmedzené systémy AI – inteligencie, ktoré dokážu pracovať v rámci konkrétnej oblasti alebo s konkrétnymi nástrojmi. Napríklad AI, ktorá dokáže identifikovať mačky na obrázkoch alebo odporúčať filmy v akejkoľvek online streamovacej službe, ktorú používate. Tie sa v posledných rokoch rýchlo vyvíjajú, ale v zásade sú to stále obmedzené systémy. AGI by potom mala byť niečím, čo presahuje esenciálnu doménu, teda všeobecnou inteligenciou, vševediacou entitou, ktorá rozumie všetkému o spoločnosti, svete a vesmíre. A na tejto ceste sme aj my, najmä teraz so súčasnou technológiou LLM.
AGI je skratka pre Artificial General Intelligence, čo v preklade znamená “Obecná umelá inteligencia”. Osobne som tento termín počul prvýkrát v decembri, keď som počúval rozhovor Sama Altmana (generálneho riaditeľa Open AI). Našťastie je o niečo ľahšie uchopiteľný ako vyššie spomínaná singularita.
V súčasnej podobe máme k dispozícii obmedzené systémy AI – inteligencie, ktoré dokážu pracovať v rámci konkrétnej oblasti alebo s konkrétnymi nástrojmi. Napríklad AI, ktorá dokáže identifikovať mačky na obrázkoch alebo odporúčať filmy v akejkoľvek online streamovacej službe, ktorú používate. Tie sa v posledných rokoch rýchlo vyvíjajú, ale v zásade sú to stále obmedzené systémy. AGI by potom mala byť niečím, čo presahuje esenciálnu doménu, teda všeobecnou inteligenciou, vševediacou entitou, ktorá rozumie všetkému o spoločnosti, svete a vesmíre. A na tejto ceste sme aj my, najmä teraz so súčasnou technológiou LLM.
Prejdime od filozofie a hyperboly k praktickejšiemu prehľadu toho, v akom stave je súčasná umelá inteligencia, aké sú jej reálne možnosti a aké nástroje sú k dispozícii.
Prvým z nich je veľmi realistické deep fake video Toma Cruisa, ktoré sa objavilo približne pred dvoma alebo tromi rokmi. V tomto prípade sa vývojárom podarilo vytvoriť fotorealistického digitálneho avatara Toma Cruisa pomocou jeho snímok bez jeho účasti. Avatar bol bez problémov integrovaný do videa podľa naskriptovaného dialógu. Tento príklad demonštruje schopnosť vytvárať digitálne reprezentácie akejkoľvek osoby a manipulovať s nimi tak, aby vykonávali akúkoľvek požadovanú činnosť. Hoci si stvárnenie Toma Cruisa spočiatku vyžadovalo značné množstvo času a zdrojov, pokrok v technológii za posledných niekoľko rokov umožnil vytvárať presvedčivé digitálne repliky s oveľa menším množstvom zdrojov a oveľa vyššou rýchlosťou.
Ďalším príkladom je animácia modelu Meta Human v reálnom čase. Táto ukážka sa uskutočnila pred niekoľkými mesiacmi a prezentovali ju tvorcovia Unreal Engine, ktorý sa bežne používa vo videohrách. Počas prezentácie nahrala herečka na mobilný telefón krátke 10-sekundové video, v ktorom zobrazovala rôzne emócie. Toto video sa potom vložilo do softvéru umelej inteligencie, ktorý vygeneroval digitálnu repliku herečky na obrazovke. Digitálny avatar bezchybne kopíroval pohyby a výrazy herečky. Okrem toho technológia umožnila preniesť výrazy tváre na iný digitálny model, čím vznikla realistická a presvedčivá reprezentácia osoby, ktorá tieto činnosti v skutočnosti nikdy nevykonávala.
Navyše v súčasnosti existujú systémy umelej inteligencie, ktoré dokážu v reálnom čase upraviť vzhľad osoby počas živého vysielania. Zatiaľ čo obrázky upravené photoshopom sú už nejaký čas rozšírené, tieto systémy AI dokážu v reálnom čase meniť vzhľad a hlas človeka, takže je takmer nemožné rozlíšiť skutočný obsah od digitálne upraveného.
Posledným príkladom je koncept Alpha Persuade, o ktorom sa hovorilo v prezentácii „The AI Dilemma“. Alpha Persuade kombinuje dva prvky: schopnosť replikovať hlas človeka z päťsekundovej nahrávky a silu AlphaGo, umelej inteligencie vyvinutej spoločnosťou Google, ktorá sa zvládla dokonalo naučiť hrať hru Go simulovaním miliónov hier vo veľmi krátkom čase. Vďaka simulácii konverzácie s hlasom blízkej osoby má Alpha Persuade potenciál presvedčivo manipulovať jednotlivcov, aby vykonali činnosti, ktoré by bežne považovali za veľmi nepravdepodobné. Hoci Alpha Persuade nie je v súčasnosti dostupný verejnosti, teoretická možnosť ho použiť existuje už dnes.
Pri skúmaní platforiem ako YouTube, Google alebo dokonca nástrojov ako Bard a Bing môžete objaviť množstvo ďalších nástrojov umelej inteligencie, ktoré dokážu plniť pozoruhodné úlohy. Tieto nástroje sú určené pre rôzne oblasti a umožňujú používateľom manipulovať s videom, zvukom, prezentáciami, sociálnymi médiami, v podstate s akýmkoľvek digitálnym obsahom.
Jednou z obľúbených platforiem pre vývojárov je Hugging Face, ktorá ponúka ekosystém modelov AI určených na konkrétne účely. Hugging Face ponúka prístup k týmto modelom a možnosť použiť GPT API (poskytované OpenAPI) na vytváranie aplikácií. Hoci ChatGPT má stále určité výhody, v posledných mesiacoch sa objavili modely s otvoreným zdrojovým kódom, ktoré fungujú dosť podobne. Tento vývoj ukazuje, ako rýchlo celá oblasť napreduje.
GPT je skratka pre „Generative Pre-trained Transformer“, ktorá predstavuje základnú technológiu používanú vo veľkých jazykových modeloch.
Na druhej strane, ChatGPT sa konkrétne vzťahuje na model GPT, ktorý bol vycvičený na konverzáciách a inštrukciách na dokončenie textových výziev.
Pri vývoji aplikácií alebo využívaní jazykových modelov používatelia využívajú rozhranie API GPT a základný model GPT. Základný model GPT sa dá doladiť alebo vytrénovať na špecifických súboroch údajov podľa požiadaviek používateľa. Vďaka tomu už teraz vidíme niekoľko možností, ako poskytovať určité produkty alebo služby postavené na umelej inteligencii, ktoré sú k dispozícii zadarmo alebo za veľmi rozumný poplatok.
Zatiaľ čo mnohé agentúry a spoločnosti môžu skúmať všetky možnosti a spôsoby umelej inteligencie, my vo Webikone sa chceme zamerať predovšetkým na LLM, textové generatívne modely, ako je GPT, a postupne implementovať ich obrazové generatívne, ako aj zvukové možnosti (prevod reči na text/text na reč).
V prvom rade, GPT nám umožňuje jednoducho vytvoriť inteligentné vyhľadávanie na akejkoľvek webovej stránke. Pripravíme obsah a pomocou tzv. “embeddings”, resp. vložených prvkov, ktoré ponúka GPT API, môžeme obsah preložiť na vektory, ktoré majú skutočný sémantický význam.
Keď návštevník použije vyhľadávanie na webovej stránke, prevezmeme vstupný dotaz, preložíme ho tiež na vektor a potom ho porovnáme s vektormi uloženými v databáze. Tým sa v podstate získava sémantické vyhľadávanie založené na význame, a nie staromódne jednoduché porovnávanie kľúčových slov. Vyhľadávač teda skutočne rozumie tomu, čo používateľ požaduje, a inteligentne mu ponúka výsledky.
V prvom rade, GPT nám umožňuje jednoducho vytvoriť inteligentné vyhľadávanie na akejkoľvek webovej stránke. Pripravíme obsah a pomocou tzv. “embeddings”, resp. vložených prvkov, ktoré ponúka GPT API, môžeme obsah preložiť na vektory, ktoré majú skutočný sémantický význam.
Keď návštevník použije vyhľadávanie na webovej stránke, prevezmeme vstupný dotaz, preložíme ho tiež na vektor a potom ho porovnáme s vektormi uloženými v databáze. Tým sa v podstate získava sémantické vyhľadávanie založené na význame, a nie staromódne jednoduché porovnávanie kľúčových slov. Vyhľadávač teda skutočne rozumie tomu, čo používateľ požaduje, a inteligentne mu ponúka výsledky.
Ďalší produkt, ktorý nám GPT umožňuje ponúknuť, je chatbot na vašej webovej stránke. Ak rozšírime prvý príklad inteligentného vyhľadávania – po tom, čo máme údaje webovej stránky prevedené na vektory a rovnako na vektory prevedieme aj vstupy používateľa a porovnáme ich, môžeme jednoducho zapnúť možnosť zapamatania si kontextu, a tým umožniť viesť so systémom plynulú konverzáciu. Takto sme vytvorili inteligentného chatbota, ktorý vie všetko o vašej webovej stránke a môže s vami o nej viesť rozhovor.
Ak pôjdeme ešte ďalej, môžeme si vytvoriť vlastného interného inteligentného asistenta, ktorý zvýši našu produktivitu, poskytne nám objektívnu spätnú väzbu a nové možnosti týkajúce sa našich procesov a projektov.
Opäť ide o nadviazanie na predchádzajúce dva príklady so zložitejšou štruktúrou údajov a využitie techník promptného inžinierstva, aby sme mali inteligentného, znalého a relevantného asistenta. Mohli by sme skôr povedať agenta, pretože vďaka GPT-4 sa v týchto modeloch blížime k schopnostiam „uvažovania“ a dokážeme tieto modely v jazyku uvažovania pripojiť k internetu a nechať ich vykonávať skript alebo kód prostredníctvom rozšírenia. Takže sa dostávame za hranicu pasívneho poslucháča, ktorý len čaká na vaše vstupné údaje, smerom k aktívnemu agentovi, ktorý skutočne myslí a koná.
A v neposlednom rade v súčasnosti skúmame možnosti začlenenia obrazu a zvuku do našich procesov, aby sme vytvorili vlastného hlasom ovládaného agenta AI a urýchlili proces prototypovania a navrhovania aplikácií. Hlavným cieľom je poskytovať najlepšiu kvalitu oveľa rýchlejšie a súčasná umelá inteligencia nám poskytuje všetko, čo potrebujeme na dosiahnutie tohto cieľa.
AI Developer
Vždy mě bavila historie, filosofie i jazyky. Od střední školy jsem k tomu přidal i programovací jazyky. Na programování mám rád, že neustále žene člověka kupředu, neustále je co zlepšovat. A také proto se ChatGPT, jako velký jazykový model, stal defacto přes noc mým novým koníčkem. Založil jsem i skupinu na facebooku, pro nadšence ChatGPT, kde sdílíme novinky ze světa umělé inteligence, do které se můžete přidat i Vy.
Akokoľvek bolo sledovanie posledných technológií a ich aplikácií zložité a náročné, umelá inteligencia celý tento problém znásobí.
Prečo máme radi Open Source a sme mu verní od začiatku našeho pôsobenia? Aké sú jeho najväčšie výhody a je jeho používanie bezpečné?
Webikon s.r.o.
Vápenná 15, 821 04 Bratislava
IČO: 46809422
DIČ: 2023593858
IČ DPH: SK2023593858