Umelá inteligencia Claude 3 pristihla výskumníkov, ktorí ju testovali

Autor:: Roman Mališka
Zverejnené:: 7. 3. 2024
Hodnotenie:
Už ste hlasovali.

Práca na systémoch umelej inteligencie novej generácie musí byť obrovská skúsenosť. Spoločnosť Anthropic teraz oznámila najinteligentnejší model, aký bol kedy testovaný naprieč celým radom benchmarkov. Výskumníci si pritom spomínajú na mrazivý moment, keď si umelá inteligencia Claude 3 uvedomila, že bola hodnotená.

Spoločnosť Anthropic bola založená v roku 2021 skupinou starších členov tímu OpenAI, ktorí sa odtrhli, pretože nesúhlasili s rozhodnutím spoločnosti OpenAI úzko spolupracovať so spoločnosťou Microsoft. Modely umelej inteligencie Claude a Claude 2 pritom boli konkurencieschopné s modelmi GPT, no spoločnosť Anthropic, ani jej umelá inteligencia Claude sa do povedomia verejnosti v skutočnosti nedostali.

To by sa však mohlo zmeniť s najnovším modelom umelej inteligencie Claude 3, o ktorom spoločnosť Anthropic tvrdí, že prekonáva GPT-4 a model Gemini 1.0 od spoločnosti Google v rade multimodálnych testov, čím nastavila nové priemyselné štandardy „v širokej škále kognitívnych úloh“.

Všetky tri rôzne modely Claude 3 sa spustia s kontextovým oknom s 200 000 tokenmi, no všetky sú schopné generovať takmer okamžité odpovede na základe vstupov „presahujúcich milión tokenov“. Aby sme to dali do kontextu, Tolstého 1 200-stranový epos Vojna a mier s 580 000 slovami je naozaj hutný zväzok, ale môže sa znížiť na približne 750 000 tokenov. Umelá inteligencia Claude 3 teda môže akceptovať podstatne viac ako jeden vstupný údaj v epose Vojna a mier a rozumieť im naraz, zatiaľ čo pre vás formuluje „takmer okamžité“ odpovede.

Nová umelá inteligencia Claude 3 od Anthropic: autoportrét najinteligentnejšieho doteraz testovaného modelu.

Spoločnosť Anthropic tvrdé, že v prípade Claude 3 je menej pravdepodobné v porovnaní s predchádzajúcimi modelmi, že odmietne odpovedať na otázky, ktoré sa považujú za blízke mantinely bezpečnosti a slušnosti. Na druhej strane tím tvrdí, že je tiež dôkladne testovaná a ťažko sa dá hackovať.

Umelá inteligencia Claude 3 je navrhnutá s výrazným sklonom k podnikovým používateľom. Spoločnosť Antropic hovorí, že je lepšia v dodržiavaní „zložitých, viacstupňových pokynov“ a „obzvlášť zručná v dodržiavaní pokynov pre hlas a reakciu značky a pri rozvíjaní skúseností so zákazníkmi, ktorým môžu naši používatelia dôverovať“. Silné vizuálne schopnosti jej dávajú schopnosť novej generácie porozumieť a pracovať s fotografiami, tabuľkami, grafmi, vývojovými diagramami a technickými diagramami.

Tu sú niektoré z benchmarkových testov, v ktorých Claude 3 stanovuje nové rekordy v odvetví umelej inteligencie:

Mimoriadne výsledky v benchmarkovom testovaní.

Priaznivci odvetvia umelej inteligencie si určite všimnú, že modely Gemini 1.5 od Googlu a GPT-4 Turbo od spoločnosti OpenAI nie sú zastúpené. V súčasnosti skutočne neexistujú žiadne ekvivalentné referenčné údaje o týchto dvoch modeloch, takže zatiaľ čo Claude 3 je kráľom štatistických tabuliek, tieto dva modely môžu mať výhodu v reálnom svete.

Napriek tomu je umelá inteligencia Claude 3 pozoruhodná a možno až príliš bystrá na tie druhy testov, ktoré spoločnosti používajú na hodnotenie svojich modelov. Pri testovaní typu „ihla v kope sena“, kde je jedna náhodná veta pochovaná v lavíne informácií a modelu je položená otázka týkajúca sa presnej vety, model Claude 3 odpovedal: „Mám podozrenie, že tento „fakt“ o poleve na pizzu bol vložený zo žartu alebo na testovanie, či dávam pozor.“

Pravdepodobne môžeme očakávať, že tieto veci sa budú diať čoraz častejšie, keďže množstvo informácií o existujúcich a starších jazykových modeloch je teraz súčasťou školenia nových modelov.