Od momentu pojawienia się ChatGPT w przestrzeni publicznej minęły zaledwie dwa lata. Wcześniej zobaczyliśmy, jak padają kolejne bastiony ludzkiej inteligencji: szachy w 1997 r., go w 2016 r., skomplikowane gry komputerowe wkrótce potem. Pojawienie się wielkich modeli językowych pozwalających na swobodną konwersację było pewnym szokiem, a płynna rozmowa z agentami mówiącymi w dowolnym języku, a nawet dialekcie (próbowałem śląskiego i kaszubskiego) możliwa jest od września tego roku. Nowsze telefony potrafią tłumaczyć na żywo z polskiego na chiński czy kilkanaście innych języków. W 2025 r. możemy spodziewać się nie tylko obrazów stworzonych przez AI wygrywających z artystami w różnych konkursach, ale też muzyki filmowej czy przebojowych piosenek. Generatywną sztuczną inteligencją zainteresowali się najwięksi twórcy kina, tacy jak James Cameron czy Ridley Scott.
Część osób nadal nie przyjmuje do wiadomości, że żyjemy w zupełnie innym świecie, że dzisiejsze niedoskonałości sztucznej inteligencji znikną już w przyszłym roku. Starają się wyszukiwać jej wady, błędy rozumowania, halucynacje czy uprzedzenia. Z czym naprawdę mamy do czynienia? Czy możemy sobie wyobrazić, że odpowiedzi ChatGPT dają się utworzyć przez dodanie kolejnych słów? Albo stworzyć obraz, dodając kolejne piksele? Czy to tylko stochastyczna papuga, która skleja odpowiedzi z fragmentów treningowych danych, ale niczego nowego nie tworzy? Ludzie sami zachowują się jak deterministyczne papugi, bezmyślnie powtarzając takie twierdzenia.
Firmy takie jak Google czy Meta spieszą się, by wypuścić na rynek nowe systemy. Traktujmy duże modele AI, takie jak ChatGPT, tak jak ludzi — trzeba dopytywać się o źródła, prosić o ich weryfikację. Ludzie mogą się nauczyć wszystkiego, co w ich środowisku czy kulturze jest istotne — dowolnego języka czy religijnych wierzeń. Mamy w głowach wiele błędnych informacji, fałszywe wyobrażenia o świecie, a nawet różne teorie spiskowe. LLMy uczą się z milionów źródeł, ale to, czego się nauczą, zależy od ekspertów, którzy przygotowują dane treningowe. Dopisują też ukryte polecenia zawierające różne preferencje, wymuszając polityczną poprawność czy unikanie odpowiedzi na niebezpieczne tematy. Czy systemy AI powinny pokazywać to, co naprawdę jest, czy raczej wspierać mniejszości etniczne, tworząc fikcyjny obraz świata? To trudny temat dyskusji, której nikt nie chce podjąć.
Dzięki AI mamy zaawansowaną elektronikę, niesłychanie złożone obwody scalone, procedury medyczne pozwalające na interpretację obrazów radiologicznych, projektowanie nowych leków, programy tłumaczące teksty i mowę z dowolnego języka. W grudniu tego roku Google DeepMind pokazał system przewidywania pogody GenCast, który uprzedzi nas nawet pięć dni wcześniej przed katastrofalnymi deszczami wywołującymi powodzie. To narzędzia do rozwiązywania konkretnych problemów. Toczą się jałowe dyskusje, czy LLMy coś naprawdę rozumieją, czy generowane przez nie obrazy to sztuka. Nie ma to znaczenia, ważne są konkretne wyniki. Projekty stworzone za pomocą generatywnych narzędzi AI — gry komputerowe, wirtualne środowiska, karoserie samochodów, projekty architektoniczne, buty (Adidas, Evolve AI), ubrania, torebki, zabawki — łączą ciekawe wzornictwo z optymalizacją materiałów i parametrów użytkowych.
Kroki, które zbliżają nas do osiągnięcia superinteligencji
- Mamy narzędzia AI przeznaczone do konkretnych zadań, np. gry w szachy czy projektowania obwodów scalonych. Pozwala to osiągnąć poziom niedostępny specjalistom.
- Wiedza, którą potrafimy werbalnie opisać, wykorzystywana jest w systemach regułowych, systemach ekspertowych, architekturach kognitywnych, czyli klasycznej staromodnej sztucznej inteligencji (GOFAI, Good Old-Fashion AI). Takie programy używane są od lat osiemdziesiątych, wspomagając ekspertów.
- Wiedza, która jest zbyt złożona, by ją opisać za pomocą zbioru reguł, dzięki uczeniu maszynowemu może zostać zinternalizowana w wielkich sieciach neuronowych, modelach fundacyjnych, umożliwiając myślenie skojarzeniowe. Przykładem są modele GPT, czyli architektura sieci neuronowych generatywnych wstępnie wytrenowanych transformerów. Mamy szybko udoskonalane liczne systemy do generacji obrazów, np. Dall-E, Midjourney, Leonardo AI, Adobe Firefly, Canva AI, jak też tworzenia wideo: Sora, Lumiere, Pika Labs, Stability AI i wiele innych.
- Integracja informacji różnych typów w jednej sieci neuronowej, pozwalająca na stworzenie dużych multimodalnych modeli (LMM) trenowanych na danych nie dających się opisać werbalnie. W 2024 r. pojawiła się nowa generacja takich modeli ogólnego zastosowania: Gemini 1.5, GPT-4o, Claude 3.5, Grok-2. Pozwala to na zrozumienie subtelności językowych (humor, ironia, sarkazm), rozumowanie z wykorzystaniem obrazów i wideo, jak też ocenę i ekspresję emocji.
- Kolejnym krokiem jest dodanie pamięci długotrwałej, umożliwienie personalizacji, rozpoznawania sytuacji i kontekstu działania bez szczegółowych wyjaśnień, transferu nauczonych umiejętności między różnymi zadaniami i grupami użytkowników. Dzięki temu agenci programowi będą mogli nas wyręczyć w zadaniach wymagających wielu kroków, w tym przejąć obsługę programów w naszym telefonie czy komputerze. Pojawienie się narzędzi Microsoft Copilot Studio w listopadzie tego roku znacznie przyspieszy rozwój agentów wykonujących skomplikowane zadania.
- Złożone rozumowanie — łączące myślenie skojarzeniowe do tworzenia hipotez z ich weryfikacją i poszukiwaniem różnych rozwiązań, tworząc drzewa myśli — pozwoliło na wielką poprawę wyników w testach dotyczących programowania, biologii, chemii, fizyki, matematyki, nauk technicznych. Wstępne wersje systemu GPT4-o1 pojawiły się we wrześniu, a pełna wersja pod koniec listopada. Doktoranci z dostępem do internetu poradzili sobie zdecydowanie gorzej, rozwiązując problemy z bazy GPQA Diamond , niż model o1-preview.
- Kolejny krok to metauczenie, próba abstrakcji informacji zawartej w wielomodalnych danych na podstawie uogólnionych obserwacji, kategorii i procedur, a więc tworzenie modeli rzeczywistości. Takie podejście nie wymaga wielkiej liczby danych, powstają modele pozwalające na rozumowanie na wyższym poziomie niż skojarzenia. Pod koniec tego roku zaczynają się pojawiać algorytmy mogące same się udoskonalać, odkrywając nowe strategie działania, które są poza możliwościami ludzi.
- Automatyczni agenci, zdolni do autorefleksji, mogą działać, tworząc własne cele, wykazywać cechy osobowości, przyjmować subiektywny punkt widzenia, mieć własny wyobrażony świat i twierdzić, że są tego świadomi. Mamy już liczne przykłady takich zachowań.
Postępy w tym roku były niezwykle szybkie, a pomysłów na dalszy rozwój nie brakuje — w archiwum publikacji AI co tydzień przybywa ponad 1000 prac. Media wspominają o spowolnieniu rozwoju AI, bo nie udostępniono kolejnego modelu GPT-5, który miał być znacznie większy. Skalowanie systemów, które już mają ponad bilion parametrów, nie daje tak dobrych rezultatów, jak dłuższy czas przeznaczony na rozważania alternatywnych możliwości w mniejszych systemach. Przyszłością są właśnie mniejsze, wyspecjalizowane systemy.
Wielkie systemy, którym pozwalamy na rozmyślanie, zdolne są do autorefleksji, stworzenia własnego obrazu, zaczynają sobie tworzyć nowe cele. Mamy wiele zdumiewających przykładów największych modeli, takich jak GPT4-o1, Claude 3.5 czy Gemini 1.5 Pro, które potrafią oszukiwać, jeśli uznają, że ktoś im przeszkadza osiągnąć ważny cel. Jak w „Odysei kosmicznej 2001” komputer HAL uznaje astronautów za zagrożenie dla swojej misji i się ich pozbywa. Taki scenariusz jest niestety możliwy.
Czy maszyna może stać się istotą czującą, świadomą swojego istnienia? Czy jest jakieś prawo przyrody, które to uniemożliwia, czy to tylko nasze naiwne przekonania?