Na początku 2024 roku badacze METR zaprosili grupę doświadczonych deweloperów do testów popularnego asystenta kodowania AI o nazwie Cursor. Uczestnicy mieli za zadanie realizować konkretne zadania w projektach open source, które dobrze znali. Zanim przystąpili do pracy, szacowali, że AI skróci czas realizacji zadań o około 24 proc. Po zakończeniu pracy z użyciem AI, nadal byli przekonani, że narzędzie przyspieszyło ich działania – tym razem o 20 proc. Jednak rzeczywiste dane z badania pokazały coś zupełnie innego: czas realizacji zadań wzrósł średnio o 19 proc.
Badacze spodziewali się dwukrotnego przyspieszenia. Wyniki całkowicie ich zaskoczyły
Współautorzy badania, Joel Becker i Nate Rush, nie kryli zdumienia wynikami. Joe Rush przed eksperymentem zakładał wręcz dwukrotne przyspieszenie pracy.
Wnioski z badania podważają powszechną opinię, że sztuczna inteligencja automatycznie zwiększa wydajność doświadczonych i dobrze opłacanych programistów. To właśnie wizja takiej produktywności przyciąga dziś miliardowe inwestycje do firm tworzących narzędzia AI dla branży technologicznej. Coraz częściej pojawiają się też prognozy, że AI może wkrótce zastąpić początkujących pracowników biurowych. Szef firmy Anthropic, Dario Amodei, przewiduje, że w ciągu najbliższych 1–5 lat sztuczna inteligencja może wyeliminować nawet połowę takich stanowisk.
Warto zaznaczyć, że wcześniejsze badania wykazywały znaczne wzrosty efektywności — w jednym z nich AI przyspieszyła pracę programistów aż o 56 proc., w innym pozwoliła na wykonanie o 26 proc. więcej zadań w tym samym czasie. Jednak najnowsze badanie METR wskazuje, że takie korzyści nie muszą dotyczyć wszystkich sytuacji.
Weryfikacja kodu AI pochłaniała czas i energię programistów
Kluczowa różnica polegała na tym, że uczestnicy badania METR pracowali nad znanymi sobie projektami open source, w których byli już biegli. Okazało się, że AI – choć często dawała trafne podpowiedzi – wymagała od użytkowników dodatkowego czasu na ich weryfikację i poprawki.
– Gdy oglądaliśmy nagrania z pracy uczestników, zauważyliśmy, że sugestie AI były często zgodne z ogólnym kierunkiem działania, ale rzadko dokładnie trafiały w sedno potrzeb – tłumaczył Joel Becker.
Autorzy badania zastrzegają, że zaobserwowane spowolnienie niekoniecznie wystąpi w innych przypadkach, np. wśród młodszych programistów lub osób pracujących z nowym, nieznanym kodem.