DeepSeek proponuje nowy sposób trenowania AI. Chiny chcą wygrać z Zachodem efektywnością

ON, Bloomberg
opublikowano: 2026-01-02 11:58

Chińska firma DeepSeek opublikowała nową pracę badawczą opisującą bardziej wydajną metodę trenowania systemów sztucznej inteligencji. To kolejny dowód na to, że tamtejsza branża AI intensywnie szuka sposobów, by rywalizować z liderami pokroju OpenAI, mimo ograniczonego dostępu do najnowocześniejszych chipów Nvidii – podaje agencja Bloomberg.

Posłuchaj
Speaker icon
Zostań subskrybentem
i słuchaj tego oraz wielu innych artykułów w pb.pl
Subskrypcja

Dokument współtworzony m.in. przez założyciela firmy, Lianga Wenfenga, przedstawia koncepcję nazwaną Manifold-Constrained Hyper-Connections. Jak wyjaśniają autorzy, rozwiązanie to ma poprawiać skalowalność modeli, jednocześnie zmniejszając zapotrzebowanie na moc obliczeniową i energię podczas treningu zaawansowanych systemów AI.

DeepSeek znów szykuje przełom. Rynek czeka na model R2

Dotychczas publikacje DeepSeek często zapowiadały przełomowe premiery nowych modeli. Rok temu firma zaszokowała branżę, prezentując model R1 wyspecjalizowany w rozumowaniu, stworzony przy znacznie niższych kosztach niż konkurencyjne projekty z Doliny Krzemowej. Od tego czasu startup zaprezentował kilka mniejszych modeli, ale największe oczekiwania wiążą się teraz z nadchodzącym flagowym systemem – szeroko określanym jako R2 – którego debiut jest spodziewany około Chińskiego Nowego Roku, w lutym.

Chińskie firmy działają wciąż w trudnych warunkach, bo restrykcje USA blokują dostęp do najbardziej zaawansowanych półprzewodników kluczowych dla rozwoju i obsługi AI. To zmusza tamtejszych badaczy do poszukiwania alternatywnych technologii i nietypowych rozwiązań architektonicznych.

Analitycy: R2 może ponownie wstrząsnąć rynkiem AI

Analitycy Bloomberg Intelligence oceniają, że zapowiadany model R2, który może pojawić się w najbliższych miesiącach, ponownie może mocno wstrząsnąć globalnym rynkiem AI — mimo ostatnich postępów Google. Model Gemini 3 w listopadzie wyprzedził OpenAI i znalazł się w pierwszej trójce zestawienia LiveBench oceniającego wydajność dużych modeli językowych. Co istotne, dwa niskokosztowe modele z Chin znalazły się w pierwszej piętnastce rankingu.

DeepSeek, znany z niekonwencjonalnych pomysłów, opublikował swoją najnowszą pracę na platformie arXiv oraz w serwisie open-source Hugging Face. Pod dokumentem widnieją nazwiska 19 naukowców, a nazwisko Lianga Wenfenga znajduje się na końcu listy autorów.

DeepSeek chce rozwiązać słabości współczesnych modeli AI

Założyciel firmy od początku nadaje kierunek badaniom DeepSeek i konsekwentnie zachęca swój zespół do zmiany myślenia o tym, jak projektuje się i rozwija duże systemy AI.

Nowa metoda ma rozwiązywać problemy takie jak niestabilność procesu treningowego czy ograniczone możliwości skalowania, a autorzy podkreślają, że obejmuje ona także „ścisłą optymalizację infrastruktury, aby zapewnić wysoką efektywność”. Testy przeprowadzono na modelach liczących od 3 do 27 mld parametrów, bazując również na badaniach ByteDance z 2024 roku dotyczących architektur typu hyper-connection.

Zdaniem zespołu badawczego zaprezentowana technika może odegrać istotną rolę w dalszym rozwoju bazowych modeli sztucznej inteligencji.