Światowy wyścig AI: ChatGPT vs. DeepSeek. Czy Polska ma szansę włączyć się do tej globalnej rywalizacji?

2 godzin temu
Zdjęcie: DeepSeek, Chatgpt


Chiński sukces

Chiński DeepSeek to model w pełni open-source (na licencji MIT), który dorównuje GPT4-o1 (mam na myśli model DeepSeek-R1, bo wcześniej jeszcze pojawił się V3). Zaburzył on dotychczasową hegemonię modeli GPT4-o1 (modeli pozwalających na głębokie wnioskowanie, czyli takie, które daje najwięcej wartości w zadaniach matematycznych, programowaniu czy skomplikowanych dedukcjach). Przewaga amerykańskich modeli została zaburzona przez tzw. czarnego konia, bo tak trzeba nazwać DeepSeeka. Ponadto chiński producent w swoim raporcie technicznym wykazał, iż osiągnął docelowy efekt, używając tylko 2 tysięcy kart klasy Hopper do finalnego treningu, a nie dziesiątków tysięcy kart jak OpenAI/ Meta. Należy podkreślić, iż koszt finalnego uczenia, liczący kilka milionów USD był wielokrotnie mniejszy od kosztów amerykańskich Big Techów, a koszty inferencji modeli DeepSeek okazały się rzędy wielkości niższe niż OpenAI (w zależności czy mówimy o DeepSeek V3 czy R1). To wszystko zaburzyło dotychczasowy porządek, wszedł nowy gracz, który nie jest słabszy jakościowo w większości zadań, jego uczenie jest tańsze, a do tego jego serwowanie/ inferencja dla jest tańsza dla konsumentów. Dodatkowo, jest to model open-source, czyli każdy, kto ma 16+ kart H100, może go samodzielnie odpalić i hostować dla własnych celów, Jest to najważniejsze dla większości firm, bo zapewnia pełną kontrolę nad informacjami trafiającymi do modelu.

Chińczycy tworząc model DeepSeek udowodnili, iż potrafią dostosować się do warunków biznesowych w jakich działają. Karty jakimi dysponowali Chińczycy były wynikiem embarga USA – ograniczono eksport kart z wydajną pamięcią, więc pracowali na kartach o gorszych parametrach pamięci. Musieli także napisać dużo własnych optymalizacji procesu uczenia. Pamiętajmy jednak, iż nie mieli wcale mało kart – do finalnego treningu użyli około 2000 kart klasy Hopper, jednak DeepSeek jako firma ma aż ok. 50 000 kart, czyli tyle ile wynosi limit zakupowy Polski w ramach nowej doktryny eksportowej USA. Należy jednak wziąć pod uwagę, iż DeepSeek do inferencji swojego LLM-a używa kart chińskich, prawdopodobnie produkcji Huawei. Jednak do uczenia firma używała kart NVIDIA, to znaczy, iż nie jest wcale tak łatwo odejść od środowiska obliczeniowego CUDA, które rozwija NVIDIA pod kątem wysoko skalowalnych obliczeń. Myślę, iż na razie będzie następowała wymiana kart pod inferencje na chińskie, oczywiście jeżeli się sprawdzą. Później możliwa będzie wymiana kart pod uczenie, które jest jednak o wiele bardziej złożonym procesem.

Czy Polska ma szansę na rywalizację z USA i Chinami?

Warto aby branża IT i decydenci odpowiedzialni za rozwój sztucznej inteligencji w Polsce zadali sobie pytanie – czy koniecznie potrzebujemy w naszym kraju dużych modeli językowych? Przykładowo modele DeepSeek v3/R1 mają ok. 700 mld parametrów, a do ich odpalenia potrzeba minimum 16 kart H100, z których każda jest warta ok. 150 000 złotych. Aby wyskalować całość do odpowiedniej wydajności, choćby dla małego zbioru użytkowników, należy daną liczbę zwiększyć do kilkudziesięciu kart. Konieczne są więc naprawdę duże środki na zakup, a do tego jeszcze trzeba dodać koszty energii elektrycznej, 70bNależy wziąć pod uwagę, iż zdecydowana większość polskich małych, średnich i choćby dużych firm, nie potrzebuje asystenta do otwartej rozmowy na każdy temat. Bardziej przydatne są dla nich dedykowane LLM-y, które będą dotyczyć 10-20 konkretnych scenariuszy biznesowych. A taki cel da się osiągnąć strojąc mniejsze modele na domenowych danych, które są tańsze w utrzymaniu i tańsze w douczaniu.

Przewiduję, iż modele ogólnego użytku jak DeepSeek, GPT4 będą powstawać, aby zachwycać ludzi dużym zróżnicowaniem kompetencji. Będę one głównie używane do pomocy w różnych zadaniach i problemach dnia codziennego. Natomiast tam, gdzie występuje ryzyko utraty przewagi konkurencyjnej bazującej na prywatnych danych, będziemy szli w dużo mniejsze modele szyte na miarę konkretnych firm lub instytucji. Szczególnie biorąc pod uwagę fakt, iż dostosowanie DeepSeeka do mniejszych modeli drogą destylacji, np. do LLam-y 70B, odbywa się z dużą stratą jakościową dla języków rzadkich, takich jak język polski i inne mniej popularne języki UE.

W Polsce nie dysponujemy takim zapleczem technicznym jak Chiny czy USA. Możemy jednak budować mniejsze modele do 100 mld wag, które są porównywalne lub lepsze uwzględniając pewne kryteria (np. w obszarze znajomości tematów typowych dla naszej kultury czy historii), w porównaniu z takimi modelami jak DeepSeek.

Polskie duże generatywne modele językowe – Polish LLMs

Prace nad polskimi, dużymi, generatywnymi modelami językowymi zaczęły się około 2 lata temu. Pierwszym modelem był TRURL, który został stworzony przez VoiceLab.AI w 2023 i oparty był na LLamie 2. Polska firma technologiczna, która go zaprojektowała, jako jedna z pierwszych w kraju opracowała autorską technologię rozpoznawania mowy. TRURL to dostrojona wersja modelu LLama 2 – strojenie dotyczyło około 1mln próbek konwersacyjnych w języku polskim i angielskim. Reasumując, nie był to model wstępnie trenowany na polskich danych, czyli nie przeszedł językowej adaptacji.

Na przełomie 2023/24 roku Politechnika Gdańska (PG) wraz z AI Labem z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) podjęły się językowej adaptacji modeli LLama i opracowały polskojęzyczne generatywne modele językowe o nazwie Qra, które zostały utworzone na podstawie korpusu danych zawierającego teksty wyłącznie w języku polskim. Wykorzystany korpus liczył łącznie ponad 1TB danych. To pierwszy polski model generatywny wstępnie wytrenowany na tak dużym zasobie polskich tekstów, do którego wytrenowania użyto wielkich mocy obliczeniowych. Dla porównania ChatGPT w większości trenowany jest na danych anglojęzycznych, a jedynie ułamek procenta jego korpusu treningowego stanowią dane w języku polskim.

W wyniku współpracy OPI PIB i PG powstały trzy modele, które różnią się złożonością tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity, czyli umiejętności modelowania języka w zakresie jego rozumienia i jego gramatyki, niż model Llama-2-7b (od firmy Meta) oraz Mistral-7B-v0.1 (Mistral-AI).

Następnie w roku 2024 pojawiły się modele Bielik w co najmniej dwóch wersjach, rozwijane w ramach fundacji SpeakLeasch. Bielik V2 został opracowany na bazie modelu Mistral-7B, którego powiększono o dodatkowe bloki dekodera do ostatecznego rozmiaru 11 mld parametrów. Model był wstępnie trenowany na około 2TB polskich danych tekstowych oraz dodatkowo był strojony na milionach syntetycznych instrukcji pozyskanych z Mixtrala 8×22, proces uczenia był też uzupełniony o wychowanie na preferencjach.

W roku 2024 został uruchomiony przez Ministerstwo Cyfryzacji projekt PLLuM, angażując 6 partnerów świata nauki, który po około roku prac wydał rodzinę kilkunastu modeli o rozmiarach od 8 mld do 70 mld w wersjach base (fundamentalny), instruct (po strojeniu na instrukcjach) i chat (po wychowaniu na preferencjach). W ramach PLLuMa wykonywane były wszelkie etapu uczenia, tj.:

a) adaptacja językowa (kontynuowany wstępny trening) na korpusie liczącym ponad 150 mld tokenów,

b) strojenie na instrukcjach (gdzie większość to były instrukcje organiczne lub bazujące na organicznych danych),

c) uczenie na preferencjach zbudowanych manualnie przez dziesiątki annotatorów.

Podsumowując, zdecydowanie warto budować i rozwijać polskie LLM-y. Sprawdzają się one lepiej dla tekstów opublikowanych w naszym języku. Warto jednak zastanowić się, czy koniecznie musimy się ścigać z USA i Chinami w budowaniu olbrzymich modeli. Z naszych obserwacji wynika, iż zdecydowana większość małych, średnich i choćby dużych firm, nie potrzebuje asystenta do otwartej rozmowy na każdy temat. Bardziej przydatne są dla nich dedykowane LLM-y, które będą dotyczyć 10-20 konkretnych scenariuszy biznesowych. A taki cel da się osiągnąć trenując mniejsze modele na domenowych danych, które są tańsze w utrzymaniu. Dodatkowo, tam gdzie występuje ryzyko utraty przewagi konkurencyjnej bazującej na prywatnych danych, wartość lokalnych, otwartych modeli o mniejszym rozmiarze będzie nie do pominięcia. Możemy w Polsce budować mniejsze modele do 100 mld wag, które są porównywalne lub lepsze od wielkich LLM-ów, uwzględniając pewne kryteria (np. w obszarze znajomości tematów typowych dla naszej kultury czy historii).

Autor: dr inż. Marek Kozłowski

Kierownik AI Labu w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym. W OPI PIB zajmuje się tworzeniem systemu wzbogaconego inteligentnymi metodami przetwarzania danych (głównie danych tekstowych i obrazowych). Jego zainteresowania dotyczą przetwarzania języka naturalnego, eksploracji danych i uczenia maszynowego. Napisał ponad 40 publikacji naukowych z zakresu semantycznego przetwarzania tekstów i uczenia maszynowego. W swojej karierze brał udział w wielu komercyjnych projektach badawczych, które dotyczyły uczenia maszynowego dla firm takich jak np.: Samsung, France Telecom, Orange Labs, Millward Brown, Vive Textile Recycling czy Connectis. Brał udział w wielu międzynarodowych konkursach uczenia maszynowego m.in IEEE BigData 2019 Cup.

Idź do oryginalnego materiału