polish roberta

Autor: Adam Daniluk
20 listopada 2021

Neuronowe modele języka coraz popularniejsze

Dzięki neuronowym modelom języka użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie SPAM-u, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem. Jednak większość tych modeli opracowywanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) stale rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

Opracowanie nowych modeli wymaga ogromnej mocy obliczeniowej. Niemożliwe jest ich wytrenowanie przez jednego człowieka lub małą organizację. Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Prace są długotrwałe, ale ich efekty bardzo obiecujące. Dodatkowo OPI PIB wszystkie swoje neuronowe modele języka przetestowało z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. Otrzymane wyniki wg. KLEJ uplasowały rozwiązania instytutu w ścisłej czołówce.

Model Polish RoBERTa large wytrenowano na największym w Polsce korpusie tekstów, który obejmuje 130 GB danych. Odpowiada to prawie pół miliona książek! Oddany w tym roku model Polish RoBERTa base v2 jest mniejszy, jednak nie wymaga on dużej mocy obliczeniowej i wyniki otrzymywane są szybciej. Najnowszym modelem, który OPI PIB udostępnił publicznie, jest GPT-2. Oparty jest on na architekturze transformer, jednak przeznaczony jest głównie do zadań związanych z generowaniem tekstu.

Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny. Modele opracowane w Laboratorium Inteligentnych Systemów Informatycznych OPI PIB doskonale nadają się do badania polskiego internetu. Obecnie dużo jest prowadzonych prac w tym zakresie. Chciałbym również dodać, że od tego roku udostępniamy już trzy modele typy Polish RoBERTa. Po raz pierwszy także oddaliśmy do użytku model BART, do wytrenowania którego udało nam się zgromadzić jeszcze więcej danych pochodzących z CommonCrawl. Łącznie użyto aż ponad 200 gigabajtów danych do wytrenowania tego modelu.

Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB

źródło: Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy

OLIVE Media

OLIVE Media

PKN Orlen

PKN Orlen

Joanna Koczaj-Dyrda

Joanna Koczaj-Dyrda

Marta Chalimoniuk-Nowak

Marta Chalimoniuk-Nowak

Skontaktuj się z nami

Tag: polish roberta

Neuronowe modele języka coraz popularniejsze

Adam Daniluk

« Rusza nowy przetarg dla Pentagonu

Zmiany w Fortnite »

OLIVE Media

Udostępnij:

Adam Daniluk

« Rusza nowy przetarg dla Pentagonu

Zmiany w Fortnite »