Russian SuperGLUE

Лидерборд

Мы улучшили датасеты, и пересчитали лидерборд. Чтобы сменить версию - нажмите на кнопку версии(1.0 или 1.1) ниже
Вы можете переключить лидерборд в режим оценки времени инференса моделей. Нажмите на кнопку Performance.

* Больше информации о том как мерить время выполнения и память смотреть здесь.

Рейтинг	Название	Команда	Результат	LiDiRus	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	RuCoS
1	HUMAN BENCHMARK	AGI NLP	0,811	0,626	0,68 / 0,702	0,982	0,806 / 0,42	0,92	0,805	0,84	0,915	0,93 / 0,89
2	ruadapt Solar 10.7 twostage	RCC MSU	0,805	0,591	0,597 / 0,594	0,916	0,946 / 0,837	0,927	0,739	0,844	0,933	0,82 / 0,797
3	Mistral 7B LoRA	Saiga team	0,763	0,46	0,529 / 0,573	0,824	0,927 / 0,787	0,888	0,758	0,786	0,919	0,83 / 0,816
4	FRED-T5 1.7B finetune	SberDevices	0,762	0,497	0,497 / 0,541	0,842	0,916 / 0,773	0,871	0,823	0,669	0,889	0,9 / 0,902
5	Golden Transformer v2.0	Avengers Ensemble	0,755	0,515	0,384 / 0,534	0,906	0,936 / 0,804	0,877	0,687	0,643	0,911	0,92 / 0,924
6	LLaMA-2 13B LoRA	Saiga team	0,718	0,398	0,489 / 0,543	0,784	0,919 / 0,761	0,793	0,74	0,714	0,907	0,78 / 0,76
7	Saiga 13B LoRA	Saiga team	0,712	0,436	0,439 / 0,5	0,694	0,898 / 0,704	0,865	0,728	0,714	0,862	0,85 / 0,83
8	YaLM p-tune (3.3B frozen + 40k trainable params)	Yandex	0,711	0,364	0,357 / 0,479	0,834	0,892 / 0,707	0,841	0,71	0,669	0,85	0,92 / 0,916
9	ruadapt LLaMA-2 7B LoRA	RCC MSU	0,71	0,417	0,545 / 0,555	0,756	0,894 / 0,695	0,876	0,668	0,708	0,878	0,76 / 0,733
10	FRED-T5 large finetune	SberDevices	0,706	0,389	0,456 / 0,546	0,776	0,887 / 0,678	0,801	0,775	0,669	0,799	0,87 / 0,863
11	RuLeanALBERT	Yandex Research	0,698	0,403	0,361 / 0,413	0,796	0,874 / 0,654	0,812	0,789	0,669	0,76	0,9 / 0,902
12	FRED-T5 1.7B (only encoder 760M) finetune	SberDevices	0,694	0,421	0,311 / 0,441	0,806	0,882 / 0,666	0,831	0,723	0,669	0,735	0,91 / 0,911
13	ruT5-large finetune	SberDevices	0,686	0,32	0,45 / 0,532	0,764	0,855 / 0,608	0,775	0,773	0,669	0,79	0,86 / 0,859
14	ruRoberta-large finetune	SberDevices	0,684	0,343	0,357 / 0,518	0,722	0,861 / 0,63	0,801	0,748	0,669	0,82	0,87 / 0,867
15	gpt-3.5-turbo zero-shot	Saiga team	0,682	0,422	0,484 / 0,505	0,888	0,817 / 0,532	0,795	0,596	0,714	0,878	0,68 / 0,667
16	Golden Transformer v1.0	Avengers Ensemble	0,679	0,0	0,406 / 0,546	0,908	0,941 / 0,819	0,871	0,587	0,545	0,917	0,92 / 0,924
17	xlm-roberta-large (Facebook) finetune	SberDevices	0,654	0,369	0,328 / 0,457	0,59	0,809 / 0,501	0,798	0,765	0,669	0,757	0,89 / 0,886
18	mdeberta-v3-base (Microsoft) finetune	SberDevices	0,651	0,332	0,27 / 0,489	0,716	0,825 / 0,531	0,783	0,727	0,669	0,708	0,87 / 0,868
19	Saiga2 70B zero-shot	Saiga team	0,643	0,365	0,385 / 0,461	0,82	0,669 / 0,098	0,811	0,59	0,831	0,878	0,69 / 0,678
20	Saiga Mistral 7B zero-shot	Saiga team	0,635	0,322	0,436 / 0,5	0,698	0,84 / 0,553	0,807	0,587	0,727	0,839	0,58 / 0,571
21	ruT5-base finetune	Sberdevices	0,635	0,267	0,423 / 0,461	0,636	0,808 / 0,475	0,736	0,707	0,669	0,769	0,85 / 0,847
22	ruBert-large finetune	SberDevices	0,62	0,235	0,356 / 0,5	0,656	0,778 / 0,436	0,704	0,707	0,669	0,773	0,81 / 0,805
23	ruBert-base finetune	SberDevices	0,578	0,224	0,333 / 0,509	0,476	0,742 / 0,399	0,703	0,706	0,669	0,712	0,74 / 0,716
24	YaLM 1.0B few-shot	Yandex	0,577	0,124	0,408 / 0,447	0,766	0,673 / 0,364	0,605	0,587	0,669	0,637	0,86 / 0,859
25	Qwen 14B saiga zero-shot	Maxim Bolgov	0,554	0,334	0,442 / 0,482	0,61	0,725 / 0,254	0,717	0,464	0,695	0,791	0,43 / 0,42
26	Saiga 13B zero-shot	Saiga team	0,554	0,293	0,42 / 0,466	0,63	0,681 / 0,223	0,702	0,565	0,675	0,763	0,47 / 0,458
27	RuGPT3XL few-shot	SberDevices	0,535	0,096	0,302 / 0,418	0,676	0,74 / 0,546	0,573	0,565	0,649	0,59	0,67 / 0,665
28	ruElectra-medium finetune	SberDevices	0,524	0,182	0,413 / 0,525	0,576	0,615 / 0,189	0,544	0,649	0,669	0,6	0,63 / 0,624
29	ruElectra-large finetune	SberDevices	0,522	0,197	0,386 / 0,459	0,644	0,549 / 0,078	0,583	0,632	0,669	0,627	0,61 / 0,607
30	RuBERT plain	DeepPavlov	0,521	0,191	0,367 / 0,463	0,574	0,711 / 0,324	0,642	0,726	0,669	0,639	0,32 / 0,314
31	Qwen 7B saiga zero-shot	Maxim Bolgov	0,519	0,334	0,405 / 0,479	0,576	0,659 / 0,239	0,707	0,547	0,604	0,728	0,29 / 0,284
32	SBERT_Large_mt_ru_finetuning	SberDevices	0,514	0,218	0,351 / 0,486	0,498	0,642 / 0,319	0,637	0,657	0,675	0,697	0,35 / 0,347
33	SBERT_Large	SberDevices	0,51	0,209	0,371 / 0,452	0,498	0,646 / 0,327	0,637	0,654	0,662	0,675	0,36 / 0,351
34	Qwen 4B saiga zero-shot	Maxim Bolgov	0,505	0,274	0,361 / 0,493	0,554	0,656 / 0,112	0,655	0,57	0,623	0,661	0,4 / 0,395
35	ruElectra-small finetune	SberDevices	0,505	0,106	0,346 / 0,461	0,564	0,628 / 0,21	0,54	0,592	0,669	0,658	0,6 / 0,596
36	RuGPT3Large	SberDevices	0,505	0,231	0,417 / 0,484	0,584	0,729 / 0,333	0,654	0,647	0,636	0,604	0,21 / 0,202
37	RuBERT conversational	DeepPavlov	0,5	0,178	0,452 / 0,484	0,508	0,687 / 0,278	0,64	0,729	0,669	0,606	0,22 / 0,218
38	Multilingual Bert	DeepPavlov	0,495	0,189	0,367 / 0,445	0,528	0,639 / 0,239	0,617	0,69	0,669	0,624	0,29 / 0,29
39	heuristic majority	hse_ling	0,468	0,147	0,4 / 0,438	0,478	0,671 / 0,237	0,549	0,595	0,669	0,642	0,26 / 0,257
40	RuGPT3Medium	SberDevices	0,468	0,01	0,372 / 0,461	0,598	0,706 / 0,308	0,505	0,642	0,669	0,634	0,23 / 0,224
41	RuGPT3Small	SberDevices	0,438	-0,013	0,356 / 0,473	0,562	0,653 / 0,221	0,488	0,57	0,669	0,61	0,21 / 0,204
42	Baseline TF-IDF1.1	AGI NLP	0,434	0,06	0,301 / 0,441	0,486	0,587 / 0,242	0,471	0,57	0,662	0,621	0,26 / 0,252
43	Random weighted	hse_ling	0,385	0,0	0,319 / 0,374	0,48	0,45 / 0,071	0,483	0,528	0,597	0,52	0,25 / 0,247
44	majority_class	hse_ling	0,374	0,0	0,217 / 0,484	0,498	0,0 / 0,0	0,513	0,587	0,669	0,503	0,25 / 0,247