ai-forever / model-zoo Goto Github PK

View Code? Open in Web Editor NEW

45.0 3.0 1.0 23.03 MB

NLP model zoo for Russian

License: Apache License 2.0

nlp bert t5 t5-model roberta roberta-model russian-language russian pytorch transformers

model-zoo's Introduction

Welcome to the Model Zoo!

Here you can find NLP models for Russian, implemented in HF transformers🤗

Models:

Model	Task	Type	Tokenizer	Dict size	Num Parameters	Training Data Volume
ruBERT-base	mask filling	encoder	bpe	120 138	178 M	30 GB
ruBERT-large	mask filling	encoder	bpe	120 138	427 M	30 GB
ruRoBERTa-large	mask filling	encoder	bbpe	50 257	355 M	250 GB
ruT5-base	text2text generation	encoder-decoder	bpe	32101	222 M	300 GB
ruT5-large	text2text generation	encoder-decoder	bpe	32101	737 M	300 GB

ruT5

Text2Text Generation task T5 paper

Large: HF Model
Base: HF Model

Model parameters

ruRoBerta

fill-mask task Roberta paper

Large: HF Model

ruBert

fill-mask task Bert paper

Large: HF Model
Base: HF Model

How to:

Use this to explore the models or run them on your machine.

Model set up:

pip install -r requirements.txt

Pipeline usage

from transformers import pipeline

unmasker = pipeline("fill-mask", model="sberbank-ai/ruRoberta-large")
unmasker("Евгений Понасенков назвал <mask> величайшим маэстро.", top_k=1)

Classical usage

# ruRoberta-large example 
from transformers import RobertaForMaskedLM,RobertaTokenizer

model=RobertaForMaskedLM.from_pretrained('sberbank-ai/ruRoberta-large')

tokenizer=RobertaTokenizer.from_pretrained('sberbank-ai/ruRoberta-large')

unmasker = pipeline('fill-mask', model=model,tokenizer=tokenizer)
unmasker("Стоит чаще писать на Хабр про <mask>.")

Use BertViz to obtain model visualizations

Roberta model_view:

/ !

from transformers import RobertaModel, RobertaTokenizer
from bertviz import model_view

model_version = 'sberbank-ai/ruRoberta-large'
model = RobertaModel.from_pretrained(model_version, output_attentions=True)
tokenizer = RobertaTokenizer.from_pretrained(model_version)

sentence_a = "The cat sat on the mat"
sentence_b = "The cat lay on the rug"
inputs = tokenizer.encode_plus(sentence_a, sentence_b, return_tensors='pt', add_special_tokens=True)
input_ids = inputs['input_ids']
attention = model(input_ids)[-1]
input_id_list = input_ids[0].tolist() # Batch index 0
tokens = tokenizer.convert_ids_to_tokens(input_id_list)
model_view(attention, tokens)

model-zoo's People

Contributors

Stargazers

Watchers

Forkers

vovkinson

model-zoo's Issues

В токенайзере для T5-base отсутсвует токен "Щ"

Я понимаю, что использовались для составления словаря самые популярные токены, но, возможно, в будущем стоит отдать отдельный приоритет токенам длинной в один символ, чтобы при генерации текста не получалось проблем вида:

In: Щелкунчик 42 щелкал щелбаны по щёчкам
Out: <unk> елкунчик сорок два щелкал щелбаны по щёчкам

Взамен таких токенов можно пожертвовать многосимвольными цифровыми токенами а-ля "2007", ".01.", etc.

Модели ruBert не скачиваются на Hugginface

ruBert

Large: HF Model
Base: HF Model

Плохо работает параметр targets в pipeline fill-mask модели sberbank-ai/ruRoberta-large

unmasker = pipeline("fill-mask", model="sberbank-ai/ruRoberta-large",targets=["Майкл", "Таня", "Антон", "Джон"])

Слова Майкл, Таня, Антон, Джон заменяются на нечитаемые символы.

Замена буквы "й" на "и" в токенайзере ruBert-base

Привет!
Возможно это уже обнаруживали ранее, однако мне не удалось найти информации по этому вопросу
При использовании токенайзера ruBert-base буква "й" заменяется на "и", пример приведён ниже. Мне бы хотелось узнать, на каком именно этапе это происходит, если это сделано специально - то для чего, и можно ли переопределить это поведение при использовании модели?

input: 'Из-за повреждений теплосети произошло скопление пара, которое затруднило движение автомобилей и пешеходов из-за плохой видимости и опасности горячего теплоносителя на проезжей части.'
output: [CLS] из - за повреждении теплосети произошло скопление пара, которое затруднило движение автомобилеи и пешеходов из - за плохои видимости и опасности горячего теплоносителя на проезжеи части. [SEP]

ai-forever / model-zoo Goto Github PK

model-zoo's Introduction

Welcome to the Model Zoo!

Here you can find NLP models for Russian, implemented in HF transformers🤗

Models:

ruT5

ruRoBerta

ruBert

How to:

Model set up:

Pipeline usage

Classical usage

Use BertViz to obtain model visualizations

model-zoo's People

Contributors

Stargazers

Watchers

Forkers

model-zoo's Issues

Recommend Projects

Recommend Topics

Recommend Org