🤯➡😊Упрощение текста

Сервис для автоматического упрощения текстов на русском языке. Проект в раках курса My First Data Project от университета ИТМО.

Корпус: RuSimpleSentEval + RuAdapt.

Бейзлайн: берем несколько первых сиинтаксических уровней каждого текста, заменяем слова на более простые синонимы. Синонимы из этого списка + подбираются по текстам корпуса с помощью fastText. Код лежит в папке baseline, эксперименты - там же, в ноутбуке baseline simplification.ipynb.

Модель: t5 (несколько вариантов моделей). Код для обучения и инференса в папке seq2seq, эксперименты - там же, в ноутбуке seq2seq_simplification for simplification.ipynb. Также провела эксперимент с созданием модели для усложнения текстов - код в ноутбуке complication.ipynb.

Метрики: SARI, BLEU, FKGL (модифицированная для русского языка). Код для экспериментов и подсчета метрик - в папке experiments. Чекпоинты метрик для нейросети хранятся в файле с логами (seq2seq/train.logs). Для бейзлайна метрики в ноутбуке baseline simplification.ipynb.

Обертка: cервис обернут в телеграм-бота, который делает запросы к API модели на huggingface (M-A-E/russian_text_simplification). Код в папке bot. Сам бот хостится на pythonanywhere и доступен по ссылке: https://t.me/TextSimplifierBot.
Также в разработке расширение для Google Chrome. Подробности в папке extension.
API сервиса упакован в docker-контенейнер. Подробности в app.

anna-marshalova / text_simplifier Goto Github PK

text_simplifier's Introduction

🤯➡😊Упрощение текста

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent