Необходимо написать утилиту для антиплагиата, которая сравнивает два текста программ на Python и выдает оценку их похожести.
Для подбора параметров модели Тинькофф предлагает корпус текстов. (Хранятся в папке plagiat) (В папке files лежат исходные тексты программ, в папках plagiat1 и plagiat2 можно найти программы, полученные из исходных разными преобразованиями. Тестироваться алгоритм будет на документах, обработанных аналогичным образом.)
Нужно реализовать скрипт compare.py, который принимает файл со списком пар документов и путь до выходного файла. Скрипт должен сравнить пары документов и записать в выходной файл оценки похожести текстов программ.
- Есть возможность протестировать функцию нахождения расстояния Левенштейна без входных данных, просто на заранее созданных строках
- Есть подключаемая функция нормализации входных текстов программ