Git Product home page Git Product logo

plainrussian's Introduction

plainrussian

Plain Russian Language / Понятный (простой) русский язык.

Данный проект создан для того чтобы собрать в одном месте разрозненный код, тексты и материалы по понятности / простоте / ясности русского языка.

Текстовые файлы в textmetric - это специально подобранные тексты с предварительными возрастными пометками. Это позволяет разрабатывать собственные алгоритмы анализа читабельности, простоты, понятности текстов на базе этих метрик.

textmetric/metrics.csv - перечень метрик

  • filename - имя файла в папке textsbygrade
  • name - название текста
  • grade - год обучения необходимый для понимания текста, экспертная оценка
  • index_fk_rus - измерение сложности текста в годах обучения по формуле Flesch-Kinkaid
  • fk_grade_diff - разница в измерении сложности по формуле Flesch-Kinkaid и предустановленной экспертной оценкой
  • index_cl_rus - измерение сложности текста в годах обучения по формуле Coleman-Liau
  • cl_grade_diff - разница в измерении сложности по формуле Coleman-Liau и предустановленной экспертной оценкой
  • index_dc_rus - измерение сложности текста в годах обучения по формуле Dale-Chale
  • dc_grade_diff - разница в измерении сложности по формуле Dale-Chale и предустановленной экспертной оценкой
  • index_SMOG_rus - измерение сложности текста в годах обучения по формуле SMOG
  • SMOG_grade_diff - разница в измерении сложности по формуле SMOG и предустановленной экспертной оценкой
  • index_ari_rus - измерение сложности текста в годах обучения по формуле Automatic Readability Index
  • ari_grade_diff - разница в измерении сложности по формуле Automatic Readability Index и предустановленной экспертной оценкой
  • chars - число знаков в тексте
  • spaces - число пробелов
  • letters - число букв
  • n_syllabes - общее число слогов
  • n_words - общее число слов
  • n_complex_words - число сложных слов
  • n_simple_words - число простых слов
  • n_sentences - число предложений
  • c_share - доля сложных слов в процентах
  • avg_syl - среднее число слогов на слово
  • avg_slen - среднее число слов на слово
  • wsyllabes - словарь частоты слов по количеству слогов значений в формате { "число слогов" : "число слов"}

plainrussian's People

Contributors

ivbeg avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.