Este projeto visa empregar técnicas de aprendizado de máquina para classificação e indexação de textos legislativos. A indexação automática de textos é fundamental para viabilizar mecanismos de consulta mais eficientes e relacionar documentos semanticamente semelhantes, como projetos de lei, notícias e normas.
Atualmente, as normas são classificadas manualmente em 39 temas, distribuidos da seguinte forma:
TEMA | Número de normas |
---|---|
Comunicações | 7065 |
Administração Pública | 4675 |
Finanças Públicas e Orçamento | 3335 |
Política Fundiária | 2634 |
Relações Internacionais | 2271 |
Economia, Administração Financeira e Orçamentária | 2069 |
Tributação | 1108 |
Organização Administrativa do Estado | 1024 |
Educação | 897 |
Viação e Transportes | 832 |
Recursos Hídricos, Minerais e Política Energética | 660 |
Trabalho e Emprego | 565 |
Previdência e Assistência Social | 551 |
Meio Ambiente e Desenvolvimento Sustentável | 535 |
Arte e Cultura | 426 |
Saúde | 414 |
Política Econômica | 382 |
Indústria, Comércio e Abastecimento | 350 |
Desenvolvimento Regional | 292 |
Agricultura, Pecuária e Pesca | 266 |
Sistema Financeiro | 243 |
Direito Civil e Processual Civil | 241 |
Direito Penal e Processual Penal | 237 |
Direitos Humanos, Minorias e Cidadania | 233 |
Homenagens e Datas Comemorativas | 232 |
Desenvolvimento Urbano e Trânsito | 166 |
Processo Legislativo | 146 |
Defesa e Segurança Nacional | 143 |
Ciência e Tecnologia | 142 |
Segurança Pública | 129 |
Desporto e Lazer | 125 |
Turismo | 57 |
Comércio Exterior | 54 |
Direito e Defesa do Consumidor | 53 |
Direito Constitucional | 44 |
Organização Política, Partidária e Eleitoral | 37 |
Direito do Trabalho e Processual do Trabalho | 23 |
Informática | 18 |
Direito e Justiça | 7 |
O objetivo é utilizar as informações de tematização para formar um conjunto etiquetado a ser utilizado em algoritmos de aprendizado supervisionado que resultem em modelos capazes de inferir um ou mais tópicos a partir do texto da norma.
As informações de normas são extraídas do banco de dados do Sistema de Legislação Informatizada (Legin), que armazena mais de 250 mil normas, sendo mais de 175 mil com indexação manual e pouco mais de 32 mil possuem classificação temática. Acesse o notebook com detalhes da preparação dos dados.
Para a classificação das normas em temas foram testados métodos baseados em frequencia de palavras utilizando a biblioteca scikit-learn.
Além da classificação temática, existe um trabalho de indexação manual das normas, que segue um padrão bem definido de assunto principal em caixa alta seguido de subtópicos separados por hífen. Exemplo da indexação da Lei nº 8.666, de 21 de junho de 1993:
LICITAÇÃO - Administração Federal - Fixação - Normas - Contrato administrativo
LEI DE LICITAÇÃO
O número de normas indexadas (> 175 mil) é muito superior ao de normas tematizadas. Esse conjunto de dados poderia ser utilizado para aumentar o conjunto de dados tematizados (data augmentation) ou mesmo treinar modelos multilabel, capazes de atribuir várias classes tags a um mesmo texto.
Mais detalhes sobre as regras de indexação podem ser encontradas no Manual de indexação de proposição legislativa.