View Code? Open in Web Editor
NEW
📉 金融文本情感分析模型
Home Page: https://yuanxin.me/
news-emotion's Introduction
- 🔭 I’m currently working for Bytedance
- 🌱 I’m currently learning System & Algorithm Design
- 📫 How to reach me: yuanxin.me
- 💬 Ask me about Serverless/Cloud/Frontend
![](https://camo.githubusercontent.com/8cd246dc1d9840fa7c0985c645d77ab2f981ecd47e601b5a5010cb1f5f518c78/68747470733a2f2f6769746875622d726561646d652d73746174732e76657263656c2e6170702f6170693f757365726e616d653d646f6e677975616e78696e2673686f775f69636f6e733d74727565267469746c655f636f6c6f723d6666662669636f6e5f636f6c6f723d37396666393726746578745f636f6c6f723d3966396639662662675f636f6c6f723d313531353135)
news-emotion's People
Contributors
news-emotion's Issues
求助:希望提供关于TF-IDF
的时间复杂度降低的解决办法。
关于TF-IDF
模型的实现在这里:news-emotion/operate_data.py的words2vec
方法中。
可以清晰的看到,实现的代码中和其他方法相比,多了一个循环,时间复杂度变成原来的N
倍。
由于目前没有相应的集群供我们使用,并且服务器跑1000个训练样本也很慢,所以暂时先取消tf-idf
这中词向量的尝试,之后会再重新补上。
![tf-idf](https://user-images.githubusercontent.com/26399528/32143649-95b284b4-bce7-11e7-9385-fe39c8e055fb.png)
不少朋友Email我询问训练样本的事情,这里统一说明一下。
- 来源:
wisenews
网站。
- 分类:属于港股的新闻,数据库目前有80w+的新闻文本。
![database](https://user-images.githubusercontent.com/26399528/32141473-7d63e888-bcbc-11e7-8933-55772e253868.png)
- 训练样本:从以上的80w+的新闻文本中挑选出的最新的1000条新闻,人工打标后交给模型训练。
由于项目需要,所以在公开的仓库没有上传打标的文本,之后会考虑上传训练用的全部文本,供同好使用。
在不过拟合的前提下,相信样本的打标的准确率是大家最期待的结果。那么,这里公布一下的1000个打标的数据模型,在留一验证后的准确率。
二分类
只是将新闻打标分为正极和负极,各路论文的常见分类。
![two-tag](https://user-images.githubusercontent.com/26399528/32141527-daccfed2-bcbd-11e7-9c88-04b27c0b3ba0.png)
三分类
将新闻文本分为正极、负极和中性三个类别。基本上,所有论文都尽力规避中性分类,但是,在现实中确是存在的问题。当然,在打标上,中性分类的标注也需要斟酌。就目前结果来看,三分类的效果可以接受。
![three-tag](https://user-images.githubusercontent.com/26399528/32141599-51b1a1fa-bcbf-11e7-82b5-894b21b95e1c.png)
一些说明
由于一些问题,这里先取消了tf-idf
和svm
及相关模型的组合,具体原因请移步bug Issues
查看。(上面结果中,会有一行一列均为0)
做的不错,不过requirements.txt文档希望能补上