Git Product home page Git Product logo

pandas-tutorial's Introduction

教程目录

    0. 配置环境
    1. Series和DataFrame对象的创建
    2. Series和DataFrame对象的查、改、增、删
    3. merge详解
    4. Index对象的创建,查、改、增、删和使用
    5. 普通列和行index的相互转化
    6. 数据结构总览
    7. 显示控制
    8. 快速查看整体信息
    9. 数值运算
    10. 数值统计运算
    11. mask与比较运算(待完成)
    12. Category型与离散化
    13. 时间型操作
    14. Object型操作
    15. groupby详解(待完成)
    16. resample详解(待完成)
    17. ……

教程说明

当今最热的职业是数据科学,数据科学领域应用最广泛的编程语言是python,python这么火的原因就是其有一个功能强大的数据科学库:pandas。

为什么写这套教程

然而,作为一名数据科学行业从业者,即使在pandas中浸淫日久,我常常还需要去查询官方文档,这严重影响了我的工作效率;甚至有时候迫不得已还得写循环操作,非常不pandas,这我忍不了,所以我觉得我得做点什么。

经过多次通读官方文档后,我认为问题根因在于:

  • 官方文档组织杂而乱,知识框架不够精炼一致;
  • 面面俱到,高价值信息被为了完整性而稀释;
  • 文档更新不及时,API功能有时与文档描述不符。

与此同时,我也通读了国内外各种pandas教程,不过总体而言这些教程多数浅尝辄止,不够实用。所以,我决定编写一套pandas教程,提高自己能力的同时,也能帮助大家少走弯路。

教程编写核心原则

这套教程编写的核心原则是:

  • 首重知识体系逻辑,没有组织、不成体系的信息是无效信息,很难记住和使用;
  • 知识粒度大小适中,即不流于表面也不深入过多细节;
  • 示例精炼短小(能看出操作效果),方便手打练习;
  • 在示例位置都会注上解释,辅助理解。

这套教程适合谁

这套教程包含从初级到进阶的内容,适合初学者和希望进阶建立知识体系的数据科学从业者阅读。为确保教程的高可用性和准确性,我花了大量时间精心准备,但仍难免有错漏,非常欢迎各位读者能够跟我反馈。

知乎主页

花半楼:https://www.zhihu.com/people/HANGZS

交流可以加我微信

微信号:204078950

公众号:花半楼

image

pandas-tutorial's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

pandas-tutorial's Issues

在第0章中可以更新一些其他方法

  1. 除了本地配置Jupyter Notebook之外,使用ColabDatalore等在线软件会更方便一些。
  2. 可以添加一些使用远程服务器上的Jupyter Notebook的方法。

Awesome project

最近在使用 pandas,正如你所说的 “pandas 的文档为了保证完整性导致有价值的东西隐匿”。所以,促使我找到了你的这个项目。:trollface:

而你写的教程逻辑连贯、清晰,每章都是常用的知识点。不管是用作 cheat sheet 还是入门、进阶教程都是非常适合的。我会收录到我的 HelloGitHub 项目,希望更多人看到你的项目。

最后是我的一些建议:

建议:

  • README.md 中加入目录,折叠语法:<details></details>
  • 关于性能对比和解释,比如不推荐 for 循环 row 操作,多采用 colum 的

一点文字的错误

image

2. Series和DataFrame对象的查、改、增、删.ipynb

1.1.3 .iloc[],基于位置
无视索引,只安装位置定位。

应该是只按照位置定位

对于【1.1.3 iloc】中的使用方法翻译存疑

pd.Series.loc:

"Access a group of rows and columns by label(s) or a boolean array."

pd.Series.iloc:

"Purely integer-location based indexing for selection by position."

“无视索引,只按照位置定位。” → “以(整数形式的)索引实现位置定位。”
iloc中的i可以指integer,也可以指index。总之,在使用方法上通过interger-based index实现定位。
而原文中的“无视索引”容易引起歧义。(或许是想对比label-based index?)

使用问题

感谢楼主的辛勤劳动。我使用这个教程有个问题,我的jupyter是5.0.0.,导入你的ipynb出错,显示“Unreadable Notebook: C:\Users\Administrator\Desktop\0. 配置环境.ipynb NotJSONError("Notebook does not appear to be JSON: '\n\n\n\n\n\n\n<html lang...",)”。这个怎么解决呢?

还会更新吗?

如题,对我很有帮助,可目录里都到15了,实际上并没有后续了.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.