Exploratory Data Analysis(探索性数据分析,EDA)是分析数据集以获取其主要特征的一种方法,通常会结合使用可视化方法。它主要是来查看,在借助于正式的模型与假设检验之外,数据还能告诉我们什么。在历史上,John Tukey是推广EDA的关键人物(1977年,出版同名书籍)。
本文通过实例讨论在NLP中的EDA。
开始之前
安装
1 | pip install \ |
数据
文本统计
文本的可视化统计数据很简单,但能给出有效的信息。
- 词频
- 句长
- 平均词长
- …
以此了解文本数据的基本特征。对continuous data,使用histogram,对categorical data,使用bar chart。