Datasaurus Dozen

csv
statistics
fun
visualization
Джерело: Alberto Cairo
Автор

Ігор Мірошниченко

Дата публікації

2024-05-03

Дані

Датасет містить 13 вибірок даних.

Кожен піднабір містить п’ять статистик, які є (майже) однаковими в кожному випадку:

  • середнє значення x
  • середнє значення y
  • стандартне відхилення x
  • стандартне відхилення y
  • та кореляція Пірсона між x та y

Однак діаграми розсіювання показують, що кожен піднабір даних виглядає дуже по-різному. Цей набір даних призначений для того, щоб навчити студентів, що важливо будувати власні графіки, а не покладатися лише на статистичні дані.

'https://raw.githubusercontent.com/Aranaur/aranaur.rbind.io/main/datasets/datasaurus/datasaurus.csv'
dataset x y
0 dino 55.384600 97.179500
1 dino 51.538500 96.025600
2 dino 46.153800 94.487200
3 dino 42.820500 91.410300
4 dino 40.769200 88.333300
... ... ... ...
1841 wide_lines 33.674442 26.090490
1842 wide_lines 75.627255 37.128752
1843 wide_lines 40.610125 89.136240
1844 wide_lines 39.114366 96.481751
1845 wide_lines 34.583829 89.588902

1846 rows × 3 columns