Datasaurus Dozen

csv

statistics

fun

visualization

Джерело: Alberto Cairo

Автор

Ігор Мірошниченко

Дата публікації

2026-06-03

Дані

Датасет містить 13 вибірок даних.

Кожен піднабір містить п’ять статистик, які є (майже) однаковими в кожному випадку:

середнє значення x
середнє значення y
стандартне відхилення x
стандартне відхилення y
та кореляція Пірсона між x та y

Однак діаграми розсіювання показують, що кожен піднабір даних виглядає дуже по-різному. Цей набір даних призначений для того, щоб навчити студентів, що важливо будувати власні графіки, а не покладатися лише на статистичні дані.

'https://raw.githubusercontent.com/Aranaur/aranaur.rbind.io/main/datasets/datasaurus/datasaurus.csv'

	dataset	x	y
0	dino	55.384600	97.179500
1	dino	51.538500	96.025600
2	dino	46.153800	94.487200
3	dino	42.820500	91.410300
4	dino	40.769200	88.333300
...	...	...	...
1841	wide_lines	33.674442	26.090490
1842	wide_lines	75.627255	37.128752
1843	wide_lines	40.610125	89.136240
1844	wide_lines	39.114366	96.481751
1845	wide_lines	34.583829	89.588902

1846 rows × 3 columns