Набор данных
Набор данных (data set или dataset) — коллекция данных. В случае с табличными данными, набор данных соответствует одной или нескольким таблицам баз данных, где каждый столбец таблицы соответствует отдельной переменной, и каждая строка соответствует записи в наборе данных. Наборы данных хранят значения для каждой переменной, например, высота и вес объекта для каждого члена набора данных. Наборы данных могут также состоять из коллекции документов или файлов.[2]
В концепции открытых данных, набор данных — это единица измерения информации размещенных в публичном репозитории открытых данных. Европейский портал данных (data.europa.eu) агрегирует более миллиона наборов данных.[3] Некоторые другие концепции (источники данных реального времени,[4] нереляционные наборы данных и т.д.) увеличивают сложность достижения соглашения об определении термина набора данных.[4]
Свойства
Несколько характеристик определяют структуру и свойства набора данных. Они включают количество и типы атрибутов или переменных, и различные статистические измерения, применяемые к ним, такие как стандартное отклонение и эксцесс.[5]
Значения могут быть числами, такими как вещественные числа или целые числа, например представляющими рост человека в сантиметрах, но могут также быть и номинальными данными (т.е. не содержащими числовых значений), например, отображающими этническую принадлежность человека. В более общем смысле, значения могут быть одним из видов, описываемых шкалой. Для каждой переменной все значения обычно одного и того же типа. Несмотря на это могут также существовать недостающие значения, которые должны быть обозначены некоторым способом.
В статистике наборы данных обычно поступают из фактических наблюдений, полученных путем выборки из генеральной совокупности, и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут также быть сгенерированы алгоритмами для целей тестирования определенного вида программного обеспечения. Некоторое современное программное обеспечение для статистического анализа, такое, например, как SPSS до сих пор представляет свои данные в классической манере набора данных. Если представлены недостающие или подозрительные данные, то может быть использован метод вменения для дополнения набора данных.[6]
Классические наборы данных
Несколько классических наборов данных широко используются в статистической литературе:
- Ирисы Фишера — многовариантный набор данных, представленный Рональдом Фишером (1936 год).[1]
- MNIST (база данных) — изображения рукописных цифр, обычно используемых для тестирования алгоритмов классификации, кластеризации и обработки изображений.
- Категориальный анализ данных[англ.] — наборы данных, используемые в книге, Введение в категориальный анализ данных.
- Робастность — наборы данных, используемые в книге Robust Regression and Outlier Detection[англ.] (Питер Руссо[англ.] и Лерой, 1968 год). Provided on-line at the University of Cologne.
- Веменной ряд — данные, использованные в книге Чатфилда Анализ временных рядов (The Analysis of Time Series) предоставлены на сайте [1]
- Экстремальные значения — данные, использованные в книге, Введение в статистическое моделирование экстремальных значений (An Introduction to the Statistical Modeling of Extreme Values) снимок данных, в том виде, как они были представлены автором книги, на сайте Stuart Coles, .
- Байесовский анализ данных — данные, использованные в книге Байесовский анализ данных представлены на сайте Эндрю Гельманом[англ.], одним из авторов книги.
- Данные о печени Бупа — использованы в нескольких публикациях в литературе о машинном обучении (data mining).
- Квартет Энскомба — небольшой набор данных, иллюстрирующий важность графического представления данных для избежания статистических заблуждений
См. также
- Данные
- Смешивание данных[англ.]
- Данные (вычислительная техника)
- Data samples
- Data store[англ.]
- Функциональная совместимость
- Система сбора данных
- Список наборов данных для исследований в машинном обучении[англ.]
Примечания
- ↑ 1 2 Fisher, R.A. (1963). "The Use of Multiple Measurements in Taxonomic Problems" (PDF). Annals of Eugenics. 7 (2): 179—188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Архивировано из оригинала (PDF) 28 сентября 2011. Дата обращения: 22 мая 2007.
- ↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1—5. Архивировано 23 ноября 2019. Дата обращения: 13 февраля 2023.
- ↑ European open data portal . European open data portal. European Commission. Дата обращения: 23 сентября 2016. Архивировано 2 октября 2017 года.
- ↑ 1 2 Atz, U (2014). "The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF). CEDEM 2014 Proceedings. Архивировано (PDF) 20 августа 2016. Дата обращения: 1 августа 2016.
- ↑ Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery. — 2000. — ISBN 978-3-540-66490-1.
- ↑ United Nations Statistical Commission. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies / United Nations Statistical Commission, United Nations Economic Commission for Europe. — United Nations Publications, 2007. — P. 20. — ISBN 978-9211169522.
Ссылки
- Data.gov – the U.S. Government's open data
- GCMD – the Global Change Master Directory containing over 34,000 descriptions of Earth science and environmental science data sets and services
- Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
- NYC Open Data – free public data published by New York City agencies and other partners.
- Relational data set repository
- Research Pipeline – a wiki/website with links to data sets on many different topics
- StatLib–JASA Data Archive
- UCI – a machine learning repository
- UK Government Public Data
- World Bank Open Data – Free and open access to global development data by World Bank