О чем говорит статистика
Статистика и её роль в развитии современного общества
Экономические науки
Похожие материалы
В современных условиях развития общества значительно вырос интерес к статистике как науке и ее широкому применению в практической деятельности. Сегодня уже никто не может отрицать значение и недооценивать роль статистики в общественной жизни.
Статистические данные способствуют формированию адекватного представления о нынешнем состоянии дел в стране. Благодаря этому в случае выявления каких-либо отклонений или несоответствий становится возможным своевременно предпринять ряд корректирующих мер и существенно улучшить ситуацию. [5]
Статистика, как любая другая наука, возникла из практических потребностей людей. Возникновение и развитие капитализма потребовало обширной и достоверной информации о состоянии производства, источниках сырья, рынках труда и сбыта продукции и т.п. Накапливается опыт в сборе, систематизации и обработке первичных статистических материалов. Появляется потребность в их анализе для выявления закономерностей общественного развития. Термин «статистика» был введен в 1746 голу немецким ученым, профессором философии и права Готфридом Ахенвалем (1719-1772). С тех пор статистика занимает видное место как наука о массовых явлениях, является важным подспорьем в решении как государственных, так и хозяйственных задач.
Существует общеизвестное высказывание о роли статистики в системе других наук, которое звучит так: «Статистика — царица всех наук». Это высказывание говорит о том, что в основе выводов и положений большинства социальных наук лежит статистическая база — изучение множественных явлений с помощью статистических методов.
Систематическое ведение статистики – это залог качественного и профессионального управления, показатель хорошей информированности руководителя. Любое новое начинание строится, прежде всего, на оценке существующих фактов, состояния в данной отрасли. [1]
Коренные экономические преобразования, связанные с переходом на рыночные условия хозяйствования, изменили статистическую систему, действующую в России. Страна вынуждена быстро и активно включаться в работу по адаптации к международным стандартам. Изменились методики статистического учета. Разрабатываются новые методики сбора и обработки статистической информации.
В условиях изменения социально политической роли статистики как фактора формирования общественного сознания особое значение имеет существенное расширение гласности и доступности сводной статистической информации при сохранении принципа конфиденциальности индивидуальных данных. Это является одним из крайне необходимых направлений демократического общества. Расширение публикаций статистической информации позволяет лучше видеть положение дел на местах в отдельных регионах, сосредоточить внимание на недостатках и упущения для их устранения.
Возвращение статистике широкого общественного предназначения определяет главные направления ее развития:
Перед статистикой встают проблемы теоретического обоснования обьема и структуры статистической информации, отвечающей современным и перспективным условиям развитой экономики, перехода к функциональным принципам управления.[3]
Важной задачей статистики является осуществление расчетов величины прожиточного минимума и определение численности населения. Имеющего доходы ниже черты бедности, сбор информации о распределении пенсионеров по размеру пенсий, работающих на предприятиях всех форм собственности – по уровню получаемой зарплаты, продолжительности рабочего времени, отпусков.
Статистика занимается изучением формирования новых отношений собственности, её приватизации, развития новых форм хозяйствования и видов предпринимательской деятельности. При этом, наряду с количественным измерениями становления многоукладной экономики, значительно расширяется информация о качественных показателях предприятий различных форм собственности и хозяйствования с тем, чтобы проводить сопоставительный анализ эффективности их деятельности.
О роли и значении статистики в развитии общества, в научном познании окружающего мира и в управлении предприятием свидетельствует система и виды статистических показателей.
Без статистической информации невозможно познание закономерностей природных и социальных массовых явлений, их предвидение, а значит, и регулирование либо прямое управление, будь то на уровне отдельного предприятия, города или региона, на государственном или межгосударственном уровне.
В период перехода экономического комплекса на принципиально новые методы и формы хозяйствования очень важно определить место и роль статистике в экономики страны.
В заключение следует сказать, что статистика это наука, которая является неотъемлемой в жизни каждого общества, она определяет динамику развития, спада, роста общественных явлений. Это наука, которая решает определенные задачи благодаря наличию и развитию статистических методов, а также благодаря развивающимся информационным технологиям. Результаты исследования массовых явлений методами статистики являются объективной базой в других науках, являются залогом достоверности сделанных ими выводов.
Список литературы
Завершение формирования электронного архива по направлению «Науки о Земле и энергетика»
Создание электронного архива по направлению «Науки о Земле и энергетика»
Электронное периодическое издание зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), свидетельство о регистрации СМИ — ЭЛ № ФС77-41429 от 23.07.2010 г.
Соучредители СМИ: Долганов А.А., Майоров Е.В.
О чем говорит статистика: 20 фактов, которые заставляют взглянуть на мир по-другому
Важность статистики сложно опровергнуть – на сегодняшний день ее используют в разных сферах, например, в рекламе и новостях. Среди многочисленных данных можно выделить действительно полезную информацию, которая по-настоящему удивит.
1. Экологическая катастрофа
Ученые уже устали говорить о том, что человечество находится на грани экологической катастрофы. Если вы не верите в эту информацию и уверены, что до серьезных проблем еще очень далеко, то вы ошибаетесь. Данные показывают, что за последние 40 лет было уничтожено до 50% дикой природы.
2. «Мертвые» профили в социальной сети
В одной из самых популярных социальных сетей Facebook зарегистрировано более 1,5 млрд. пользователей. Логично предположить, что в ней есть страницы тех, кто уже ушел из жизни. На самом деле цифры действительно шокируют, оказывается, каждый день умирает примерно 10 тыс. зарегистрированных пользователей. В итоге примерно 30 млн. страниц являются неактивными. Кстати, родственники могут обратиться в поддержку сайта с просьбой удалить профиль или присвоить ему мемориальный статус, но в действительности это происходит редко.
3. Неравные условия
Следующей информации невозможно не удивиться. Только представьте, население Бангладеша составляет примерно 163 млн., а России – около 143 млн. При этом площадь последней в 119 раз превышает площадь первой. Возникает вопрос: «Где там размещаются все эти люди?».
4. Невероятная прибыль
Компания Samsung является одной из самых популярных в мире, а ее продукцией пользуются миллионы людей. При этом мало кто задумывался над реальной прибылью этого бренда. Готовьтесь к шоку, поскольку статистика показывает, что сумма составляет четвертую часть ВВП Южной Кореи, а про Северную Корею можно вообще не говорить.
5. Шокирующая безграмотность
Ученые составили статистику, чтобы понять, какое количество людей умеет читать, и в итоге данные показали удивительные результаты. Как оказалось, около 775 млн. человек не умеют читать. Цифры, конечно, большие, но при этом стоит заметить, что до XX века умением читать владели только люди, принадлежащие к элите. Ситуация была изменена благодаря распространению всеобщего образования.
6. Американский ужас
Многие воспринимают Америку, как богатую страну с хорошим уровнем жизни, но статистика указывает на другое положение. В Южной Дакоте находится индийская резервация Пайн-Ридж, уровень жизни в которой приравнивается к странам Третьего мира. Данные показывают, что средняя продолжительность жизни мужчин составляет 47 лет, а уровень безработицы превышает 80%. Кроме этого, на этой территории нет канализации, водопровода и электричества. Ужасные показатели, как для Америки.
7. Проблемы с позвоночником
Малоподвижный образ жизни, неправильные позы во время сидения и другие современные причины вызывают и у взрослых, и у детей проблемы с позвоночником. Нарушения наблюдаются более чем у 85% людей в мире.
8. Призраки повсюду
Статистические данные показывают, что примерно 42% жителей Америки уверены, что духи и потусторонние сущности существуют. Четвертая часть населения думает, что реальны ведьмы, а 24% уверяют, что возможна реинкарнация.
9. Алкогольная статистика
Многих не удивит тот факт, что люди начинают слишком рано пить алкоголь, но реальные цифры действительно пугают. Оказывает, больше 50% людей в возрасте от 14 до 24 лет минимум раз в неделю пьют пиво. Много детей младше 14 лет употребляют алкоголь.
10. Основной вид млекопитающих
Вот если провести опрос с целью узнать у людей, каких млекопитающих больше всего на Земле, то мало кто назовет летучих мышей, которые, как оказывается, составляют 20% от всех млекопитающих планеты. Для сравнения: всего существует 5 тысяч видов млекопитающих и 1 тысяча из них – летучие мыши.
11. Когда ожидать сердечного приступа?
Каждый год огромное количество людей умирает от сердечных приступов. Так, статистика показывает, что мы больше всего подвержены приступам во время сна и сразу после пробуждения, поскольку в этот момент организм испытывает стресс. Удивляет и тот факт, что большинство случаев фиксируется по понедельникам, а это 20% процентов.
12. Сплетни – зло
Людей можно разделить на две категории: те, кто переживает, что про них говорят окружающие, и те, кому это совсем неважно. Интересен тот факт, что 40% людей волнуются по поводу того, что о них может кто-то сплетничать.
13. Близкие родственники
Многочисленные исследования и статистические данные показывают, что все люди на планете произошли от 10 тысяч человек, которые проживали на земле примерно 70 000 лет назад. Доказывают эту версию частые генетические сбои, возникающие при рождении детей у близкородственных людей. Это свидетельствует о том, что ДНК очень схожи друг с другом.
14. Комары – убийцы
Многих удивляет тот факт, что одним из самых опасных животных на земле является очень маленькое насекомое – комар. Статистика показывает, что каждый год от малярии умирает примерно 600 000 человек. При этом, согласно средним оценкам, около 200 млн. людей на данный момент заражены этой опасной болезнью.
15. Мусорный кошмар
Многие даже не задумываются о том, какое количество мусора каждый год выбрасывает среднестатистический человек. Исследования показали, что на каждого городского жителя приходится примерно 3 ц. Главные «загрязнители» – Америка и Европа, но еще большой вклад вносят Индия и Китай.
16. Что любят мужчины после секса?
Каждая женщина может рассказать, чем нравится заниматься ее мужчине после интимной близости. В итоге проведения исследований удалось составить статистику, которая показала, что 47% мужчин любят поговорить с партнершей, 20% – стремятся быстрее добраться до душа, 18% – сразу отворачиваются и засыпают, 14% – после секса закуривают, 1% – дали другие ответы.
17. Безопасный транспорт
После ужасной трагедии, которая произошла 11 сентября в США, у многих людей появился страх летать на самолетах. В итоге это существенно повысило процент аварий на дорогах, приводящих к смерти. На сегодняшний день все же самым безопасным транспортом в мире признан именно самолет.
18. Статистика кошмаров
Исследователи из Дании в 2014 году собрали статистику, которая показала, что слепые люди чаще зрячих мучаются от ночных кошмаров. Удивительно, но примерно 25% снов незрячих – кошмары, что значительно больше 6% для обычных людей. Ученые объясняют такую разницу тем, что слепые люди во время бодрствования намного чаще подвергаются разным рискам.
19. О чем рассказывает Google?
Современные люди, чтобы найти ответ на интересующий их вопрос, первое, что делают – задают его в поисковые системы. Статистика показывает удивительные данные, согласно которым, за последние 15 лет примерно 2% запросов в Google были новыми. Ежедневно люди вводили примерно 500 млн. запросов, которые раньше никогда не повторялись.
20. Люди – вредители
О масштабах губительной деятельности людей мало кто представляет и в цифрах это решил показать Всемирный институт ресурсов. Статистика указывает, что каждый год из-за загрязнений, вырубки лесов и дератизации с лица земли исчезает коло 100 биологических видов. В итоге можно сделать вывод, что к 2050 году половина из существующих сейчас видов флоры и фауны перестанет существовать.
Основы статистики: просто о сложных формулах
Статистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:
Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.
Черный ящик статистического анализа
Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:
О чем нам, собственно, говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
А теперь несколько примеров про p-value
Давайте разберем все ответы по порядку:
Онлайн-курс по основам статистики: сложные формулы несложным языком
Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.
Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.
7 базовых статистических понятий, необходимых дата-сайентисту
Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.
У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.
В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:
Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.
С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.
1. Меры описательной статистики
Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:
Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.
Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.
2. Распределение
Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.
Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.
В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.
Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.
Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.
Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.
Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.
Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.
3. Семплирование
Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.
Но тут сразу же возникают вопросы:
Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.
Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.
Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.
В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.
4. Смещение
Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.
Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».
Чаще всего причиной смещения являются:
Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.
Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.
Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:
Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.
Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»
5. Дисперсия
Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.
Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:
(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5
Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.
Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.
6. Дилемма (компромисс) смещения и дисперсии
Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.
Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.
Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.
С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.
Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.
Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.
В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.
Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.
Учтите это, если захотите сделать свой ИИ более похожим на человека.
7. Корреляция
Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.
Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:
Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.
И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.
Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.
Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.
Заключение
Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.
Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.
В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!
Polina Vari для Skillbox
Для отличия статистического термина от терминов из других отраслей (музыки, биологии) часто пишут этот термин через «е», а не через «э».
Описательная статистика (англ. descriptive statistics) занимается обработкой опытных данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.
Тренировочный набор, или обучающая выборка (англ. train set, training sample), — часть данных из датасета, по которой производится настройка или оптимизация модели машинного обучения.
Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты и др.) будут интересны пользователю.
Разницу между наблюдаемым значением и значением, предсказанным моделью.