Естественные науки
Вопрос по статистике
Есть большой список чисел, распределенных неравномерно в диапазоне от 0 до 100. Нужно найти некий диапазон этих чисел, куда входит большинство значений из списка. Подходит ли для этой задачи использование квантилей, и если да, то возможно ли как-то рассчитать погрешность Q1 и Q3?
Некорректная формулировка:
Что означает "большинство"?
ведь можно просто взять интервал, в который не входит одно число.
Сформулируй точно- что именно надо?
Например: найти наибольший интервал, в котором плотность чисел больше чем....
или: найти интервал, содержащий ...чисел с наибольшей плотностью.
Что означает "большинство"?
ведь можно просто взять интервал, в который не входит одно число.
Сформулируй точно- что именно надо?
Например: найти наибольший интервал, в котором плотность чисел больше чем....
или: найти интервал, содержащий ...чисел с наибольшей плотностью.
Андрей Рычков
Отправил Вам на почту описание задачи с более конкретными условиями. Если не сложно, посмотрите
1) "Большинство" можно определять по-разному.
Вариант через квантили - один из самых разумных. Только если ты возьмешь за границы 1й и 3й квартили, то между ними будет ровно 50% чисел, что явно не тянет на "большинство". Я бы предложил взять диапазон от 2,5%-ой квантили до 97,5%-ой квантили (между ними тогда будет 95% чисел).
2) Доверительные интервалы для значений квантилей в простом случае (когда выборка достаточно велика и случайные величины - непрерывные) можно посчитать в нормальном приближении - см. формулу в самом конце этой страницы: http://www.machinelearning.ru/wiki/index.php?title=Квантиль
Если же случайные величины дискретные (т. е. там, например, только целые числа от 0 до 100), то, по-хорошему, надо использовать формулы с коррекцией на дискретность (что есть большой геморрой). Так что можно для грубых оценок ограничиться и непрерывным приближением.
3) Кстати, имеет смысл просто построить гистограмму имеющихся "чисел от 0 до 100" - если будет видно, что там что-то похожее на какое-то стандартное распределение (не обязательно именно нормальное) и если физика задачи не отрицает возможность существования такого стабильного распределения, то можно ввести (и статистически подкрепить) предположение о распределении исходных чисел - и тогда уже получать аналитические выводы, а не выборочные квантили.
Вариант через квантили - один из самых разумных. Только если ты возьмешь за границы 1й и 3й квартили, то между ними будет ровно 50% чисел, что явно не тянет на "большинство". Я бы предложил взять диапазон от 2,5%-ой квантили до 97,5%-ой квантили (между ними тогда будет 95% чисел).
2) Доверительные интервалы для значений квантилей в простом случае (когда выборка достаточно велика и случайные величины - непрерывные) можно посчитать в нормальном приближении - см. формулу в самом конце этой страницы: http://www.machinelearning.ru/wiki/index.php?title=Квантиль
Если же случайные величины дискретные (т. е. там, например, только целые числа от 0 до 100), то, по-хорошему, надо использовать формулы с коррекцией на дискретность (что есть большой геморрой). Так что можно для грубых оценок ограничиться и непрерывным приближением.
3) Кстати, имеет смысл просто построить гистограмму имеющихся "чисел от 0 до 100" - если будет видно, что там что-то похожее на какое-то стандартное распределение (не обязательно именно нормальное) и если физика задачи не отрицает возможность существования такого стабильного распределения, то можно ввести (и статистически подкрепить) предположение о распределении исходных чисел - и тогда уже получать аналитические выводы, а не выборочные квантили.
Андрей Рычков
Отправил Вам на почту описание задачи с более конкретными условиями. Если не сложно, посмотрите
Похожие вопросы
- Вопрос по статистике
- Вопрос по статистике
- Вопрос любителям статистики и теории вероятностей (внутри) . О жеребьёвке со спичками.
- Теория вероятности и статистика
- Откуда у нас столько вранья о статистике имеющих высшее образование?
- Александр Чижевский. Влияние солнца на земные процессы. Физика или статистика?
- Частные совокупности в статистике
- Подскажите как решать данную задачу на статистику?
- Почему математики врут, что Статистика дает предсказание близкое к реальному, только при большом количестве выборок?
- ФИЗИКА - ЭТО НЕ НАУКА? Статистика ФАКТОВ, Описываемая математикой? Физика не отвечает на вопросы ---Почему ?