Формула полной вероятности — формула Байеса

Личность Томаса Байеса

Томас Байес родился в 1702 году в Лондоне в семье пресвитерианского священника. В юном возрасте он получал домашнее образование. В 1719 году Байес стал абитуриентом университета в Эдинбурге. По стопам отца он постигал основы таких областей научных знаний как логика и богословие. Обучение завершилось в 1722. Получив образование, Байес в первые годы играл роль помощника в процессе проведения служб, а через некоторое время занял должность священнослужителя.

Научная карьера Томаса Байеса отмечена двумя исследовательскими трудами в области теологии и математики. В 1734 году ученый совершил переезд в графство Кент и продолжил службу в часовне Маунт-Сион. Эту деятельность Байес вел до 1752 года. Затем в 1742 году исследователя приняли в состав членства Королевского общества. Причиной послужил весомый вклад Байеса в науку. Благодаря работе ученого, развивались естественно-научные направления, в том числе, математика, инженерные науки и медицина.

Примечание 1

Эта награда была присуждена Байесу несмотря на то, что при жизни была опубликована только одна его работа, но ее значимость оказалась достаточно высока.

Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.

Сер Гаррольд Джеффрис писал, что работа Байсе была также значима для теории вероятности, как и теорема Пифагора в геометрии. Примечательно, что Байес не был классическим математиком, он всю жизнь занимался теологией и интерес к математике и в частности теории вероятности проявил уже в последние годы своей жизни. В 1755 году Байес заболел и умер через 7 лет в Тамбридж-Уеллс.

Полная вероятность и формула Байеса

Прежде чем перейти к определению формулы Байеса разберем несколько определений. Совместная вероятность — вероятность наступления двух событий одновременно \(p(x)=\sum_yp(x,y)\).

Условная вероятность — вероятность наступления одного события, при условии того,  чтобы произошло другое \(p(x|y)=p(x,y)=p(x\vert y)p(y)=p(y\vert x)p(x).\)

Также разберем понятие полной вероятности. Пусть существует некоторое зависимое событие А, событие может произойти только в случае выполнения одной из независимых гипотез B1, B2, B3 и прочих, которые образуют собой полную группу. Под полной группой понимается система случайных событий такая, что при проведении некоторого эксперимента всегда произойдет только одно из этих событий.

Далее нам известны вероятности выполнения каждой из гипотез, имеем P(B1), P(B2), P(B3) и другие, а также соответствующие этим вероятностям условные вероятности \(P_{B1}(A), P_{B2}(A), P_{B3}(A)\) и прочие. Тогда вероятность того, что событие А произойдет записывается в виде \(P(A)=P(B_1)\ast P_{B1}(A)+P(B_2)\ast P_{B2}(A)+P(B_3)\ast P_{B3}(A)+...+P(B_n)\ast P_{Bn}(A).\)

Примечание 2

Формула Байеса или байесовская вероятность — это интерпретация полной вероятности, которая используется в теореме Байеса. По Байесу вероятность определяется как степень истинности суждения. С целью определить степень уверенности истинности суждения используется Теорема Байеса.

Теорема 1

Теорема гласит, пусть А случайное событие, H1, h2,H3...Hn полная группа гипотез, тогда условная вероятность того, что имело место событие Hk, если наблюдалось событие А может быть вычислена по формуле: \(P(H_k\vert A)=\frac{P(H_k)\ast P(A\;\vert H_k)}{{\displaystyle\sum_{i=1}^n}(P(H_i)\ast P(A\;\vert H_i))}\) 

Кроме того, в более упрощенном виде эта формула записывается так: \(P(A\vert B)=\frac{P(B\vert A)\ast P(A)}{P(B)}\)

где P(A) — априорная вероятность гипотезы А, P(B) — полная вероятность выполнения события В, P(A|B) — вероятность гипотезы A при наступлении события B, P(B|A) — вероятность наступления события B при истинности гипотезы A.

Применение теоремы Байеса

Теорему Байеса считают основой с точки зрения вероятностной теории. По этой причине закономерность получила широкое распространение в науке и хозяйственной деятельности. Сложно переоценить значение выводов, к которым пришел ученый. Теория не утратила актуальность до настоящего времени. К примеру, выведенное следствие применимо к процессам и принципам при работе с массивами данных.

Байесовским выводом принято считать методику, смысл которой заключается в усовершенствовании вероятности гипотезы с помощью теоремы Байеса, когда поступают вспомогательные доказательства, либо другая информация. Таким образом, теоретические закономерности, выведенные знаменитым исследователем, применимы в разных направлениях, в том числе, инженерном и медицинском деле, спортивной отрасли, правовом и финансовом секторах экономики.

При управлении финансами с помощью выводов Байеса оценивают степень рисков для предоставления кредитных средств клиентам финансовых учреждений. Применительно к медицине, теорема позволяет вычислить, насколько точны показатели тех или иных анализов. В результате можно определить наличие у пациента патологий и болезней. Глобально теоретические закономерности, сформулированные Байесом, объединяют такие категории как причина и следствие.

С помощью применения теории Байеса выстраивают связи между фактически произошедшим событием и причиной его появления с определенной вероятностью. Если какое-либо событие несет в себе эффект причины, то его принято считать гипотезой. Таким образом, подобные события обладают предположительным характером, то есть способны спровоцировать какой-либо конкретный результат.

В том случае, когда речь идет о вероятности правоты рассматриваемой гипотезы без каких-либо условий, вводят понятие априорной вероятности. Если имеет место фактически случившееся событие, то тогда речь идет об условной вероятности. Апостериорная вероятность выражена степенью вероятности причины при наличии информации о событии.

Примечание 3

Важной областью применения теоремы Байеса является байесовское программирование, обширная методология вероятностных моделей определения событий, когда мы не имеем полной информации о нем, или она не является доступной. Байесовское программирование включает в себя байесовские сети, графовые модели, фильтры Кальмана, скрытые марковские модели и др.

Применение теоремы Байеса дает не всегда однозначные результаты. Важно, что эта теорема как теория эволюции, с одной стороны она проста и глубока, а с другой — при неправильном применении может стать источником для суеверий и псевдонауки. Камнем преткновения в этой теореме служит априорная вероятность. В реальном мире всегда спорно как ее учитывать и измерять в виде числа, поэтому во многих случаях эта вероятность может быть основана только на догадках. Также важным представляется и тщательный поиск альтернативных гипотез. В противном случае теорема может дать подтверждение изначально ложноположительных выводов. Исходя из вышесказанного, перед применением формулы Байеса необходимо проводить комплексный анализ изучаемого явления.

Примеры решения задач

Разберем несколько практических задач, использующих теорему Байеса.

Задача 1

Экзамен сдавали три группы студентов. В первой группе 10, во второй — 8, в третьей — 6 студентов. Известно, что студент из первой группы сдаст экзамен с вероятностью 0,9, так как в этой группе учатся самые сильные ученики, из второй группы с вероятностью 0,6, ученики со средним уровнем знаний, из третьей группы с вероятностью 0,3, ученики с низким уровнем. Найти с какой вероятностью сдаст экзамен случайно вызванный студент?

Решение

Обозначим за А событие случайный студент сдаст экзамен, тогда Н1 студент из первой группы, Н2 — из второй, Н3 — из третьей.

Р(Н1)=10/24,

Р(Н2)=8/24,

Р(Н3)=6/24.

Р(А|Н1)=0,9, 

Р(А|Н2)=0,6, 

Р(А|Н2)=0,3.

Событие А может произойти только с одним из событий Н1.Н2 и Н3, студенты могут быть только из выбранных групп, тогда составим формулу полной вероятности Байеса: 

\(P(A)=P(B_1)\ast P_{B1}(A)+P(B_2)\ast P_{B2}(A)+P(B_3)\ast P_{B3}(A)=10/24*0,9+8/24*0,6+6/24*0,3=0,489\)

Ответ: 0,489.

Задача 2

В водоемах обнаружено загрязнение с превышением предельно допустимых концентраций. Потенциальные источники обнаружены в двух предприятия, причем в одном из них выбросов происходит в 9 раз больше чем во втором. Только 15% сбросов первого предприятия превышают ПДК, а для второго вероятность равна 92 %. Необходимо определить, кто виноват в загрязнении водоемов.

Решение

На первый взгляд кажется очевидным, что второе предприятие является загрязняющим источником, так как целых 92% сбросов превышают ПДК, но рассмотрим эту задачу, использую теорему Байеса. Имеем:

P(H1)=0,9,

P(H2)=0,1,

P(A|H1)=0,15,

P(A|H2)=0,92

Запишем формулу Байеса

\(P(H1|A)=\frac{0,15\ast0,9}{0,15\ast0,9+0,92\ast0,1}=0,595\)

Аналогично и для P(H2|A)

\(P(H2|A)=\frac{0,92\ast0,1}{0,15\ast0,9+0,92\ast0,1}=0,405.\)

Таким образом, мы видим, что условная вероятность наступления события P(H1|A) больше чем P(H2|A).

Ответ: первое предприятие.

Задача 3

Пусть событие B — машина не заводится, а гипотеза A  — нет топлива в баке.

Решение

Сложно оспорить тот факт, что в случае отсутствия бензина автомобиль способен без посторонней помощи двинуться с места. В таком случае, P(B|A) имеет значение, равное единице. Апостериорная вероятность отсутствия горючего при заглохшем транспорте обозначена за P(A|B). Ее значение соответствует P(A)/P(B). В том случае, когда априорная вероятность отсутствия топлива составляет 0,03, а вероятность невозможности запустить автомобиль соответствует 0,06, и произвольно выбранное транспортное средство не завелось, то вероятность отсутствия бензина можно определить как 0,5.

Ответ: 0,5.

Задача 4

Биолог  считает, что бабочка может относиться к редкому подвиду, так как у нее на крыльях есть точки. В редком подвиде 98 % бабочек имеют точки на крыльях, или  P(точки | редкий) = 0,98. Среди обычных бабочек только 5 % имеют узор: P(точки | обычный) = 0,05. Редкого вида бабочек насчитывается лишь 0,1 % среди всей популяции: P(редкий) = 0,001. Какова вероятность того, что бабочка, имеющий узор, относится к редкому подвиду, то есть, чему равно P(редкий | точки)?

Решение

Из расширенной теоремы Байеса получим: 

\(P(редкий/точки)=\frac{Р(точки\vert редкий)\ast Р(редкий)}{Р(точки\vert редкий)\ast Р(редкий)+Р(точки\vert обычный)\ast Р(обычный)}=\frac{0,98\ast0,01}{0,98\ast0,01+0,05\ast0,999}=0,019.\)

Ответ: 0,019.

Задача 5

Рассмотрим на примере «парадокс теоремы Байеса». Пусть существует болезнь с частотой распространения среди населения 0,001 и анализы, которые с вероятностью 0,9 выявляют больного, но при этом имеет вероятность 0,01 ложноположительного результата — ошибочного выявления заболевания у здорового человека. Найти вероятность того, что человек здоров, если он был признан больным по анализам.

Решение

Обозначим событие, что анализы показали, человек болен как «болен» с кавычками, болен — событие, что человек действительно больной, здоров — событие, что человек действительно здоров. Тогда заданные условия переписываются следующим образом:

p(«болен»|болен)=0,9,

Р(«болен»|здоров)=0,01.

При этом:

Р(болен)=0,001

Тогда найдем вероятность события:

P(здоров)=1-Р(болен)=0,999.

Определим вероятность, что человек здоров при результате «болен», получим:

\(р(«болен»)=р(«болен»\vert здоров)\ast р(здоров)+р(«болен»\vert болен)\ast р(болен)=0,01\ast0,999+0,9\ast0,001=0,01089.\)

Теперь найдем вероятность того, что человек здоров при результате \(«болен»=Р(здоров\vert «болен»)\):

\(\frac{Р(«болен»\vert здоров)\ast Р(здоров)}{Р(«болен»)}=\frac{0,001\ast0,999}{0,01089}=0,917.\)

После произведенных вычислений можно прийти к выводу, что 91,7% пациентов с каким-либо диагнозом, подразумевающим наличие патологии, обладают крепким здоровьем и не имеют заболеваний. Итоговый результат выполненных расчетов обусловлен значением вероятностью получения ложного позитивного результата, которое достаточно невелико, но не соотнесено с чрезмерно малой долей людей, имеющих заболевания, в контрольной группе, сформированной для исследований.

Если ошибка диагностики является случайностью, то при вторичном обследовании итог не должен зависеть как-либо от первого анализа. Исключить слишком большую погрешность легко в процессе вторичного обследования пациентов, которым поставили какой-то диагноз в первом случае. Рассчитаем, какова вероятность получения ответа, отличного от статуса «болен», с помощью следующего соотношения:

\(Р((здоров\vert «болен»)\vert «болен»)=\frac{Р(«болен»\vert здоров)\ast(Р(«болен»\vert здоров)\ast З(здоров))}{Р(«болен»\vert здоров)\ast(Р(«болен»\vert здоров)\ast З(здоров))+Р(«болен»\vert болен)\ast(Р(«болен»\vert болен)\ast Р(болен))}=\frac{0,01\ast0,01\ast0,999}{0,01\ast0,01\ast0,999+0,9\ast0,9\ast0,001}=0,1098.\)

Таким образом, можно сделать вывод о том, что вероятность повторной ошибки равна всего лишь около 10%.

Насколько полезной была для вас статья?

Рейтинг: 5.00 (Голосов: 1)

Заметили ошибку?

Выделите текст и нажмите одновременно клавиши «Ctrl» и «Enter»