Онлайн книга Путеводитель по лжи. Часть 1. Оценка цифр (Дэниел Левитин, 2016)

Путеводитель по лжи (Дэниел Левитин, 2016)

Часть 1. Оценка цифр

Проблемы вам создает не то, чего вы не знаете, а скорее то, в чем вы абсолютно уверены, тогда как на самом деле заблуждаетесь.

Марк Твен

Правдоподобие

Статистика – это цифры, а потому она кажется нам холодной и жесткой. Есть ощущение, что она отражает факты, которые нам дала сама природа, и наше дело всего лишь их найти. Но важно помнить, что собирают статистические данные люди, и никто иной. Люди выбирают, что считать, как считать, какими результатами делиться, какими словами их описывать и как интерпретировать числа[3]. Статистика – это не факты, это интерпретация. И ваша интерпретация может быть такой же хорошей (равно как и такой же плохой), как и та, что вам предлагает другой человек.

Числа не всегда верны, и для начала проще всего быстренько проверить их на правдоподобие. Даже если они прошли проверку, у вас могут возникнуть вопросы трех типов: как данные были собраны, как они были интерпретированы и как представлены графически. Ответы на них помогут вам сформулировать правильные выводы.

Вы можете проверить (в большинстве случаев это возможно), правдоподобен ли факт, в уме или на оборотной стороне конверта. Не принимайте все на веру, попытайтесь разобраться.

Когда мы проводим подобную проверку, точность цифр не очень важна, как бы парадоксально это ни звучало. Достаточно просто здравого смысла: если Берт говорит, что хрустальный бокал упал со стола на ковер и не разбился, это кажется правдоподобным. Если Эрни скажет, что бокал упал с высоты 40-этажного здания на тротуар, не разбившись, это уже будет неправдоподобно. Тут вам помогут знания о том, как устроен мир, а также элементарный жизненный опыт. Подобным же образом, если кто-то вам скажет, что ему 200 лет, или что он постоянно выигрывает в рулетку в Лас-Вегасе, или что он может пробежать 40 миль за час, – все это будет маловероятно и очень неправдоподобно.

Что вы скажете о следующем заявлении?

Все 35 лет после того, как в Калифорнии перестал действовать закон о марихуане, число курильщиков марихуаны удваивается с каждым годом.

Звучит правдоподобно? Давайте разберемся, но с чего же начать? Предположим, что 35 лет назад в Калифорнии был только один курильщик марихуаны – конечно, очень заниженная оценка (в 1982 году по всей стране было полмиллиона арестов за курение марихуаны). Если ежегодно удваивать это число на протяжении 35 лет, получим 17 миллиардов человек – это больше, чем население всего земного шара. (Попробуйте подсчитать сами, и вы увидите, что ежегодное удвоение в течение 21 года приведет вас к числу больше миллиона: 1; 2; 4; 8; 16; 32; 64; 128; 256; 512; 1024; 2048; 4096; 8192; 16 384; 32 768; 65 536; 131 072; 262 144; 524 288; 1 048 576.) Таким образом, это утверждение не то чтобы неправдоподобно – оно попросту невозможно. К сожалению, не у всех получается мыслить четко и ясно, когда речь заходит о числах: многие их просто боятся. Но, как видите, для подобных подсчетов хватит и школьного уровня арифметики плюс здорового скепсиса.

Вот еще один пример. Вас только что взяли в отдел продаж по телефону, и вам нужно обзванивать ничего не подозревающих (и, без сомнения, раздраженных) потенциальных клиентов. Ваш босс, пытаясь вас мотивировать, говорит:

Наш лучший специалист продавал тысячу товаров в день.

Правдоподобно ли это? Попробуйте сами набрать телефонный номер – самое меньшее вам понадобится пять секунд. Плюс еще пять секунд на то, чтобы дозвониться. Теперь давайте предположим, что каждый звонок действительно заканчивается продажей, – это, понятное дело, не очень реалистично, но давайте представим идеальный вариант, чтобы посмотреть, что получится. Добавьте десять секунд: вы проговорите предложение о продаже, а потенциальный клиент его примет. Затем еще 40 секунд, чтобы узнать у него адрес и записать номер кредитной карточки. Это дает один звонок в минуту (5 + 5 + 10 + 40 = 60 секунд), или 60 продаж в час, или 480 продаж за очень напряженный восьмичасовой рабочий день, без перерывов. Так что тысяча товаров, проданных за день, – это нереально, даже при самом оптимистичном раскладе.

Некоторые утверждения оценивать сложнее. Вот, например, заголовок из журнала Time за 2013 год:

Людей с мобильными телефонами больше, чем тех, у кого есть туалет[4].

И как быть с таким утверждением? На ум приходят, с одной стороны, жители развивающихся стран, не имеющие водопровода, а с другой стороны – те многочисленные жители процветающих стран, у кого больше одного мобильного телефона. Кажется, что заявление вполне правдоподобно, – это не означает, однако, что мы должны его принять. Скорее, мы не можем отвергать его просто потому, что оно нелепо. Нам потребуются другие техники для его оценки, но тест на правдоподобие оно прошло.

Иногда нельзя оценить, правдиво ли утверждение, не проведя собственного исследования. Да, конечно, газеты и сайты в интернете должны бы делать это за вас, но так бывает не всегда – вот тогда статистика идет вразнос. Несколько лет назад было очень распространено вот такое утверждение, основанное на статистических данных:

Каждый год в США от анорексии умирает 150 тысяч девушек и молодых женщин[5].

Хорошо, давайте проверим, насколько этот факт правдоподобен. Согласно данным американских Центров по контролю и профилактике заболеваний, ежегодное количество смертей девушек и молодых женщин в возрасте от 15 до 25 от всех видов заболеваний – 8500. Добавьте сюда женщин от 25 до 45 – показатель все равно достигнет только 55 тысяч[6]. Количество случаев смерти от анорексии за год не может превышать в три раза количество всех смертей[7].

В своей статье для журнала Science Луи Поллак и Ганс Вайс сообщили, что с момента образования Communication Satellite Corp.

…расходы на телефонные разговоры снизились на 12 тысяч процентов[8].

Если расходы уменьшаются на 100 %, они падают до нуля (и не важно, какими они были изначально). Если же расходы падают на 200 %, это значит, что кто-то платит вам ту же самую сумму, которую когда-то платили вы ему, чтобы получить его продукт. Снижение на 100 % случается крайне редко, а снижение на 12 тысяч процентов кажется и вовсе маловероятным[9]. В статье в профессиональном издании Journal of Management Development утверждалось, что количество клиентских жалоб сократилось на 200 % в результате перехода компании на новую политику поддержки клиентов[10].

Писатель Дэн Кеппел даже назвал свою книгу Get What You Pay For: Save 200 % on Stocks, Mutual Funds, Every Financial Need («Получите то, за что вы платите: экономьте 200 % на бирже, инвестиционных фондах открытого типа, на любой финансовой потребности»). У Кеппела есть степень MBA. Ему следует лучше разбираться в вопросе. Конечно, чтобы аккуратно сравнивать проценты, их нужно брать от одного и того же базового показателя. Нельзя вернуться к изначальному уровню зарплаты, сокращенной на 50 %, увеличив на 50 % вашу новую, более низкую зарплату[11].

Проценты кажутся простыми и логичными, но иногда они могут и запутать. Если процентная ставка увеличивается с 3 до 4 процентов, то она увеличивается на 1 процентный пункт, или на 33 % (так как увеличение на 1 процентный пункт отсчитывается от базового показателя 3; это увеличение на ¹/₃ = 0,33 от 3). Если же процентная ставка упадет с 4 до 3 процентов, то она уменьшится на 1 процентный пункт. При этом она уменьшится не на 33 %, как в предыдущем случае, а на 25 %, потому что уменьшение на 1 процентный пункт отсчитывается от базового показателя 4 (1 – это ¹/₄, или 25 %, от 4). Исследователи и журналисты не всегда щепетильны в этом вопросе и не видят порой разницы между процентными пунктами и процентами, но вы не должны их путать[12].

The New York Times сообщила о закрытии текстильной фабрики в Коннектикуте и ее переезде в Вирджинию[13]. Причиной такого решения стали возросшие расходы на сотрудников. По сведениям газеты, «фонд заработной платы, все виды компенсации сотрудникам, а также пособие по безработице в Коннектикуте в 20 раз выше, чем в Вирджинии». Правдоподобно ли это? Если бы это было так, вы бы, наверное, ожидали массового исхода в Вирджинию – все компании, а не только эта фабрика, захотели бы переехать, и вы бы уже знали об этом. На самом деле все это неправда, и Times пришлось опубликовать опровержение. Как же такое могло произойти? Дело в том, что журналистка просто неправильно прочла отчет компании. Один показатель – пособие по безработице – на самом деле обходился компании в 20 раз дороже в Коннектикуте, чем в Вирджинии, но с учетом остальных показателей в Коннектикуте все расходы на содержание штата были в целом выше в 1,3 раза, а не в 20 раз. У автора статьи не было образования в сфере бизнес-администрирования – и мы не вправе ожидать этого. Чтобы отследить такого рода ошибку, нужно просто спокойно все обдумать. Это под силу каждому (а журналистка и ее редакторы просто обязаны были это сделать).

В Нью-Джерси одобрили новую законодательную инициативу, согласно которой матери, находящиеся на социальном обеспечении, не получали никаких дополнительных льгот[14]. Некоторые члены законодательного органа посчитали, что женщины в Нью-Джерси специально рожали детей, чтобы увеличить ежемесячное пособие, получаемое от государства. Через два месяца законодатели заявили, что им удалось решить этот вопрос, так как уровень рождаемости снизился на 16 %. Вот что писала New York Times:

Всего два месяца спустя государство опубликовало данные о том, что количество новорожденных детей у женщин, уже находящихся на социальном обеспечении, уменьшилось на 16 %[15]. Власти поздравляют себя с потрясающими результатами, которых они добились в такие короткие сроки.

Обратите внимание, что учитывались не беременности, а количество родов. Что же здесь не сходится? Так как беременность длится девять месяцев, никакие изменения за последние два месяца нельзя связывать напрямую с законом. Скорее всего, тут свою роль играют обычные колебания рождаемости (ведь известно, что уровень рождаемости – дело сезонное).

Есть в этом вопросе и другие неточности, которые нельзя обнаружить простой проверкой на правдоподобие:

…с течением времени эти 16 % сократились до 10 %. Дело в том, что государству стало известно о родах, о которых не сообщалось ранее. Оказалось, что многие роженицы не считали нужным сообщить о своих новорожденных детях, так как их социальные дотации на период ухода за ребенком никак не увеличивались[16].

Вот вам пример того, с какими проблемами можно столкнуться, собирая статистические данные: оказывается, мы учитываем не всех людей, хотя думаем, что охвачены все. Одни ошибки в рассуждениях заметить проще, другие сложнее, но со временем мы лучше научимся их распознавать. Для начала давайте взглянем на простой инструмент, который часто используют неверно.

С помощью круговой диаграммы легко представить себе процентные соотношения – то, каким образом распределены разные части единого целого. Например, вы хотите узнать, какой процент школьного бюджета тратится на зарплаты учителям, на учебные материалы, на ремонт. Или же вам хочется выяснить, какая часть денег, ассигнованных на учебные материалы, идет на естественные науки, язык, физкультуру, музыку и т. д. Главное правило круговых диаграмм – сумма процентов во всех секторах должна быть равна 100. Представьте себе пирог: ведь круговая диаграмма – не что иное, как пирог, поделенный на кусочки. Если девять человек хотят разделить его поровну, мы не можем порезать его на восемь частей. И тут ничего нельзя поделать.

Fox News, однако, это не смутило, и они опубликовали вот такую диаграмму:

Главное правило круговых диаграмм: сумма процентов во всех секторах должна быть равна 100. (Fox News, 2010)

Можно легко объяснить, как такое могло произойти. У избирателей есть возможность отдать свой голос более чем за одного кандидата. Однако в таком случае нельзя представлять результаты в виде круговой диаграммы.

Чехарда со средними

Среднее значение может быть весьма полезно, да и разобраться с ним проще, чем с круговой диаграммой. Оно позволяет нам охарактеризовать огромное количество информации одним-единственным числом. Например, мы хотим узнать среднее благосостояние людей в комнате, чтобы понять, принесет ли встреча с ними какую-нибудь пользу нашим фандрайзерам[17] или менеджерам по продажам. Другой пример: мы хотим узнать среднюю цену на бензин, чтобы оценить, во сколько обойдется поездка на машине из Ванкувера в Банф. Однако средние могут быть обманчиво сложными.

Есть три вида средних, и они могут выражаться разными числами. Поэтому те, кто всерьез занимается статистикой, избегают слова «среднее», отдавая предпочтение другим, более точным терминам, как то: среднее арифметическое, медиана или мода. И только так. Иногда все эти величины совпадают, но чаще они различаются. Если вам встретилось слово «среднее», оно, как правило, означает «среднее арифметическое», но нельзя быть в этом абсолютно уверенным.

Чаще других из этих трех встречается среднее арифметическое; оно равно сумме всех данных, поделенной на их количество. Например, среднее благосостояние всех людей, находящихся в комнате, будет равно их общему благосостоянию, поделенному на количество человек. Если в комнате находится десять человек, состояние каждого из которых оценивается в 100 тысяч долларов, то общее богатство составит миллион. Отсюда легко вычислить среднее арифметическое (даже доставать калькулятор не нужно): 100 тысяч долларов. А если состояние каждого присутствующего будет варьироваться от 50 тысяч до 150 тысяч долларов, но общее количество будет по-прежнему миллион, то среднее арифметическое по-прежнему будет 100 тысяч долларов (потому что мы просто разделим миллион на десять, не принимая во внимание, сколько денег на счете у каждого).

Медиана – это число в середине упорядоченного набора чисел (статистики называют его выборкой): половина данных находится ниже этого значения, а половина выше. Как вы помните, смысл среднего значения в том, чтобы охарактеризовать весь объем данных одним-единственным числом. Медиана лучше с этим справляется, если некоторые из ваших данных уж очень отличаются от большинства, статистики называют такие значения выбросами.

Представим себе комнату, в которой находятся девять человек; состояние восьмерых из них равно примерно 100 тысяч долларов, а один находится на грани банкротства, его долг равен 500 тысячам долларов. Вот что у нас получится:

Человек 1: –500 тыс. долл.

Человек 2: 96 тыс. долл.

Человек 3: 97 тыс. долл.

Человек 4: 99 тыс. долл.

Человек 5: 100 тыс. долл.

Человек 6: 101 тыс. долл.

Человек 7: 101 тыс. долл.

Человек 8: 101 тыс. долл.

Человек 9: 104 тыс. долл.

Теперь складываем все показатели и получаем общую сумму в 299 тысяч долларов. Разделим это число на общее количество участников, девять, и получится, что среднее арифметическое равно 33 222 долларам. Создается, однако, впечатление, что среднее арифметическое – не лучший способ охарактеризовать данные о присутствующих. Смею предположить, что фандрайзер не захочет наносить им визит, если среди них найдется человек с показателем-выбросом, который тянет вниз всю группу. В этом и заключается вся трудность работы со средним арифметическим: оно слишком чувствительно к выбросам.

Медиана здесь равна 100 тысячам долларов: четверо зарабатывают меньше этой суммы, а четверо – больше. Мода равна 101 тысяче долларов – это та цифра, которая появляется намного чаще других. И медиана, и мода в этом конкретном примере оказываются гораздо показательнее.

Можно по-разному использовать средние, особенно если вы хотите, чтобы кто-то увидел в ваших данных то, что нужно вам.

Давайте представим, что вы с двумя друзьями запустили стартап – небольшую компанию, в которой работают пять человек. Сейчас конец года, вы собираетесь подвести финансовые итоги и рассказать сотрудникам, как у компании идут дела, чтобы они почувствовали удовлетворение от долгих часов, проведенных в офисе, и от холодной пиццы, съеденной за это время. А еще вы хотите привлечь инвесторов. Скажем, четверо сотрудников – все программисты – за год заработали по 70 тысяч долларов, а один – офис-менеджер – 50 тысяч. Это даст среднее арифметическое зарплат, равное 66 тысячам долларов в год: сумма (4 × 70 000) + (1 × 50 000), поделенная на 5. Вы и двое ваших друзей принесли домой по 100 тысяч долларов – это ваша зарплата. Следовательно, общая сумма выплаченных зарплат составит (4 × 70 000) + (1 × 50 000) + (3 × 100 000) = 630 тысяч долларов. Кроме того, пусть ваша компания принесла 210 тысяч долларов чистого дохода, который вы разделили поровну между собой и соучредителями в качестве бонусов, это дает каждому из вас по 100 тысяч + 70 тысяч. Как вы им об этом сообщите?

Вы могли бы сказать:

средняя зарплата сотрудников составляет 66 тысяч долларов;

средняя зарплата + прибыль владельцев составляет 170 тысяч долларов.

И хотя это правда, вряд ли новость понравится кому-нибудь, кроме вас и вашей мамы. Если ваши подчиненные прознают об этом, то решат, что им существенно недоплатили. А потенциальные инвесторы сочтут, что учредителям платят слишком много. Поэтому вы можете оформить отчет по-другому:

средняя зарплата сотрудников составляет 66 тысяч долларов;

средняя зарплата владельцев составляет 100 тысяч долларов;

прибыль: 210 тысяч долларов.

Для потенциальных инвесторов это выглядит убедительнее, тем более что им можно и не говорить о том, что вы поделили прибыль между совладельцами. А сотрудникам последнюю строку можно и вовсе не показывать. Каждый из четырех программистов будет думать, что он на хорошем счету и его ценят, так как зарабатывает он больше, чем большинство. Единственный, кто будет не очень доволен, – ваш офис-менеджер. Но ведь девушка и раньше понимала, что программисты зарабатывают больше нее. Теперь представим: вы чувствуете, что перегружены работой, и хотите уговорить ваших партнеров, которые не сильны в критическом мышлении, что вам нужно нанять еще сотрудников. Вы можете поступить так же, как в таком случае делают многие компании, и заявить о «прибыли на одного сотрудника», поделив прибыль компании, равную 210 тысячам долларов, на пятерых:

средняя зарплата сотрудника: 66 тысяч долларов;

средняя зарплата владельцев: 100 тысяч долларов;

годовая прибыль на одного сотрудника: 42 тысячи долларов.

Теперь вы можете заявить, что 64 % зарплаты, которую вы выплачиваете своим сотрудникам (42 000 / 66 000), возвращаются к вам в виде прибыли, и это означает, что в итоге, получив прибыль, вы должны будете выплатить только 36 % их зарплат. Конечно, эти данные не свидетельствуют о том, что, наняв еще сотрудников, вы увеличите прибыль. Но в глазах того, кто не очень силен в критическом мышлении, это выглядит как весомый довод для увеличения штата.

А что, если вы хотите выглядеть невероятно честным и справедливым работодателем и показать, что разница между вашей прибылью и зарплатой ваших сотрудников довольно разумна? Возьмите прибыль в 210 тысяч долларов и разделите часть этой суммы, 150 тысяч долларов, в качестве бонуса между собой и своими партнерами. Об оставшихся 60 тысячах вы скажете позже, что это и есть «прибыль». На этот раз подсчитайте среднюю зарплату, включив в эти подсчеты себя и своих партнеров вместе с бонусами:

средняя зарплата: 97 500;

средняя прибыль владельцев компании: 20 тысяч.

А теперь повеселимся по-настоящему:

общие выплаты зарплат плюс бонусы: 840 тысяч;

зарплаты: 780 тысяч;

прибыль: 60 тысяч.

Теперь все выглядит разумно, правда? Из всей суммы в 840 тысяч долларов, включающей зарплату и прибыль, только 60 тысяч, или 7 %, составили личную прибыль владельцев. Ваши сотрудники будут думать, что вы безупречны, – кто станет обвинять владельца компании в том, что он присвоил 7 %? По сути, это ведь не так уж много: 7 % делится между владельцами компании поровну, и каждый получает по 2,3 %. Да тут даже возразить нечего!

А можно придумать и кое-что получше. Представьте, что в первый год существования вашей компании у вас были только сотрудники, работавшие неполный день. Они зарабатывали по 40 тысяч в год. На второй год у вас были только сотрудники, работавшие полный день. И они получали 66 тысяч, о которых говорилось выше. В таком случае вы со всей уверенностью можете заявить, что в среднем заработок каждого сотрудника увеличился на 65 %. Вы – великий предприниматель! Правда, вы замалчиваете тот факт, что сравниваете две несопоставимые вещи: работу на неполный и полный рабочие дни. Могу сказать, что в этом вы не первый: американская корпорация по производству стали U.S. Steel додумалась до этого еще в 1940-х годах.

В уголовном судопроизводстве то, как представлена информация, т. е. фрейминг[18], оказывает сильное воздействие на мнение присяжных относительно виновности подсудимого. Хотя математически эти два утверждения эквивалентны[19], фраза: «Вероятность того, что обнаруженная на месте преступления кровь совпадет с кровью подозреваемого, если только это действительно не его кровь, составляет всего 0,1 %» (один к тысяче) гораздо убедительнее, чем заявление: «Кровь одного человека из каждой тысячи жителей Хьюстона тоже соответствует найденной».

Средние часто используют для того, чтобы рассказать о результатах, например «один брак из X случаев заканчивается разводом». Но это не означает, что статистика применима к вашей улице, к вашему бридж-клубу или к вашему знакомому. Брак либо закончится разводом, либо нет, но нужно знать определенные факторы уязвимости, чтобы предсказать, кто действительно разведется, а кто нет.

Еще один пример: вы можете прочитать, что один из пяти новорожденных детей – китаец. Вы подмечаете, что у шведского семейства, живущего на вашей улице, уже есть четверо детей, а сейчас они ждут пополнения. Но это не означает, что в семье родится маленький китаец. Среднее значение вычислено по всем рождениям в мире, а не в конкретной семье, в конкретном доме, в конкретном районе или даже стране.

Будьте осторожны со средними, а также с тем, как их интерпретируют. Один из способов ввести в заблуждение, используя средние, – усреднять данные по выборкам из несопоставимых совокупностей. Этот способ может привести к абсурдным выводам, как то:

В среднем у каждого человека одно яичко[20].

Этот пример наглядно показывает разницу между средним арифметическим, медианой и модой. Так как женщин в мире несколько больше, чем мужчин, медиана и мода будут равны нулю, в то время как среднее арифметическое будет близко к единице (возможно, оно будет равно 0,98 или около того).

Кроме этого, нужно быть внимательным и помнить, что среднее ничего не говорит о размахе значений. Средняя годовая температура в Долине Смерти в Калифорнии равна 25 °C, что считается комфортным. Но размах может быть просто убийственным, с колебанием температуры от – 9 до 57 °C, – факт, зафиксированный приборами[21].

Или… Я мог бы вам сказать, что в среднем благосостояние сотни людей, находящихся в комнате, составляет колоссальную сумму: 350 миллионов долларов. Вы, наверное, думаете: вот бы отправить туда моих лучших менеджеров по продажам. Но в комнате могут находиться Марк Цукерберг (его состояние оценивается в 25 миллиардов долларов[22]) и 99 бедняков. Таким образом, средний показатель может размыть разницу в важных показателях.

Если вы работаете со средними, остерегайтесь еще бимодального распределения. Вспомните, мода – это то значение, которое встречается чаще всего. Во многих наборах данных – биологических, физических, социальных – у распределения может быть два или больше пиков. А это значит, что два или больше показателей встречаются чаще других.

Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y)[23]. Представьте, что вы изучали две группы людей: детей (левый горб) – они покупают школьные обеды – и руководителей компаний (правый горб) – они ходят в дорогие рестораны. Среднее арифметическое и медиана в данном случае – это числа где-то между этими двумя горбами, и они ничего не скажут нам о том, что происходит на самом деле, – ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность – вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.

Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут можно легко наткнуться на определенные подводные камни, которые даже получили собственные названия: «экологическая ошибка» и «ошибка исключения». Экологическая ошибка возникает, если мы делаем выводы об отдельном элементе, основываясь на совокупных данных (таких как средняя величина группы), а ошибка исключения – если делать все ровно наоборот.

Представьте себе, например, два маленьких городка, в каждом из которых живет всего по сотне человек. Девяносто девять жителей города А зарабатывают по 80 тысяч долларов в год, а на земле одной женщины было найдено месторождение нефти, и теперь она одна получает 5 миллионов долларов в год. В городе Б живут 50 человек, которые зарабатывают по 100 тысяч долларов в год, а также 50 человек, которые получают по 140 тысяч долларов. Средний арифметический доход в городе А составляет 129 тысяч долларов, а в городе Б – 120 тысяч долларов. И хотя средняя величина доходов города А больше, в 99 случаях из 100 доход любого жителя города Б, которого вы выберете наугад, будет выше дохода любого случайно выбранного жителя города А. Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то следует ожидать, что и у него доход будет выше. Самое замечательное в этом примере то, что в городе А выше среднее арифметическое, а мода выше в городе B (так бывает не всегда).

Вот еще один пример: считается, что состоятельные люди скорее проголосуют за республиканца, но, как показывает практика, более состоятельные штаты обычно голосуют за демократов. Дело в том, что общая картина благосостояния жителей процветающих штатов может быть немного перекошена из-за суперсостоятельных индивидуумов. Во время президентских выборов 2004 года за кандидата от Республиканской партии Джорджа Буша проголосовали 15 самых бедных штатов, а за кандидата от Демократической партии Джона Керри – девять из 11 самых состоятельных[24]. Если же изучить вопрос более детально, мы увидим, что за Буша отдали голоса 62 % тех, чей годовой доход составляет более 200 тысяч долларов, а за Керри – 36 % голосующих, зарабатывающих в год 15 тысяч долларов или меньше.

Чтобы понять, что такое ошибка исключения, давайте представим себе: вы прочли, что машины марки Volvo считаются самыми надежными, и решили купить такой автомобиль. По дороге в офис этой компании вы проходите мимо механика Volvo и парковки, заполненной машинами этой марки, которые ждут, пока их отремонтируют. Если вы измените свое решение о покупке машины этой марки, основываясь на том, что только что увидели, значит, вы по небольшому числу исключительных данных формируете выводы о целой группе. Никто ведь не говорил, что Volvo вообще не нуждается в ремонте, – скорее речь шла о следующем: вероятность того, что им может понадобиться техническая поддержка, гораздо меньше (отсюда и набившее оскомину предупреждение, которым заканчивается любой рекламный ролик, что «каждая машина индивидуальна»). Обратите внимание, что на вас оказывают огромное влияние и другим образом: единственное место, где должны стоять машины Volvo, требующие ремонта, – автосервис Volvo. Ваш «базовый показатель» сдвинулся, и вы не можете уже считать этот пример случайным.

Сейчас, когда вы уже эксперт по средним, вас не удивит заявление, что 100 лет назад наши предки жили меньше, чем мы сегодня. Возможно, вы читали, что продолжительность жизни в наше время сильно увеличилась. Продолжительность жизни тех, кто родился в 1850 году, была 38 лет для мужчин и 40 для женщин, а у тех, кто родился в 1990-м, она составляет 72 года и 79 лет соответственно[25]. Таким образом, возникает распространенное заблуждение, что в XIX веке было не так много людей в возрасте 50 и 60 лет, потому что они просто не доживали до этого возраста. На самом деле, конечно, доживали – просто детская смертность была такой высокой, что смещала средний показатель. Если человеку удавалось преодолеть возрастной рубеж в 20 лет, то жил он долго. В 1850 году 50-летняя белая женщина могла бы дожить до 73 с половиной лет, а женщина 60 лет – и до 77. По сравнению с 1850-ми годами сейчас продолжительность жизни 50- и 60-летних значительно увеличилась, лет на десять, и произошло это во многом благодаря более качественному здравоохранению.

Конец ознакомительного фрагмента.

Вы здесь

Путеводитель по лжи. Часть 1. Оценка цифр (Дэниел Левитин, 2016)

Часть 1. Оценка цифр

Правдоподобие

Чехарда со средними