Главная страница
Финансы
Экономика
Математика
Начальные классы
Информатика
Биология
Медицина
Сельское хозяйство
Ветеринария
Вычислительная техника
Дошкольное образование
Логика
Этика
Религия
Философия
Воспитательная работа
История
Физика
Политология
Социология
Языкознание
Языки
Право
Юриспруденция
Русский язык и литература
Строительство
Промышленность
Энергетика
Другое
Доп
образование
Связь
Электротехника
Автоматика
Физкультура
Технология
Классному руководителю
Химия
Геология
Иностранные языки
Логопедия
Искусство
Экология
Культура
География
ИЗО, МХК
Казахский язык и лит
Директору, завучу
Школьному психологу
Обществознание
Социальному педагогу
Языки народов РФ
ОБЖ
Музыка
Механика
Украинский язык
Астрономия
Психология

ОШИБКИ статобработки в медицине. Международный журнал медицинской практики


Скачать 266.66 Kb.
НазваниеМеждународный журнал медицинской практики
АнкорОШИБКИ статобработки в медицине.pdf
Дата27.03.2018
Размер266.66 Kb.
Формат файлаpdf
Имя файлаОШИБКИ статобработки в медицине.pdf
ТипДокументы
#14854

21
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
«Критические обзоры убедительно свидетельст- вуют, что примерно в половине научных работ, вы- полняемых с использованием статистических мето- дов анализа данных, этот анализ проводится с ошиб- ками» [1].
«Исследования высокого методологического ка- чества заслуживают соответствующего изложения материала, и хорошее представление результатов является важной частью исследования, такой же,
как сбор и анализ данных. При чтении художествен- ной литературы мы оцениваем мастерство автора.
Давайте также признаем право научных знаний на достойное изложение» [2].
Первая попытка обсудить вопросы, связанные со статистической вероятностью, в медицинской лите- ратуре была предпринята в 30-х годах ХХ века [3]. С
тех пор исследователи в разных областях медицины обнаружили множество ошибок при проведении ста- тистического анализа даже в работах, результаты которых были опубликованы в наиболее авторитет- ных научных журналах [4—7]. Неверное отображение статистических данных представляет собой давнюю и широко распространенную проблему, чреватую серьезными последствиями. Проблема недостаточно хорошо осознана, несмотря на то что большинство ошибок возникает при использовании простейших статистических методов, и для того, чтобы избежать их появления, достаточно следовать нескольким ре- комендациям [8].
С распространением движения доказательной медицины возросло понимание актуальности про- блем, связанных с низким качеством изложения статистического материала. В основе доказатель- ной медицины лежит использование опубликован- ных в медицинской литературе исследований, по- этому она зависит от методологического качества статей. Соответственно несколько авторских коллективов предложили свои руководства по пред- ставлению результатов различных исследований
[9—11]; кроме того, появилась серия детальных руководств по изложению результатов статисти- ческого анализа [12].
В этой статье приведено 20 рекомендаций, затра- гивающих наиболее часто встречающиеся в медицин- ской литературе аспекты статистического анализа.
Они предназначены для авторов, редакторов и ре- цензентов, не являющихся специалистами в облас-
* Переведено с разрешения издателя. Впервые опубликовано
T. Lang. Twenty Statistical Errors Even YOU Can Find in Biomedical
Research Articles. Croatian Medical Journal 2004;45(4):361—370.
ДВАДЦАТЬ ОШИБОК СТАТИСТИЧЕСКОГО АНАЛИЗА, КОТОРЫЕ ВЫ САМИ МОЖЕТЕ
ОБНАРУЖИТЬ В БИОМЕДИЦИНСКИХ СТАТЬЯХ*
Т. Ланг ти статистики. Предлагаемый вниманию читателей материал представляет собой верхушку айсберга; при необходимости более подробные сведения можно получить, обратившись к соответствующим руковод- ствам [12], а также к работам, указанным в библио- графическом списке. Для облегчения знакомства с этой не очень увлекательной для врачей проблемой рекомендации приводятся в порядке возрастания значимости.
Ошибка 1. Количественные данные представлены с излишней точностью
Большинство из нас легче воспринимают коли- чественные данные, представленные одной или двумя цифрами, чем тремя и более. Поэтому округление улучшает восприятие материала [13]. Рассмотрим пример, в котором количество участников (как муж- чин, так и женщин) на момент окончания иссле- дования примерно в 3 раза превышает таковое в на- чале, однако этот факт становится очевидным лишь после округления соответствующих показателей:
Число женщин возросло с 29 942 до 94 347, муж- чин — с 13 410 до 36 051.
Число женщин возросло с 29 900 до 94 300, муж- чин — с 13 400 до 36 000.
Число женщин возросло примерно с 30 000 до 94 000,
мужчин — с 13 000 до 36 000.
Во многих случаях необязательно приводить макси- мально точные значения. Если масса тела больного со- ставляет 60 кг, то использование показателя 60,18 кг толь- ко затруднит восприятие, несмотря на то что фор- мально он соответствует действительности. По этой же причине наименьшая величина р, которую имеет смысл представлять, p<0,001.
Ошибка 2. Непрерывные данные представлены в виде порядковых без объяснения причин и способа преобразования
Для облегчения статистического анализа не- прерывные данные можно представить в виде двух и более порядковых категорий, например рост в см как низкий, нормальный и высокий. Однако такое упрощение уменьшает точность результа- тов и вариабельность данных. Автор должен объ- яснить, почему он сделал это. Кроме того, он должен описать критерии выбора диапазона зна- чений в рамках каждой из порядковых категорий,
чтобы избежать возможности появления система- тической ошибки [12]. В некоторых случаях преоб- разование непрерывных данных в порядковые име- ет целью подгонку конечных результатов под же- лаемую схему (рис. 1).

22
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
Ошибка 3. Представлены средние групповые значения для парных данных без сообщения размера изменений внутри групп
Данные, относящиеся к одному и тому же участ- нику исследования, называются парными. При по- следовательных измерениях признака величина как средних групповых, так и индивидуальных значений может различаться от измерения к измерению. Од- нако если в статье представлены только групповые средние значения, читатель может не заметить из- менения индивидуальных показателей (рис. 2). Пока не будут отображены индивидуальные значения,
альтернативный вариант трактовки данных будет неочевиден. Например, результаты, приведенные на рис. 2, можно интерпретировать как среднее умень- шение показателя в группе от момента 1 к моменту
2, либо как увеличение показателя у 2 из 3 участни- ков. И то и другое соответствует истине, но если в статье представлен лишь один из этих выводов, чи- татель может сделать неверное заключение о резуль- татах.
Ошибка 4. Неправильно используются статистические характеристики данных
При описании непрерывных данных наиболее часто используют такие понятия, как средняя вели- чина и среднее квадратическое отклонение (СКО).
Однако эти показатели применимы только при ус- ловии нормального или Гауссова распределения зна- чений. При нормальном распределении в 68% случа- ев результаты измерений лежат в пределах ±1 СКО
от среднего значения, в 95% случаев — в пределах
±2 СКО, в 99% случаев — в пределах ±3 СКО. При асимметричном распределении эта закономерность отсутствует, поэтому средняя величина и СКО не дают представления о характере кривой. Вместо них используют другие показатели, такие как медиана
(50-й центиль, или точка, которая делит данные на две равные части) и межквартильный диапазон
(обычно от 25-го до 75-го центиля) [14].
Хотя для определения средней величины и СКО
достаточно результатов двух последовательных изме- рений, эти показатели недостаточно хорошо опи- сывают данные исследований с небольшим числом участников (малые выборки). Кроме того, большин- ство биологических показателей не подчиняются нормальному распределению [15]. Исходя из этого, в медицинской литературе такие термины, как медиа- на, диапазон и межквартильный диапазон должны встречаться чаще, чем средняя величина и СКО.
Ошибка 5. Стандартная ошибка средней величины используется для описательного анализа данных или в качестве показателя точности оценки
Средняя величина и СКО описывают централь- ную тенденцию и вариабельность данных, подчиняю- щихся нормальному распределению, полученных в выборке. Средняя величина и стандартная ошибка средней величины (СОС) являются точечной оцен- кой (средняя величина) и показателем ее точности
(СОС) для характеристики популяции. Однако СОС
всегда меньше, чем СКО, поэтому иногда представ- ляют именно ее, чтобы результаты измерений вы- глядели более точными [16]. Хотя СОС отражает точ- ность измерения (в пределах средняя величина ±1
СОС лежит популяционная средняя с вероятностью
68%, т.е. это 68% доверительный интервал, ДИ), в медицинских исследованиях предпочтительно исполь- зовать 95% (ДИ) [17]. Таким образом, среднюю ве- личину и СОС применяют для характеристики как выборки, так и популяции. Чтобы избежать путани- цы, следует запомнить: среднюю величину и СКО
предпочтительно использовать для обобщенной ха- рактеристики данных, подчиняющихся нормально- му распределению, а среднюю величину и 95% ДИ —
в качестве точечной оценки и уровня ее точности.
Например, если средняя масса тела у 100 муж- чин составляет 72 кг, а СКО — 8 кг, то (при условии нормального распределения значений) примерно в
2
/
3
(68%) случаев результат измерения будет лежать в диапазоне от 64 до 80 кг. Данный пример показыва- ет правильное использование средней величины и
СКО для характеристики распределения значений.
Средняя величина, составляющая 72 кг, также служит наиболее точным значением средней массы тела всех мужчин в популяции, из которой сформи- рована выборка. Используя формулу СОС=СКО/ЦN,
и подставляя СКO=8 кг, а N=100 измерениям, по- лучим СОС=0,8. Это означает, что при повторном определении массы тела в аналогичной (случайной)
выборке мужчин из данной популяции примерно в
68% случаев средняя масса тела составит от 71,2 до
72,8 кг (диапазон значений в пределах ±1 СОС).
Рис. 1. Чтобы избежать возникновения систематической ошибки, автор должен объяснить, почему и каким обра- зом непрерывные данные были преобразованы им в порядковые.
А. Преобразование выглядит оправданным.
В. Целесообразность преобразования требует объяснения.
Рис. 2. Парные данные должны быть представлены таким образом, чтобы были очевидными изменения как индиви- дуальных, так и групповых характеристик.
В данном примере результат можно интерпретировать как среднее уменьшение показателя на 1,6 либо как его увеличе- ние у 2 из 3 участников.
МЕТОДОЛОГИЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

23
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
Для точечной оценки и определения уровня ее точности предпочтительно использовать среднюю величину и 95% ДИ (диапазон значений в пределах
±2 СОС). В рассмотренном чуть выше примере пра- вильной будет фраза: средняя масса тела составляет
72 кг при 95% ДИ от 70,4 до 73,6 кг. Это означает, что при повторном измерении данного показателя в ана- логичной (случайной) выборке мужчин в той же популяции примерно в 95% случаев средняя масса тела составит от 70,4 до 73,6 кг.
Ошибка 6. Для описания различий между группами используется только величина р
Использование величины р для оценки статисти- ческой значимости часто неоправдано [18]. Даже при условии корректного применения данный показатель имеет целый ряд ограничений. В большинстве случа- ев вместо величины р либо дополнительно к ней следует указывать абсолютное различие в частоте изучавшегося события между группами (относитель- ное или выраженное в процентах различие может быть истолковано неверно) и его 95% ДИ. Ниже при- водятся встречающиеся в статьях формулировки в порядке возрастания их методологического качества.
«Эффект от применения лекарственного средст- ва оказался статистически значимым». Данная фор- мулировка не позволяет определить ни величину эффекта, ни его клиническую, ни статистическую значимость. Читатель может заключить, что харак- теристика эффекта как «статистически значимого» в данной ситуации означает целесообразность исполь- зования препарата.
«Эффект от использования средства, заключаю- щийся в снижении уровня диастолического артери- ального давления (АД), оказался статистически зна- чимым (р<0,05)». И в этом случае отсутствует указа- ние на величину эффекта, поэтому его клиническая значимость остается неясной. Кроме того, величина р может составлять 0,049; такое различие статисти- чески значимо, но настолько близко к пороговой величине (0,05), что практически не отличается от,
к примеру, 0,051, т. е. статистически незначимого уровня. Наличие подобной условной черты (0,05)
представляет собой одну из проблем при использо- вании величины р.
«Среднее диастолическое АД в группе лечения уменьшилось со 110 до 92 мм рт. ст. (р=0,02)». Пожа- луй, такая формулировка встречается наиболее часто.
В ней отражены результаты измерений до и после вмешательства, однако не указано различие между ними. Среднее уменьшение показателя на 18 мм рт.
ст. статистически значимо, однако это лишь точеч- ная оценка. В отсутствие 95% ДИ нельзя определить,
насколько она точна, и, следовательно, практиче- ски значима.
«Использование препарата привело к снижению уровня диастолического АД в среднем на 18 мм рт. ст.
(со 110 до 82 мм рт. ст.) при 95% ДИ от 2 до 34 мм рт.
ст. (р=0,02)». Границы ДИ свидетельствуют, что при использовании данного препарата в 100 выборках,
аналогичных изучавшейся, среднее снижение АД в
95 из них будет лежать в пределах от 2 до 34 мм рт. ст.
Уменьшение на 2 мм рт. ст. клинически незначимо в отличие от снижения на 34 мм рт. ст. Таким образом,
хотя среднее уменьшение АД оказалось статистиче- ски значимым, эффект от использования препарата в других испытаниях может оказаться клинически незначимым, т. е. полученные в исследовании резуль- таты не позволяют сделать окончательного вывода о целесообразности вмешательства.
Если оба показателя, определяющих как верхний,
так и нижний пределы ДИ, клинически значимы,
можно полагать, что вмешательство клинически эффективно. Когда оба показателя клинически не- значимы, вероятнее всего, вмешательство неэффек- тивно. Может оказаться, что клинически значим только один из показателей; в таком случае следу- ет провести исследование с большим числом участ- ников.
Ошибка 7. Отсутствует подтверждение того, что анализируемые данные соответствуют предположениям, лежащим в основе использованных статистических методов
Существуют сотни методов статистического ана- лиза данных. В каждом конкретном случае можно выбрать несколько возможных вариантов анализа [19].
Однако при несоблюдении критериев использования того или иного метода полученный результат может оказаться неточным. По этой причине в тексте ста- тьи должно присутствовать название использованного метода и подтверждение того, что он применим для анализа имеющихся данных.
Например: полученные результаты подчиняются нормальному распределению, что позволяет исполь- зовать t-тест.
Наиболее характерные ошибки:
— использование параметрических методов (ос- нованных на предположении о нормальном распре- делении данных) для анализа данных, не подчи- няющихся нормальному распределению (в частно- сти, при сравнении двух групп нередко используют критерий Стьюдента, хотя более оправдано приме- нение критерия Вилкоксона или другого непарамет- рического метода);
— использование методов, предназначенных для независимых выборок, при анализе парных данных
(в этом случае нередко применяют критерий Стью- дента, а не парный t-тест).
Ошибка 8. Использование линейной регрессии без подтверждения линейного характера связи
В разделе 7 уже упоминалось, что в любой ста- тье, включающей в себя описание статистического анализа, должно быть указано, применимы ли вы- бранные методы для анализа имеющихся данных [12].
Особенно это важно при использовании линейной регрессии, подразумевающей линейный характер связи между независимой переменной и исходом. В
противном случае полученный результат окажется неверным.
Подтвердить линейный характер зависимости можно с помощью изучения остатков, т. е. различий между наблюдаемыми и прогнозируемыми при по- мощи модели величинами (рис. 3). Если при отобра- жении в виде графика остатки представляют собой
Т. Ланг. СТАТИСТИЧЕСКИЙ АНАЛИЗ В БИОМЕДИЦИНСКИХ СТАТЬЯХ

24
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
прямую линию, а их значения приближаются к нулю,
то можно говорить о линейном характере зависимо- сти (рис. 4А). Если графическое изображение остат- ков имеет иной вид (рис. 4В, 4С, 4D), это свидетель- ствует о нелинейном характере зависимости. Изуче- ние остатков необходимо, поскольку сам по себе график линейной регрессии не всегда позволяет вер- но оценить характер зависимости (рис. 5).
Ошибка 9. В анализ включены не все данные и не все участники
Пропуски в данных встречаются довольно часто и крайне отрицательно сказываются на общем впе- чатлении от статьи, поскольку у читателя может возникнуть предположение, что автор недостаточ- но внимателен или попросту ленив [20]. При обнару- жении пропущенных данных возникают следующие вопросы:
— Причина пропуска данных. Включены ли в анализ минимальные и максимальные результаты?
Пропущены ли данные из-за ошибки в лаборатории?
Возможно, данные пропущены, поскольку они про- тиворечат выводам автора?
— Воспроизводимость полученных результатов.
Является ли указанный диапазон значений таковым в действительности? Так ли невелико число выбыв- ших из исследования?
— Методологическое качество исследования в целом. Если итоговые данные не совпадают в иссле- довании, насколько автор был точен при описании других аспектов работы?
Одним из наиболее удобных способов отображе- ния данных об участниках клинического испытания служат потоковые диаграммы (flow charts, рис. 6) [9,
12, 21]. Такое наглядное изображение позволяет чи- тателю получить представление о количестве участ- ников на каждом из этапов испытания, понять струк- туру исследования и визуально оценить соотноше- ние между группами и подгруппами. Именно этот способ представления данных рекомендован в руко- водстве CONSORT [9].
Ошибка 10. Не указано, использовалась ли поправка на многократность проверки гипотез
В большинстве статей приводится несколько ве- личин р, что повышает вероятность возникновения ошибки I рода (альфа-ошибки), т. е. ошибочного за-
Рис. 3. Остатки представляют собой различие между наблюдаемыми и прогнозируемыми при помощи регрес- сионной модели величинами.
Рис. 4. Когда график остатков свидетельствует, что их величины приближаются к нулю на протяжении всего диапазона значений, зависимость имеет линейный харак- тер (А).
Иной вид графического изображения остатков (В, С, D) свиде- тельствует о нелинейном характере зависимости, для описания которой линейная регрессия непригодна.
Рис. 5. Впечатление о линейном характере зависимости может оказаться обманчивым.
В данном примере зависимость выглядит линейной (А), однако в действительности это не так, о чем свидетельствует график остатков (В).
Рис. 6. Схема рандомизированного клинического испыта- ния, представленная в виде последовательной диаграммы.
Изображены вмешательства и исходы в обеих группах и коли- чественное соотношение участников на каждом из этапов.
МЕТОДОЛОГИЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

25
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
ключения об эффективности вмешательства, когда в действительности полученный результат случаен
[22]. Предположим, что исследование включает шесть групп. Сравнение групп между собою требует про- ведения 15 парных статистических тестов, резуль- татом которых будет определение 15 величин р. В
отсутствие поправки вероятность возникновения ошибки I рода возрастает с 5 на 100 (обычный уровень вероятности альфа-ошибки составляет
0,05) до 55 на 100 (т. е. 0,55).
К проблеме множественных сравнений есть не- сколько подходов [12]:
— проверка идентичности групп путем определе- ния различий в частоте исходных показателей (в на- дежде, что таких различий выявлено не будет);
— проведение множества парных сравнений, ко- гда данные, полученные в трех и более группах,
сравниваются отдельно между собой;
— многократное последовательное определение частоты исходов, на которые влияют одни и те же факторы;
— проведение вторичного анализа для оценки значимости связей между признаками в ходе наблю- дения, не предусмотренного в плане исследования;
— проведение анализа данных в подгруппах, не включенных в первоначальную структуру исследо- вания;
— проведение промежуточного анализа получен- ных данных (частота исхода, определявшаяся в раз- личные сроки);
— последовательное сравнение характеристик групп в различные моменты времени при помощи серии сравнений отдельных групп.
Проведение серии сравнений во многих случаях можно признать целесообразным, но подобный по- исковый анализ должен быть соответствующим об- разом обоснован и описан. Однако «перетряхивание»
данных путем вычисления множества величин p с целью обнаружить какие-нибудь статистически зна- чимые различия служит признаком низкого методо- логического качества исследования.
Ошибка 11. Ненужное сравнение исходных характеристик в рандомизированных клинических испытаниях
В рандомизированных клинических испытаниях
(РКИ) каждый участник имеет равную вероятность оказаться как в группе вмешательства, так и в кон- трольной. Поэтому любое различие в исходных ха- рактеристиках групп случайно. Следовательно, нали- чие статистически значимых различий в исходных показателях (табл. 1) не свидетельствует о система- тической ошибке (как в исследованиях другой струк- туры) [9]. Сравнение частоты исходных показателей может выявить некоторые различия между группа- ми, которые, возможно, будет целесообразно учесть при дальнейшем анализе, однако величину р указы- вать при этом не обязательно [9].
Приняв во внимание, что вероятность альфа- ошибки составляет 0,05, в 5 сравнениях из 100 раз- личие в исходных характеристиках окажется стати- стически значимым просто в силу случая. Однако в одном из исследований показано, что из 1076 срав- нений исходных характеристик, проведенных в 125
РКИ, лишь в 2% были найдены различия, оказав- шиеся статистически значимыми при р<0,05 [23].
Ошибка 12. Не указаны критерии нормы и отклонения от нормы при оценке эффективности диагностических методов
Значимость положительного или отрицательно- го результата при использовании любого диагности- ческого метода зависит от того, какие критерии были выбраны для определения нормы и отклонения от нормы. В медицине существует шесть определений того, что представляет собой норма [24].
Диагностическая норма: диапазон значений, в пре- делах которого показатель свидетельствует об отсут- ствии заболевания, вне пределов которого — о ве- роятном его наличии. Такое определение представ- ляется целесообразным, поскольку имеет клиниче- ский смысл.
Терапевтическая норма: диапазон значений, в пре- делах которого показатель свидетельствует об отсут- ствии показаний к назначению лечения, вне преде- лов которого — о целесообразности терапии. И это определение представляется оправданным.
Другие определения с практической точки зре- ния менее информативны, однако, к сожалению,
нередко используются авторами:
Эпидемиологическое определение нормы: диапазон значений, в пределах которого показатель свидетель- ствует об отсутствии риска развития заболевания,
вне пределов которого — о повышении риска. Дан- ное определение подразумевает, что воздействие на фактор риска влияет на вероятность возникновения исхода. Например, в большинстве случаев высокий уровень холестерина в сыворотке крови сам по себе не представляет интереса; однако тот факт, что при этом повышается риск развития заболеваний серд- ца, заставляет считать высокий уровень холестерина отклонением от нормы.
Статистическое определение нормы: нормальным считается показатель, определенный у здоровых лиц.
Данное определение подразумевает, что полученные результаты подчиняются нормальному распределе-
Признак
Группа контроля
(n=43)
Группа вмешательства
(n=51)
Различие р
Средний возраст, годы
85 84 1
0,88
Мужчины (n, %)
21 (49)
21 (51)
3%
0,99
Медиана концентрации альбумина в крови (г/л)
30,0 33,0 3,0 г/л
0,03
Сахарный диабет (n, %)
11 (26)
8 (20)
6%
0,83
Таблица 1. Статистические сравнения исходного состояния групп в РКИ. Различие в концентрации альбумина в крови случайно (р=0,03); оно не указывает на систематическую ошибку. В данном случае использование величины р необязательно
Т. Ланг. СТАТИСТИЧЕСКИЙ АНАЛИЗ В БИОМЕДИЦИНСКИХ СТАТЬЯХ

26
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
нию, т. е. при графическом изображении кривая име- ет вид колокола. При этом диапазон нормальных зна- чений лежит в пределах ±2 СКО от средней величи- ны, т. е. включает в себя 95% всех измерений. Однако оставшиеся 2,5% с каждой стороны диапазона (от- клонение от нормы) не имеют клинического смыс- ла, поскольку встречаются слишком редко. Следует учитывать, что многие результаты не подчиняются нормальному распределению.
Перцентильное определение нормы: нормальным счи- тается показатель, лежащий в пределах диапазона.
Например, любой показатель в пределах нижних 95%
всех значений определяется как норма, а в пределах оставшихся верхних 5% — как отклонение от нормы.
И в данном случае критерием служит частота показа- теля вне зависимости от клинической значимости.
Социальное определение нормы: нормальным сле- дует называть показатель, который принято считать таковым. Например, желаемая масса тела или воз- раст, к которому ребенок должен научиться само- стоятельно ходить. Подобные критерии не всегда клинически значимы.
Ошибка 13. Отсутствует объяснение, каким образом неопределенные (сомнительные)
результаты учтены при вычислении операционных характеристик диагностического теста (таких, как чувствительность и специфичность)
Далеко не всегда использование диагностическо- го метода позволяет получить однозначно положи- тельный или отрицательный результат. Возможно,
контрастное вещество было введено не полностью,
результаты бронхоскопического исследования не позволяют ни подтвердить, ни опровергнуть нали- чие заболевания, врач может не согласиться с интер- претацией клинических признаков. Результаты, ко- торые нельзя признать ни положительными, ни от- рицательными, влияют на практическую значимость метода, поэтому их наличие и относительная часто- та должны быть приведены в статье.
Существует три варианта таких неопределенных результатов [25]:
Промежуточные результаты занимают промежу- точное положение между отрицательными и поло- жительными. Например, при микроскопическом ис- следовании ткани положительным результатом слу- жит выявление клеток, окрашенных в синий цвет.
Появление клеток, имеющих голубоватую окраску,
не достигающую по интенсивности требуемого от- тенка, в данном случае следует считать промежу- точным результатом.
Неопределенные результаты такие, которые не позволяют сделать ни положительного, ни отрица- тельного заключения. Например, ответы, получен- ные при психологическом тестировании, из которых неясно, страдает ли обследуемый алкогольной за- висимостью.
Не поддающиеся интерпретации результаты полу- чены при использовании метода с несоблюдением существующих стандартов проведения исследования.
Например, определение уровня глюкозы в крови после приема пищи.
В тексте статьи должно иметься объяснение того,
каким образом подобные результаты были учтены при определении чувствительности и специфично- сти метода. Операционные характеристики будут за- висеть от того, как неопределенные результаты учи- тывались: как положительные, отрицательные, либо не включались в анализ. В стандартной таблице со- пряженности 2Ѕ2, использующейся для расчета чув- ствительности и специфичности диагностического метода, столбцы и строки для сомнительных резуль- татов отсутствуют (табл. 2). Даже при условии высо- кой чувствительности или специфичности, но при наличии значительного процента сомнительных ре- зультатов, практическая значимость метода будет невелика.
Ошибка 14. Рисунки и таблицы используются лишь для «хранения» данных, а не с целью облегчить восприятие материала
При отображении, анализе и интерпретации дан- ных огромное значение имеют таблицы и рисунки.
Однако в научных статьях, помимо собственно «хра- нения» информации, они должны служить для об- легчения восприятия материала [26]. Вследствие это- го таблицы и рисунки в статьях могут отличаться от тех, которые были созданы автором исключительно для регистрации данных и проведения анализа. Так,
таблица, включающая в себя 3 переменных, может выглядеть совершенно по-разному (табл. 3). Легче всего сравнивать данные, расположенные рядом друг с другом, поэтому оптимальным следует считать именно такую структуру таблицы, подсказывающую читателю то или иное сравнение.
В таблице и диаграммах на рис. 7 представлены одни и те же данные о распространенности заболе- вания в 9 регионах. Однако таблица позволяет наи- более информативно отобразить точные показатели распространенности, точечная диаграмма — срав- нить показатели в различных регионах, а гистограм- ма — отразить пространственные взаимоотношения между регионами и распространенностью.
Ошибка 15. Несоответствие между внешним видом графика или диаграммы и данными, на которых они основаны
Информация, представленная в графическом виде, воспринимается легче, чем представленная в виде текста [27]. Поэтому очень важно, чтобы внеш- ний вид графиков не искажал смысл данных, на которых они основаны. Одна из проблем возникает
Результат
Заболевание
Всего имеется отсутствует
Положительный a
b a+b
Отрицательный c
d c+d
Всего a+c b+d a+b+c+d
Таблица 2. Стандартная таблица для определения опера- ционных характеристик диагностического теста*
Примечание. * — чувствительность = а/(а+с), специфичность =
d/(b+d). Данная таблица позволяет рассчитать также отношения правдоподобия. Таблица не включает в себя сомнительные резуль- таты, которые нередко и не всегда оправданно игнорируют.
МЕТОДОЛОГИЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

27
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
при необходимости построения графиков, началь- ной точкой которых служат ненулевые значения. На гистограмме, представленной на рисунке 8А, визу- ально высота столбца 1 составляет менее половины высоты столбца 2. Однако такая картина вводит в за- блуждение читателя, поскольку нулевые значения отсутствуют. При условии правильного построения гистограммы (рис. 8В) становится очевидным, что высота столбца 1 составляет около
2
/
3
от высоты столбца 2. Чтобы избежать подобной ошибки, ось Y
должна быть прерывистой для указания на отсутст- вие нулевых значений (рис. 8С).
Другая проблема заключается в «эластичности»
графиков. Одна из осей может быть непропорциональ- но сжата или растянута, что приводит к ошибочно- му восприятию данных (рис. 9). Аналогичные трудно- сти возникают при использовании двойных осей. Если шкала справа не связана математическим отноше- нием с левой, изменение масштаба на одной из осей может приводить к изменению впечатления о связи признаков (рис. 10).
Ошибка 16. Нечеткое определение понятия
«объект исследования»
Термином «объект исследования» обозначают изучаемый предмет, событие или явление. Трудно- сти возникают, если таким предметом служит не сам больной, а нечто иное. Например, если в ходе ис- следования изучены исходы в отношении 50 глаз, то сколько больных в нем участвуют? И что означает
50% эффективность лечения?
Если объектом изучения служит инфаркт мио- карда, то выборка исследования, включающего
18 исходов у 1000 участников, составит 18, а не
1000. Тот факт, что инфаркт возник у 18 участни- ков из 1000, может иметь значение, но на размер выборки это не повлияет, она по-прежнему будет составлять 18.
Если исходом диагностического исследования является заключение специалиста, может быть не- обходимым исследование выборки специалистов, а
Рис. 7. Таблицы и рисунки, помимо собственно «хранения» информации, должны служить для облегчения восприятия материала.
А. Таблицы позволяют наиболее информативно отобразить точные количественные данные. В. Точечные (ленточные) диаграммы позволяют наиболее информативно отобразить общие закономерности и провести сравнение. С. Карты наиболее информатив- но отражают пространственные взаимоотношения.
Рис. 8.
А. Гистограммы и графики с отсутствующими нулевыми значе- ниями могут способствовать неверному восприятию материа- ла.
В. Гистограмма построена правильно: высота обоих столбцов соответствует действительности.
С. При отсутствии возможности построения гистограммы, вклю- чающей в себя нулевые значения, ось должна быть разорвана.
Рис. 9. Неверно выбранный при построении графика масштаб может способствовать нарушению восприятия материала.
Уменьшение масштаба по оси Х (в данном случае отражающей время, В) приводит к тому, что изменения признака Y выгля- дят внезапными. Уменьшение масштаба по ординате приводит к впечатлению о постепенных изменениях Y. Предпочтительно использовать графики с одинаковым масштабом по каждой из осей.
не просто выборки результатов исследования. В этом случае размером выборки является число специали- стов, а не число полученных оценок.
Т. Ланг. СТАТИСТИЧЕСКИЙ АНАЛИЗ В БИОМЕДИЦИНСКИХ СТАТЬЯХ

28
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
Ошибка 17. Интерпретация статистически незначимых или полученных в исследованиях с малой статистической мощностью результатов как отрицательных, а не недостаточных
Статистическая мощность представляет собой вероятность выявления статистически значимого различия при условии, что оно действительно суще- ствует. Статистически незначимые результаты, по- лученные в исследовании с малой статистической мощностью, неверно считать отрицательными; они недостаточны: «отсутствие гарантии не есть гаран- тия отсутствия». К сожалению, многие исследования,
в которых получены статистически незначимые ре- зультаты, характеризуются малой статистической мощностью. Практическая ценность таких работ не- велика, поскольку они не дают ответа на постав- ленный вопрос [28].
В некоторых ситуациях авторам желательно, что- бы результат оказался статистически незначимым.
Например, при сравнении групп автор может стре- миться доказать отсутствие различий в исходных ха- рактеристиках. Нередко подобные сравнения обла- дают недостаточной мощностью, поэтому резуль- тат не доказывает, что различие действительно от- сутствует.
Ошибка 18. Непонимание различий между объяснительными (идеальная эффективность вмешательства) и прикладными (реальная эффективность вмешательства) исследованиями при планировании и интерпретации исследований
Задачей фундаментальных исследований служит объяснение патогенеза того или иного заболевания либо механизма действия лечебного вмешательства.
Они проводятся в «идеальных» или «лабораторных»
условиях, позволяющих осуществлять тщательный контроль за отбором участников, процессом лече- ния и наблюдения. Результаты таких исследований позволяют глубже понять биологические механизмы,
однако не всегда применимы в клинической практи- ке, не поддающейся столь тщательному контролю.
Например, в ходе двойного слепого исследования можно оценить научную обоснованность примене- ния диагностического метода. Но в реальной жизни врачи не ослеплены относительно информации о своих больных, поэтому результаты исследования могут быть нереалистичными.
Задачей прагматических исследований (оцени- вающих реальную эффективность вмешательства)
является помощь в принятии решений в клинике.
Они проводятся в обычных условиях, в которых осуществляется работа врачей. На конечный ре- зультат подобных исследований может влиять мно- жество факторов, не поддающихся контролю,
поэтому научная значимость полученных данных ограничена, однако практическая ценность вели- ка. В отличие от участников фундаментального исследования, выбор которых ограничен жестки- ми критериями, больные, включаемые в приклад- ное исследование, как правило, более разнород- ны по своим характеристикам.
Во многих случаях авторы пытаются объединить оба подхода, но, в конечном счете, ни один из них не реализуется в полном объеме [29, 30]. Результаты исследования следует интерпретировать исходя из природы вопроса, для ответа на который оно пред- назначено (табл. 4).
Ошибка 19. Представление результатов не в клинически важных единицах
Во всех приведенных ниже примерах полученные результаты представлены клинически четко и гра- мотно, однако каждая из формулировок позволяет составить различное мнение об эффективности вме- шательства [31, 32]. С клинической точки зрения наи- более информативно представление данных в виде связи между прилагаемыми усилиями и получаемым результатом, например, в виде числа пациентов,
нуждающихся в лечении для получения одного по- ложительного результата. Помимо прочего, такой способ представления данных позволяет сравнивать различные вмешательства с использованием единых критериев.
Результаты, представленные в абсолютных пока- зателях. В Хельсинкском исследовании (мужчины с гиперхолестеринемией, продолжительность наблю- дения 5 лет) инфаркт миокарда был отмечен у 84
(4,1%) из 2030 участников в группе плацебо по срав- нению с 56 (2,7%) из 2051 — в группе получавших гемфиброзил (р<0,02); снижение абсолютного рис- ка составило 1,4% (4,1%–2,7%=1,4%).
Результаты, представленные в относительных по- казателях. В Хельсинкском исследовании (мужчины с гиперхолестеринемией, продолжительность наблю- дения 5 лет) частота возникновения инфаркта мио- карда в группах плацебо и гемфиброзила составила
4,1 и 2,7% соотв. Абсолютное уменьшение риска на
1,4% соответствует снижению относительного рис- ка развития инфаркта миокарда в группе вмешатель- ства на 34% (1,4%/4,1%=34%).
Результаты, представленные в виде связи между усилиями и результатом. В Хельсинкском исследова- нии, включавшем 4081 мужчину с гиперхолестери- немией, показано, что для предотвращения 1 слу-
Рис. 10. При использовании графиков с несколькими ося- ми, каждая из которых служит для отображения своего показателя, связь между последними может искажаться.
Линии А, В и С отображают одни и те же данные, но их восприятие зависит от масштаба, выбранного при построении графика. В данном примере подъем линии В представляется в
2 раза меньшим, чем линии А, а подъем линии С — в 4 раза меньшим.
МЕТОДОЛОГИЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

29
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
чая инфаркта миокарда необходимо проводить ле- чение 71 участнику в течение 5 лет.
Результаты, представленные в виде связи между усилиями и результатом (другой вариант). В Хельсинк- ском исследовании, включавшем 4081 мужчину с ги- перхолестеринемией, показано, что для предотвра- щения 1 случая инфаркта миокарда в течение 5 лет необходимо назначить около 200 000 доз гемфибро- зила.
Результаты, представленные в виде отношений об- щей смертности. В Хельсинкском исследовании от инфаркта миокарда в группах гемфиброзила и кон- троля умерли 6 и 10 участников соответственно.
Снижение абсолютного риска составило 0,2%,
снижение относительного риска — 40%. Для пре- дотвращения 1 случая смерти от инфаркта мио- карда в течение 1 года необходимо назначить ле- чение 2460 мужчинам.
Ошибка 20. Смешение понятий статистической и клинической значимости
Даже несущественное различие, выявленное при сравнении больших групп, может оказаться статистически значимым, но не иметь при этом клинического значения [12, 33]. Так, при сравне- нии эффективности использования двух искусст- венных водителей ритма у нескольких тысяч боль- ных среднее различие в 0,25 месяца на протяже- нии 5 лет клинически незначимо, даже если оно объясняется случайностью менее чем в 1 из 1000
случаев (р<0,001).
И наоборот, даже существенное различие, вы- явленное при сравнении небольших групп, может иметь клиническое значение, но не быть при этом статистически значимым. Если в ходе исследования,
включающего несколько больных в терминальном состоянии, хотя бы один из участников в какой-либо из групп выживет, такой результат будет клиниче- ски значимым, хотя статистически значимое разли- чие в частоте выживания между группами может от- сутствовать.
ЗАКЛЮЧЕНИЕ
Главное решение проблемы ошибок статисти- ческого анализа данных состоит в изучении ис- следователями методологии исследований и ста- тистического анализа. Статистикам следует прояв- лять большую активность в вопросе обучения ав- торов, редакторов и читателей. Необходимо, что- бы авторы привлекали статистиков на этапе пла- нирования исследования, а не после его заверше- ния. Редакторы должны систематически применять рекомендации по представлению статистических данных [12, 18, 19, 34—40]. Важно, чтобы в как
Таблица 3. Варианты таблицы, включающей в себя 3 переменных (национальность, пол, возраст)
Т. Ланг. СТАТИСТИЧЕСКИЙ АНАЛИЗ В БИОМЕДИЦИНСКИХ СТАТЬЯХ
Возраст, годы
Kитай
США
м ж
м ж
0—21 22—49 50+
0—21 22—49 50+
м ж
м ж
м ж
США
Kитай
Мужчины
(возраст, годы)
Женщины
(возраст, годы)
0—21 22—49 50+
0—21 22—49 50+
США
Kитай
0—21 22—49 50+
США Kитай США Kитай США Kитай
Мужчины
Женщины
США (возраст, годы) Kитай (возраст, годы)
0—21 22—49 50+
0—21 22—49 50+
Мужчины
Женщины
0—21 год
22—49 лет
50+
Мужчины:
США
Kитай
Женщины:
США
Kитай
0—21 год
22—49 лет
50+
США:
мужчины женщины
Kитай:
мужчины женщины
Возраст, годы
Мужчины
Женщины
США
Kитай
США
Kитай
0—21 22—49 50+
Вариант 2
Вариант 3
Вариант 4
Вариант 5
Вариант 6
Вариант 7
Вариант 8
Вариант 1

30
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
можно большем числе журналов тщательно про- веряли статьи, в которых содержится статистиче- ский анализ. Читатели в свою очередь должны обу-
Характеристика исследования
Фундаментальное
Прикладное
Kритерии диагностики
Получение культуры Rhinovirus
Наличие 3 из 10 симптомов
Kритерии оценки эффективности
(исходы)
Kоличество отделяемого из носа
(подсчет салфеток)
Уменьшение числа и длительности сохранения симптомов
Условия проведения
Стационар
Амбулаторно
Прием препарата
Под контролем исследователя
Под контролем самих больных
Структура
Маскированное, плацебо- контролируемое
Маскированное, плацебо- контролируемое
Задача
Действенность цинка как противовирусного препарата
Эффективность использования цинка при лечении простуды
Таблица 4. Различия между фундаментальным и прикладным исследованиями эффективности таблетированного препарата цинка при лечении простуды. Целью прикладного исследования было определить, способствует ли вмеша- тельство уменьшению числа и длительности сохранения симптомов простуды у амбулаторных больных. В состав участников включали любых лиц, принимавших препарат. В ходе фундаментального исследования изучали эффектив- ность цинка как противовирусного препарата; оно проводилось в более строгих экспериментальных условиях
Литература
1. Glantz S.A. Biostatistics: how to detect, correct and prevent errors in the medical literature. Circulation 1980;61:1—7.
2. Evans M. Presentation of manuscripts for publication in the
British Journal of Surgery. Br J Surg 1989;76:1311—4.
3. Mainland D. Chance and the blood count. 1934 CMAJ
1993;148:225—7.
4. Schor S., Karten I. Statistical evaluation of medical journal manuscripts. JAMA 1966;195:1123—8.
5. White S.J. Statistical errors in papers in the British Journal of
Psychiatry. Br J Psychiat 1979;135:336—42.
6. Hemminki E. Quality of reports of clinical trials submitted by the drug undustry to the Finnish and Swedish control autorities.
Eur J Clin Pharmacol 1981;19:157—65.
7. Gore S.M., Jones G., Thompson S.G. The Lancet`s statistical review process: areas for improvement by authors. Lancet
1992;340:100—2.
8. George S.L. Statistics in medical journals: a survey of current policies and proposal for editors. Med Pediat Oncol
1985;13:109—12.
9. Altman D.G., Schulz K.F., Moher D., Egger M., Davidoff F., Elbourne D.,
et al. for the CONSORT Group. The CONSORT statement:
revised recommendations for improving the quality of parallel- group randomized trials. Ann Intern Med 2001;134:657—62;
Lancet 2001;357:1191—4; JAMA 2001;285:1987—91.
10. Stroup D., Berlin J., Morton S., Olkin I., Williamson G.D., Rennie
D., et al. Meta-analys of observation studies in epidemiology. A
proposal for reporting. JAMA 2000;283:2008—12.
11. Moher D., Cook D.J., Eastwood S., Olkin I., Rennie D., Stroup D.F.,
for the Quorum group. Improving the quality of reports of analises of randomised controlled trials: the Quorum statement.
Lancet 1999;354:1896—900.
12. Lang T., Secic M. How to report statistics in medicine: annotated guideline for authors, editors, and reviewers. Philadelphia (PA):
American Colleje of Physicians;1997.
13. Ehrebeng A.S. The problem of numeracy. Am Statistician
1981;286:67—71.
14. Muray G.D. The task of a statistical referee. Br J Surg 1988;75:664—
7.
15. Feinstein A.R. X and iprP: an improved summery for scientifics communication. J Chronic Dis 1987;40:283—8.
16. Feinstein A.R. Clinical biostatistics XXXVII. Demeaned errors,
confidence games, nonplused mineses, inefficient coefficients,
and other statistical disruption of scientific communication.
Clin Pharmacol Ther 1976;20:617—31.
17. Gardner M.J., Altman D. Confidence interval rather that P values estimation rather that hypothesis testing. BMJ 1986;292:746—
50.
18. Bailar J.C., Mosteller F. Guidelines for statistical reporting in articles for medical journal. Ann Intern Med 1998;108:266—73.
19. DerSimonian R., Charette L.J., McPeek B., Mosteller F. Reporting on methods in clinical trials. N Engl J Med 1982;306:1332—7.
20. Cooper G.S., Zangvill L. An analysis of the quality of research reports in the Journal of General Internl Medicine. J Gen
Inter Med 1989;4:232—6.
21. Hampton J.R. Presentation and analysis of the results of clinical trials in cardiovascular disease. BMJ 1981;282:1371—3.
22. Pocock S.J., Hughes M.D., Lee R.J. Statistical problems in the reporting of clinical trials/ A survey of three medical journals.
N Engl J Med 1987;317:426—32.
23. Altman D.G., Dore C.J. Randomisation and baseline comparisons in clinical trials. Lancet 1990;335:149—53.
24. How to read clinical Journals: II. To learn about a diagnostic test. Can Med Assoc J 1981;124:703—10.
25. Simel D.L., Feussner J.R., Delong E.R., Matchar D.B. Intermediate,
indeterminate and uninterpretable diagnostic test results. Med
Decis Making 1987;7:107—14.
26. Harris R.L. Information graphics: a comprehensive illustrated reference. Oxford:Oxford University Press; 1999.
27. Lang T., Tarelico C. Improving comprehension: theories and research findings. In: American Medical Writers
Association. Selected workshop in biomedical communications, Vol. 2. Bethesda (SD): American Medical
Writers Association;1997.
28. Gotzsche P.C. Methodology and overt and hidden bias in reports of 196 double-blind trials of nonsteroidal antuunflammatory drugs in rheumatoid arthritis. Cont Clin Trials 1989;10:31—56.
МЕТОДОЛОГИЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ
чаться интерпретации статистических данных и требовать от авторов грамотного их представле- ния.

31
МЕЖДУНАРОДНЫЙ ЖУРНАЛ МЕДИЦИНСКОЙ ПРАКТИКИ
1`2005
29. Schwartz D., Lellouch J. Explantory and pragmatic attitudes in therapeutic trials. J Chron Dis 1967;20:637—48 30. Simon J., Wagner E.,Voncroff M. Cost-effectivenes comparisons using “real world” randomized trial: the case of new antidepressant drugs. J Clin Epidemiol 1995;48:363—73.
31. Guyatt G.H., Sackett D.L., Cook D.J. Users` guide to the medical literature. II. How to use an article about therapy or prevention.
B. What were the results and will they help me in caring for my patient? JAMA 1994;271:59—63.
32. Brett A.S. Treating hypercholesterolemia: how should practicing physicians interpret the published data for patients? N Engl J
Med 1989;321:676—80.
33. Ellenbaas R.M., Ellenbaas J.K., Cuddy P.G. Evaluation the medical literature, part II: statistical analysis. Ann Emerg Med
1983;12:610—20.
34. Altman D.G., Gore S.M., Gardner M.J., Pocock S.J. Sttistical guidelines for contributors to medical joutnals. BMJ
1983;286:1489—93.
Т. Ланг. СТАТИСТИЧЕСКИЙ АНАЛИЗ В БИОМЕДИЦИНСКИХ СТАТЬЯХ
35. Chalmers T.C., Smith H., Blackburn B., Silverman B., Schroeder B.,
Reitman D., et al. A method for assessing the quality of a randomized control trial. Cont Clin Trials 1981;2:31—49.
36. Gardner M.J., Machin D., Campbell M.J. Use of checklist in assessing the statistical content of medical studies. BMJ
1986;292:810—2.
37. Mosteller F., Gilbert J.P., McPeek B. Reporting Standart and
Research Strategies for Controlled Trials. Cont Clin Trials
1980;1:37—58.
38. Murrey G.D. Statistical guideline for the Dritish Journal of
Surgery. Br J Surg 1991;78:782—4.
39. Simon R., Wittes R.E. Methodologic guidelines for reports of clinical trials/ Cancer Treat Rep 1985;69:1—3.
40. Zelen M. Guidelines for publishing papers on cancer clinical trials: responsibilities of editors and authors/ J Clin Oncol
1983;1:164—9.
написать администратору сайта