Это продолжение моего доклада на онлайн-конференции в 2024 году. Начало тут
Поведение ВДЛД в тестах однотемного скрининга с вопросами управляемой лжи
ВДЛД изучалось нами на выборке из 100 тестов однотемного скрининга, которую предоставила нам НШДЛ -национальная школа детекция лжи (полиграмма одного теста была забракована и исключена из выборки). Измерение ВДЛД производилось на пятнадцатисекундном интервале Тесты были проведены в полевых условиях различными полиграфологами, которые прошли подготовку в АНО ДПО «Центр прикладной психофизиологии».
Пару слов о тесте однотемного скрининга. По своей структуре он идентичен DLST. В качестве вопросов сомнения используются вопросы управляемой лжи (ВУЛ). В отличии от DLST оба релевантных вопроса теста касаются одной темы. Решение принимается суммированием результатов по обоим релевантным вопросам.
По некоторым сведениям, такой тест (SIST) был предложен Патриком O’Берком в 2022 году, по другой информации этот тест, на основе DLST, появился ещё в конце 2000 -х. Так или иначе этот тест активно используется в России полиграфологами, обучавшимися в НШДЛ.
Формат теста однотемного скрининга, используемого в России, заключается в том, что в нём в качестве контрольных вопросов используют только ВУЛ и два проверочных вопроса (ПВ), которые относятся к одной теме и повторяются в тесте трижды, будучи окруженными указанными вопросами сравнения. Тест ОС используется для проверки результатов многотемного скрининга или проведения однотемных проверок как в случае скрининговых исследований, так и в случае расследований. Предоставленная выборка представляла тесты ОС с помощью, которых перепроверялись результаты многотемного скрининга.

В тестах методики вопросов сравнения, для принятия решения, важным является не сама по себе величина, например, амплитуды КГР, или длина линии дыхания на релевантный вопрос, но их сравнение, например разность их значение со значениями на вопрос сравнения (по иному контрольный вопрос). Если длина линии дыхания на релевантный вопрос короче длины линии дыхания на вопрос сравнения, то мы говорим, что реакция в канале дыхания сильнее, на релевантный вопрос, иначе сильнее на контрольный. Тогда, если разность ДЛД на релевантный вопрос и ДЛД на вопрос сравнения меньше нуля, то пара сравниваемых вопросов релевантный ‒ контрольный в канале дыхания вносит вклад в принятие решения о сравнительной значимости релевантного вопроса. Иначе – вклад о сравнительной незначимости релевантного вопроса. Анализ поведения ДЛД в выборке тестов ОС осуществлялся с использование алгоритма «Сокол» из одноименной программы СППРП «Сокол». Этот алгоритм вычисляет разности ДЛД в паре сравниваемых вопросов и производит косинусную нормализацию, получаемую на всех парах сравнения релевантный ‒ контрольный. А затем суммирует нормированные разности ДЛД. Полученную сумма для краткости мы называем λ (лямбда). Алгоритм «Сокол» проверен и имеет высокую точность классификации полиграмм. Например, на выборке объёмом 100 полиграмм из базы полиграмм с известным решением DODPI США он правильно классифицировал 96 полиграмм из 100.
В итоге, если лямбда, вычисленная в канале дыхания меньше нуля (λ <0), то дыхание вносит в решение алгоритма вклад в пользу относительной значимости релевантной темы. Если λ> 0, то дыхание вносит вклад в пользу относительной незначимости. Знак лямбды совпадает со знаком следующего выражения – суммы разностей ДЛД всех сравниваемых пар вопросов теста. Иначе – если сумма ДЛД проверочных стимулов меньше суммы ДЛД вопросов сравнения, то лямбда имеет отрицательный знак, иначе положительный.
Первоначально тесты из выборки ОС классифицировались алгоритмом с использованием канала дыхания. Кроме него использовались: амплитуда КГР, подъём осциллограммы в канале Манжета, спазм ФПГ. Затем те же тесты оценивались алгоритмом без учета канала дыхания. Кроме того, производилась экспертная оценка полиграмм в эмпирической системе обсчёта.


Как можно видеть при исключении ДЛД из анализа, почти в два раза уменьшается количество решений алгоритма о значимости проверочной темы, существенно уменьшается доля исходов «нет вывода» - в 1,5 раза, и более чем в 1,5 раза увеличивается количество результатов «проверочная тема не значима». В целом результаты алгоритма на этой выборке, при исключении дыхания, приближаются к результатам эксперта, который производил крайне консервативную оценку в канале дыхания. Мы не можем сказать чей результат в итоге ближе к истине: алгоритма или эксперта, но мы может однозначно видеть, что использование ДЛД в этих тестах увеличивает количество обвинений и неопределенных результатов. Это может быть только в том случае, если тренд по ДЛД противоположен совокупному тренду по остальным физиологическим признакам реакции, в других физиологических каналах.

В 87 тестах из 99 алгоритм даёт по дыханию тренд на значимость проверочной темы. На уровне измерений длины линии дыхания этот тренд означает, что в большинстве случаев она на 15 секундном интервале после начала задавания вопроса на проверочную тему короче, чем на вопросы сравнения. Но 87 из 99 – это очень большая частота тем более, что она находится в явном противоречии с результатами алгоритмов без учёта дыхания. Если бы алгоритм делал выводы, опираясь только на ДЛД, то он почти всегда обвинял бы проверяемых.
С помощью тестов данной выборки перепроверялись результаты многотемного скрининга относительно стандартных факторов риска: хищения, злоупотребление алкоголем, употребление наркотических веществ и т.п. Причем технология этого скрининга такова, что из теста только проверочных вопросов отбираются те, что по мнению эксперта выхвали наибольшую реакцию у тестируемого, и проверяются с помощью теста ОС. Белорусские полиграфологи Костенев И.В. и Прилепи В.П. исследовали частоту встречаемости стандартных факторов риска на выборке из нескольких сотен проверяемых лиц и пришли к выводу, что частота встречаемости 7-ми стандартных факторов риска находиться в диапазоне от 4,8% и максимальная частота ‒ 31,7%. А по ДЛД обвинение происходит в почти 87% случаев. Отбор в выборку ОС по принципу максимальной реакции в тесте только проверочных вопросов, конечно, должно повышать частоту встречаемости признака в этой выборке, но, по нашему мнению, это не должно повышать её значительно. Так как и скрывающие факторы риска проверяемые, и не скрывающие таковых, будут обязательно выдавать максимальное реагирование на какой-либо фактор в тесте только проверочных вопросов. А не скрывающих существенно большее количество. Можно предположить, что частота встречаемости признака на данной выборке равна 50%, что существенно больше оценок белорусских полиграфологов. Тогда ожидаемое количество верных обвинений и оправданий в исследуемой выборке должно быть по 49,5 случаев. Можно проверить будет ли результат классификации полиграмм по ДЛД статистически значимо отличаться от ожидаемого результата в этом случае.

Достигаемы уровень значимости равен 4.8·10-8 (χ2). Что однозначно говорит о том, что либо обвинительный уклон ДЛД далёк от истины, либо наше предположение о частоте встречаемости признака на выборке далеко от реального. Но даже если мы предположим, что частота встречаемости признака на выборке приблизительно равна 75%, то и в этом случае достигаемый уровень значимости буде меньше 0,05. Но такое предположение, и тем более предположение ещё о большей частоте встречаемости, будет находиться в противоречии с результатами алгоритма без учета дыхания и мнением эксперта. Тогда мы будем вынуждены сказать, что алгоритм по оставшимся физиологическим признакам и ЭСО дают крайне неточные результаты. Например, эксперт дал вывод о значимости только в 8 случаях, а должен был это сделать в 75.
Из сказанного можно сделать вывод, что поведение ДЛД в тестах ОС с вопросами управляемой лжи имеет исключительно обвинительный характер, и ДЛД не должно учитываться при анализе его результатов.
Поведение ВДЛД в тестах вопросов сравнения с вопросами вероятной лжи
Свойства ВДЛД обнаружить имеющееся свойства, иначе значимость релевантного вопроса и ложь при ответе на него, и свойство ВДЛД свидетельствовать в пользу отсутствия свойства, когда оно действительно отсутствует, изучалась нами на выборке из 300 полиграмм. Реальное наличие обмана, или правдивости ответа на этих полиграммах нам было заранее известно. В выборке было 150 полиграмм с правдивыми ответами и столько же с лживыми ответами на релевантные вопросы. Вышеупомянутые свойства ВДЛД иначе называются чувствительностью и специфичностью (избирательностью). Для краткости мы их называем полезностью, рассматривая их, как частичный вклад в общий вывод по тесту. И вклад такой может быть как полезным – способствовать правильному итоговому выводу, так и не полезным в случае, если он способствует ошибочному решению – ухудшают прогноз алгоритма.
Для изучения поведения ВДЛД использовался алгоритм «Сокол», производилось вычисление параметра лямбда в канале дыхания. Напомню, что положительное значение лямбды означает вклад дыхания в решение алгоритма в пользу правдивости ответов, отрицательное значение – в пользу лживости.
В случае правдивых проверяемых обнаружилось, что лямбда в дыхании принимала положительное значение в 93 случаях, а отрицательное значение в 57 тестах. В случае лгавших – отрицательное значение в 119 тестах, положительное в 31 тесте.

Польза от ВДЛД в выявлении лживых выше, чем польза в определении правдивых опрашиваемых. Различие статистически значимо (p <0,001). В почти трети случаев – 88 из 300, ДЛД будет вносить отрицательный вклад в решение по результатам теста. Общая польза ДЛД ‒ 0,71, что говорит о невысоких дискриминационных свойствах ДЛД в тестах с вопросами сравнения. Их понижение происходит в большей мере из-за особенностей реагирование в дыхании правдивых опрашиваемых. Отрицательная прогностическая ценность ВДЛД – вероятность того, что свойство отсутствует, если результат теста говорит об его отсутствии:

Положительная прогностическая ценность – вероятность того, что свойство существует, если результат теста говорит о его наличии:

Как видно в отличии от полезности отрицательная ценность ДЛД выше, чем положительная ценность. Это означает, что, если ДЛД свидетельствует о правдивости ОЛ этому следует доверять больше, чем когда ДЛД свидетельствует о лживости ОЛ, хотя разница в этих оценках невелика.
Общий вывод относительно использования ДЛД в различных тестовых методиках
-
В ТЗВ в случае тестов, которые проводятся с лицами, совершившими преступные деяния, когда исход проверки на полиграфе для них имеет высокую цену, необходимо учитывать величину ДЛД. Она несёт почти столько же информации, как и КГР, и может сократить количество ошибок в два раза. В лабораторных тестах, хотя эффект полезности ДЛД статистически значим, но тем не менее он мал по величине, ДЛД мало информативна и может не учитываться;
-
В тестах однотемного скрининга с вопросами управляемой лжи поведение ДЛД носит сильно выраженный обвинительный характер и должно быть исключено из анализа их результатов;
-
В тестах с вопросами сравнения полезность ДЛД носит относительно невысока, что должны учитывать алгоритмы анализа полиграмм. Прогнозу по ДЛД о правдивости опрашиваемого лица стоит доверять больше, чем такому же прогнозу о его лживости.