2019-03-23 14:00
«Многое из того, что я видел в Женеве, реально избавило меня от иллюзий о том, как действует моё правительство и что это приносит миру. Я понял, что я — часть того, что приносит намного больше вреда, чем пользы»
Эдвард Сноуден
В своих сенсационных разоблачениях, Эдвард Сноуден, кроме всего прочего, раскрыл информацию о системах интеллектуального анализа данных. Их АНБ использует, в частности, для того чтобы систематизировать данные о странах, в которых ведется электронная слежка. Среди разглашенных Сноуденом материалов – созданная Boundless Informant цифровая карта с указанием стран-объектов для электронной разведки. Судя по этой карте, активнее всего американские спецслужбы действуют в Иране, Пакистане и Иордании. Но и в собственной стране АНБ ведет массовую цифровую слежку в рамках секретной государственной программы PRISM по перехвату телефонных переговоров и электронных коммуникаций.
Итак, как это работает?
Система интеллектуального анализа данных. Вне всякого сомнения, это – широкий шаг в будущее. А все инновации в нашем мире проходят, в первую очередь, через военное применение.
Интеллектуальный анализ данных — одно из самых передовых направлений использования искусственного интеллекта. Этот термин является весьма неточным переводом терминов Data Mining и Knowledge Discovery in Databases (DM&KDD). Более точный перевод — «добыча данных» и «выявление знаний в базах данных».
Data Mining — это процесс обнаружения в необработанных данных (row data) раннее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия определенных решений
Появление технологий DM&KDD было естественным процессом. В компьютерных базах данных, накапливались огромные объемы информации. Эти объемы стало фактически невозможно хранить и тем более – эффективно ими пользоваться. По крайней мере, традиционными методами.
Следует понимать, что сегодня происходит стремительное развитие вычислительной техники и программных средств для представления и обработки данных. Объемы накопленных данных постоянно требуют модификации, так как происходит перманентная смена аппаратного и программного обеспечения БД. Потери и искажение информации становятся неизбежными.
Одним из способов для преодоления этих проблем является создание информационных хранилищ данных, доступ к которым не будет зависеть от темпорального изменения данных и от используемого программного обеспечения.
Другой подход ориентирован на компрессию больших объемов данных путем нахождения некоторых общих закономерностей в накопленной информации. Этот подход напрямую связан с разработками в области искусственного интеллекта. Этот подход связан с проблемой приобретения новых знаний.
Наличие хранилища данных — необходимое условие для успешного проведения всего процесса выявления знаний в базах данных(KDD). Хранилищем данных называют предметно-ориентированное, интегрированное, темпоральное, неизменяемое собрание данных, используемых для поддержки процесса принятия решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают. Такой принцип хранения гарантирует, что отчеты, сгенерированные различными аналитиками, будут опираться на одну и ту же совокупность данных. Темпоральное – значит атрибут времени всегда явно присутствует в структурах хранилищ данных. Данные, занесенные в хранилище, уже не изменяются в отличие от оперативных систем, где присутствуют только последние, постоянно изменяемые версии данных. Для хранилищ данных уже характерны операции добавления, а не модификации данных.
Выведенные из данных закономерности и правила теперь можно применять для описания существующих соотношений объектов и их закономерностей. Также их можно эффективно использовать для прогнозирования последствий принятия решений.
В технологиях DM&KDD используются различные математические методы и алгоритмы.
Классификация — инструмент обобщения. Она позволяет перейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют совокупности объектов и являются достаточными для распознавания объектов, принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключается в нахождении закономерностей, свойственных классам. Для описания объектов используются множества различных признаков (атрибутов).
Кластеризация — это распределение информации из БД по кластерам (сегментам) с одновременным определением этих групп. Для проведения анализа здесь не требуется предварительного задания классов.
Регрессионный анализ. Если отношения между атрибутами объектов в базе данных выражены количественными оценками, уравнения регрессии позволяют вычислять значения зависимых атрибутов по заданным значениям независимых признаков.
Прогнозирование темпоральных рядов является инструментом для определения тенденций изменения атрибутов объектов с течением времени. Это позволяет прогнозировать значения исследуемых характеристик.
Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота появления отдельного предмета или группы предметов, выраженная в процентах, называется распространенностью. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.
Последовательность — это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий.
К интеллектуальным средствам DM&KDD относятся нейронные сети, деревья решений, индуктивные выводы, методы рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы определения ассоциаций и последовательностей, анализ с избирательным действием, логическая регрессия, эволюционное программирование, визуализация данных. Все эти методы применяются в различных комбинациях.
Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона представляет собой некий универсальный нелинейный элемент, допускающий возможность изменения и настройки его характеристик. Это помогает системе быть по-настоящему интеллектуальной, то есть – самообучающейся.
Деревья решений — метод структурирования задачи в виде древовидного графа, вершины которого соответствуют продукционным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений.
Индуктивные выводы позволяют получить обобщения фактов, хранящихся в базе данных. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем.
Рассуждения на основе аналогичных случаев (Case-based reasoning — CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией. Принцип аналогии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой.
Нечеткая логика применяется для обработки данных с размытыми значениями истинности, которые могут быть представлены разнообразными лингвистическими переменными.
Генетические алгоритмы входят в инструментарий DM&KDD как мощное средство решения комбинаторных и оптимизационных задач. Они часто применяются в сочетании с нейронными сетями.
Логическая (логистическая) регрессия используется для предсказания вероятности появления того или иного значения дискретной целевой переменной. Логическая регрессия — это, с одной стороны, инструмент классификации, который используется для предсказания значений категориальных переменных, с другой стороны — регрессионный инструмент, позволяющий оценить степень влияния входных факторов на результат.
Эволюционное программирование — самая новая и наиболее перспективная ветвь DM&KDD. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от других переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирования. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построения таких программ организован как эволюция программ.
В современных военных средствах DM&KDD постоянно используются комбинированные методы.
Как это используется?
Сложнейшие интеллектуальные системы используются АНБ США и другими спецслужбами для обработки огромных массивов информации, которая поступает в хранилища данных в автоматическом режиме. Да, прошли те времена, когда слежка велась за конкретным объектам. Когда использовались электронные жучки и методы «прямой прослушки». Эдвард Сноуден однажды сказал – «им не нужны Вы, им нужен Ваш смартфон». И он был прав. Как мы уже говорили в прошлой статье, с развитием коммуникаций мы получили неограниченные средства общения, но потеряли личную свободу. Система сама проводит анализ значимости объектов. Сама решает, к кому необходимо проявлять особое внимание. Вычислительные системы стали по-настоящему интеллектуальными.
Представьте себе огромный конвейер автомобильного завода. Весь процесс сборки, сварки, тестирования изделий полностью автоматизирован. На выходе завода мы получаем из тысяч различных деталей готовый автомобиль. Так же действуют и системы АНБ. Из разрозненной информации, которая поступает в базы со всего мира, получаются готовые к использованию, систематизированные блоки. Самое прогрессивное в этой технологии то, что сбором информационного сырья так же занимается сама система в практически полностью автоматизированном режиме.
Теперь, когда мы знаем о работе системы, то с легкостью можем понять, почему в России вышла деректива, запрещающая использование военнослужащими и работниками силовых структур любых «гаджетов», включая смартфоны, ноутбуки, планшетные компьютеры и другие прелести цивилизации в служебное время. Разрешены только простейшие сотовые телефоны, называемые в народе «кнопочными». Но дело в том, что сама система сотовой связи так же имеет свои уязвимости. Скорее всего, для нужд военных и силовиков со временем будут формироваться собственные сети связи с собственными стандартами кодирования потоков данных.
Рассмотренные нами системы позволяют эффективно собирать, отфильтровывать, систематизировать и обрабатывать большие объемы информации. Но подобные системы в своей эволюции уже достигли того уровня, когда становится возможным генерировать вредоносную информацию с ее трансляцией на территории условного противника. Нарушать коммуникации, банковскую систему, вносить в соцсети вредоносную информацию, сеять панику среди мирного населения. Но об этом развитии технологии мы поговорим в следующей статье.
Источник: news-front.info
Комментариев нет:
Отправить комментарий