Big Data, Artificial Intelligence и много других страшных слов

Рубрика: Информационные технологии

Автор: Ярослав Ефименко, Андрей Скулин

3178

С термином «искусственный интеллект» человечество знакомо уже очень давно. Благодаря научной фантастике искусственный интеллект, или сокращенно ИИ, как только ни использовался — и для управления гигантскими и обычными человекоподобными роботами, космическими кораблями, заводами, целыми городами и планетами и т. д. В творчестве фантастов он мог быть и дружественным, и враждебным (вспомнить хотя бы SkyNet и Терминатора), способным на самостоятельное существование и действующим только совместно с человеком, — в общем, на любой вкус.

Но и в современном мире кто-то считает, что искусственный интеллект из фантастики уже существует, ну или как минимум на пороге, кто-то вообще про это ничего не знает и не думает, кто-то полон скептицизма в принципе. Давайте разберемся детальнее.

BIG DATA. ЧТО ЭТО ВООБЩЕ ТАКОЕ?

Фактически рассматриваемый далее «искусственный интеллект» и прочие методики работы с данными базируются на так называемых «больших данных», или на английском — Big Data. Что же это вообще такое?

Большие данные — обозначение структурированных и неструктурированных данных огромных объемов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х гг., и альтернативных традиционным системам управления базами данных. В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объем данных. Хороший пример в данном случае — это метеорологические данные. Считается, что достоверные прогнозы погоды как в общепланетном масштабе, так и для любого интересующего региона стали возможны именно с 2010 г. и именно вследствие возможности обработки всего накопленного массива данных в реальном времени.

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объeм (volume, в смысле величины физического объема, считается, что большие данные условно начинаются от 5 терабайт), скорость (velocity, в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных). Другими словами, данных не просто много, а очень много, их количество постоянно и быстро становится все больше и больше, да еще и сами данные не отличаются качеством, а, скорее, наоборот — все время разные по составу, форматам и источникам.

Кроме этого, есть еще и дополнительные «три V». Так, Veracity, истинность, означает, что большие данные включают в себя различные искажения, шумы и сдвиги. Показатель истинности как раз и учитывает их влияние. Отмечается, что установить истинность в анализе данных является самой большой проблемой при сравнении с объемом и скоростью. К вопросу об истинности примыкает вопрос о достоверности данных — Validity. Он означает, что данные получены из правильного источника, измерения проведены согласно установленным правилам и т. д. Как отметил Фил Франциско, вице-президент по управлению продуктами IBM, достоверные данные являются ключом к принятию правильных решений. Последняя V — Volatility, изменчивость — относится к тому, как долго данные действительны и как долго должны храниться. В этом мире данных реального времени нужно определять, в какой момент данные уже не соответствуют реальности, а значит, не могут использоваться для анализа текущей ситуации.

Продолжение статьи читайте в мартовском номере журнала "Наука и техника" за 2020 год. Доступна как печатная, так и электронная версии журнала. Оформить подписку на журнал можно здесь.

В магазине на сайте также можно купить магниты, календари, постеры с авиацией, кораблями, сухопутной техникой

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Написать комментарий