Сегодня в рамках последнего дня проекта «ProНаука в КФУ» состоялась лекция «Большие данные – большой хаос?». Об особенностях онлайн-обучения, особенно актуального во время пандемии, рассказал старший преподаватель кафедры программной инженерии Института информационных технологий и интеллектуальных систем КФУ, data architect Азат Якупов.
«По прогнозам в 2020 году общий поток трафика в интернете и поток данных должны составить 44 зеттабайт. (Отметим, что 1 зеттабайт – это секстиллион байт, или 1 миллион миллионов гигабайт; 1 зеттабайт равен памяти 34,4 миллиардов смартфонов памятью 32 Гб – прим. ред.) Это огромная цифра, хранящая всю информацию о трафике, интернете вещей, лайках, постах в социальных сетях. Такое предсказание было сделано несколько лет назад без учета текущей ситуации, социального дистанцирования и онлайн-обучения. В реальности цифры другие – намного больше. Они показывают тренд развития объема трафика и данных в большом масштабе. Сегодня количество обрабатываемых данных Google – 30 петабайт в сутки (1 петабайт – 1024 терабайта – прим. ред.)», – отметил Азат Якупов.
Загрузка миллионов фотографий в день на Facebook, лайки, твиты, ретвиты – все это вызывает массовый приток потока данных, большую энтропию – хаотичность данных. Чем больше данных, тем больше хаоса. Спикер задался вопросами: Каким образом в будущем будем обрабатывать данные? Какие технологии придут на помощь для обработки массы информации? Возможна ли обработка в эффективной манере, или это превратится в хаос и мы не в состоянии будем управлять этими потоками, не сможем систематизировать и масштабировать?
«Данные являются неким новым агрегатором, новой нефтью, "золотой жилой". На основании этих данных можно выводить корреляции, благодаря этому родилась наука о данных – data science. На самом деле это хорошо забытое старое. Просто оно пришло на новом витке истории, с дополнительными срезами наук по статистике, компьютер-science, математике, бизнес- и системной аналитике. Также эта наука требует и других навыков, позволяющих оперировать данными, анализировать, делать выводы на основании информации, окружающей нас в мире», – говорит лектор.
Существуют два вида баз данных: реляционные и не реляционные. А.Якупов привел историю создания базы данных, то есть саму теорию. В 1970 году профессор Франкот предложил реляционную модель с нуля, когда не было под рукой компьютеров. Он определял математическую модель как основу того, что предстоит в будущем, предвидел развитие самой системы развития, как нужно обрабатывать, хранить, структурировать данные. Структурное понимание – основополагающий фактор обмена информации между людьми, понимания того, что эти данные будут востребованы в будущем, что не будет хаоса. Он пытался убрать энтропию, ввести структуру, упорядочив все данные.
В 1971 году появилась база данных Ingres от Майкла Стоунбрейкера, разработавшего первую базу данных вместе со своими студентами. Она на физическом уровне могла оперировать понятиями реляционной модели. После этого произошло бурное развитие таких систем.
В 1979 году корпорация Oracle выпустила первую реляционную базу данных. В 1980 году появился первый стандарт. Именно тогда поняли, что необходимо стандартизировать бурный рост моделей: база должна обладать запросной системой, паттерном хранения, "фишками", позволяющими просто оперировать данными. В 1990-х годах появилась методология понятия обработки данных Olap-системы, когда внутри самой системы можно делать аналитику. Тогда появилась возможность обрабатывать форматы данных не только в виде атомарных полей или атрибутов, но и в виде текстов, мультимедиа.
В 1995 году бурно развивается Интернет. В 1996 году развитие мобильной связи, мобильного трафика позволяет создавать базу данных локально на телефонах.
Франкот ввел закон – информационное правило: «Вся информация в реляционных базах данных должна быть представлена логически только в одном пути, использование как значение в таблице, и ничего более. Реляционная база данных определяется тремя пространствами: ключ, таблица, столбец. В не реляционной базе данных, помимо них, фиксируется время изменения данных».
С 2000 года происходит развитие методологии базы данных, паттерного проектирования того, как база должна выглядеть, чтобы соответствовать современным традициям.
Есть два понятия – OLTP и Olap-база данных. OLTP помогает систематизировать трафик (например, многие пользователи используют базу данных для изменения, дополнения). Olap-трафик помогает анализировать существующие данные.
Сегодня существует вызов: как совместить эти базы данных, чтобы они друг другу не мешали? Как развить систему, если у нас непрерывные данные? Такие системы очень актуальны, они основаны на двух разновидностях подхода к решению базы данных: дискретность (стандартная Olap-база данных) и непрерывные данные (в рамках лямбда-архитектуры и сap-архитектуры). Лямбда- и cap-архитектура появились недавно, повсеместно использовались компаниями. Они предусматривают работу с очень большими данными.
Сегодня новая эра моделирования. Появляется термин data-lake – озеро данных, который позволяет систематизировать не просто таблицы, сущности, а сливать информацию с разных источников. Теперь базы данных могут быть разных версий, из разных компаний, в том числе их можно получать и из публичных источников. Но big-data не спускается до индивидуальностей, а показывает кластеризацию. Data-lake привнес возможность работы с сущностями не просто как с таблицами, а с сущностями, конкретно связанными с базой данных. Такие системы уже существуют. Например, компания Amazon анонсировала: в их облаке более 10 000 data-lake.
«Что нас ждет дальше? Это может быть набор data-lake, которые могут объединиться в глобальное "озеро", позволят нам анализировать не конкретные корпорации, организацию, а состояние экономики конкретной страны и выносить вердикты на основании обычных алгоритмов. Они помогут сделать предположения для правительства, конкретной организации. Мы можем получить эпохальное развитие данных и их обслуживание, использование. Профессии data-инженера, аналитика данных сейчас очень востребованы. Можно, изучая начальные базы данных, выстроить концепцию того, как все это преобразуется, - это позволит оперировать большими кусками информации. Но здесь нужно быть осторожным: наше озеро данных может превратиться в болото, которое будет цифровым мутантом, хранящим информацию, которой нельзя будет воспользоваться», – резюмировал А.Якупов.