Кафедра автоматики и компьютерных технологий
РЕФЕРАТ
По дисциплине
« Информационные технологии в системах автоматизации »
на тему:
«Современные технологии обработки данных – Big Data».
Группа: АТП-3-2уз
Студент: Салимов П.Б.
Руководитель: Бабенко А.Г.
Екатеринбург,2017
Содержание
Введение. 3
Термин Big Data. 4
История появления термина Big Data. 6
Общие принципы построения Big Data систем.. 7
Какие проблемы создает система big data. 8
Поэтапное использование big data. 11
Принципы работы с big data. 13
Как использовать систему big data. 14
Big data в мире. 17
Примеры использования Big Data в компаниях. 18
Рынок Big data в России. 20
Современные технологии обработки Big Data. 21
Заключение. 22
Список литературы: 23
Введение
На сегодняшний день в мире существует большое количество разнородных данных. При этом с одной стороны с каждым годом растет их количество, а с другой издержки на их поиск и интерпретацию. Данная проблемная ситуация усиливается по возрастающей от производственного к инновационному и далее к научному секторам экономики. Причем издержки в каждом из этих секторов так же возрастают при переходе от более низкого уровня обобщения к более высокому. Например, в инновационном секторе – от отдельного инновационного предприятия к инновационному кластеру и далее к инновационным системам (региональным, национальным). Целью настоящей работы является анализ основных современных технологий обработки «больших данных» (Big Data).
Термин Big Data
С приходом новых технологий, инструментов и средств коммуникаций, таких, как социальные сети, количество данных, производимых людьми, растет с каждым годом в геометрической прогрессии. Соотношение коэффициента полезности при этом уменьшается. Следовательно, вся генерируемая информация может быть использована для определенных целей только после предварительной и тщательной обработки.
Термин «Big Data» означает большие работы (коллекции, потоки) данных, которые не могут быть обработаны традиционными компьютерными техниками. Этот термин означает не само понятие «большие данные», а предмет исследования, который включает в себя различные инструменты, техники и платформы. Большие данные включают в себя информацию, генерируемую различными системами и приложениями. Некоторые из сфер, которые попадают под определение «Big Data»:
- черный ящик: информационная составляющая часть вертолета, самолета, морского/космического корабля. Данные подобного рода включают в себя запись голосов экипажа (микрофоны и наушники), информацию о характеристиках объекта управления.
- социальные медиа: включают данные, распространяемые через социальные сети.
- фондовые биржи: хранение информации о сделках купли-продажи между копаниями-партнерами.
- энергосистемы: подобного рода данные содержат информацию о узлах и нагрузках энергетической сети.
- транспортные системы: модели, характеристики, расстояния - все информация о транспорте и дорожных сетях.
- поисковые системы: инженерный поиск информации различны базах данных.
Как следствие, термин «Big Data» включает большое объем, высокую скорость обработки и широкое разнообразие данных и делится на три типа:
- структурные данные - реляционные БД
- полу-структурированные данные - XML-файлы
- неструктурированные данные - файлы формата Word, PDF, Text, медиа-журналы.
Большие данные действительно имеют решающее значение для нашей жизни и становятся одной из самых важных технологий в современном мире. Самыми распространенными и известными являются лишь несколько преимуществ. Например, использование информации, хранящейся в социальных сетях, маркетинговые агентства изучают обратную связь на свои кампании, акции, и другие рекламные носители. В свою очередь, использую информацию в социальных медиа-системах, таких как предпочтения и восприятие продукта потребителями, компании и розничные организации планируют свое производство. Касательно такой сферы, как медицина, применимость данных о предыдущей истории болезни пациентов способствует обеспечению лучшего и более быстрого обслуживания.
Большие технологии передачи данных играют важную роль в обеспечении детального анализа, который способствует принятию более точных решений, что в свою очередь приводит к повышению эффективности эксплуатации, снижению затрат и снижению рисков для бизнеса. Для использования возможностей больших данных требуется инфраструктура, которая может управлять и обрабатывать огромные объемы структурированных и неструктурированных данных в реальном времени и может защитить конфиденциальность и безопасность данных. Существуют различные технологии на рынке от различных поставщиков, включая такие компании, как Google, IBM, Microsoft, SAP и др. Рассмотрим следующие два класса техники, которые обрабатывают большие данные: технологии обработки Big Data и программно-аппаратные средства работы с большими данными.
Принципы работы с big data
Можно выделить основные методы работы с big data:
Горизонтальная масштабируемость. В силу того, что данных должно быть огромное множество, любая система, обрабатывающая большое количество информации, будет расширяемой.
Отказоустойчивость. Все методы работы с big data должны учитывать возможные неисправности и искать способы справиться с неполадками без последствий.
Локальность данных. Данные, хранящиеся в больших системах, распределены в достаточно большом количестве машин. Поэтому в ситуации, когда данные хранятся на сервере №1, а обрабатываются на сервере №2, нельзя исключать возможность того, что их передача будет стоить дороже, чем обработка. Именно поэтому при проектировании большое внимание уделяется тому, чтобы данные хранились и проходили обработку на одном компьютере.
Все методы работы с большими данными, так или иначе, придерживаются этих трех принципов.
Big data в мире
По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта.
К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.
Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.
Примеры использования Big Data в компаниях
На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks и Netflix уже используют ресурсы Big Data.
Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Big Data на практике.
HSBC использует технологии Big Data для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз.
Антифрод VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.
Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств.
Procter & Gamble с помощью Big Data проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Big Data помогают в прогнозировании деятельности компании.
Ритейлер офисных принадлежностей OfficeMax с помощью технологий Big Data анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.
По мнению Caterpillar, ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Big Data. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.
На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.
Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Big Data компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.
С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Big Data позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.
Министерство труда Германии использует Big Data в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно.
Рынок Big data в России
В 2017 году мировой доход на рынке Big date должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.
Заключение
В развитых странах Big Data получила широкое распространение в сферах здравоохранения, страховании, металлургии, интернет-компаниях и на производственных предприятиях, скорее всего в ближайшем будущем российские компании из данных сфер также оценят эффект внедрения Big Data и будут приспосабливать данные технологии в своих отраслях.
В России также, как и в мире, в ближайшем будущем будет наблюдаться тренд на визуализацию данных, анализ медиа файлов и развитию интернета вещей.
Несмотря на общую стагнацию экономики, в ближайшие годы аналитики прогнозируют дальнейший рост рынка Big Data, в первую очередь это связано с тем, что использование технологий Big Data дает конкурентное преимущество ее пользователям в части повышения операционной эффективности бизнеса, привлечения дополнительного потока клиентов, минимизации рисков и внедрения технологий прогнозирования данных.
Список литературы:
1. https://rb.ru/howto/chto-takoe-big-data/
2. https://www.kom-dir.ru/article/1527-big-data
3. https://idc-cema.com/dwn/PRES_61349/165_oracleappsforum_igor_sherbakov_bigdata.pdf
4. http://compress.ru/Article.aspx?id=22725
Кафедра автоматики и компьютерных технологий
РЕФЕРАТ
По дисциплине
« Информационные технологии в системах автоматизации »
на тему:
«Современные технологии обработки данных – Big Data».
Группа: АТП-3-2уз
Студент: Салимов П.Б.
Руководитель: Бабенко А.Г.
Екатеринбург,2017
Содержание
Введение. 3
Термин Big Data. 4
История появления термина Big Data. 6
Общие принципы построения Big Data систем.. 7
Какие проблемы создает система big data. 8
Поэтапное использование big data. 11
Принципы работы с big data. 13
Как использовать систему big data. 14
Big data в мире. 17
Примеры использования Big Data в компаниях. 18
Рынок Big data в России. 20
Современные технологии обработки Big Data. 21
Заключение. 22
Список литературы: 23
Введение
На сегодняшний день в мире существует большое количество разнородных данных. При этом с одной стороны с каждым годом растет их количество, а с другой издержки на их поиск и интерпретацию. Данная проблемная ситуация усиливается по возрастающей от производственного к инновационному и далее к научному секторам экономики. Причем издержки в каждом из этих секторов так же возрастают при переходе от более низкого уровня обобщения к более высокому. Например, в инновационном секторе – от отдельного инновационного предприятия к инновационному кластеру и далее к инновационным системам (региональным, национальным). Целью настоящей работы является анализ основных современных технологий обработки «больших данных» (Big Data).
Термин Big Data
С приходом новых технологий, инструментов и средств коммуникаций, таких, как социальные сети, количество данных, производимых людьми, растет с каждым годом в геометрической прогрессии. Соотношение коэффициента полезности при этом уменьшается. Следовательно, вся генерируемая информация может быть использована для определенных целей только после предварительной и тщательной обработки.
Термин «Big Data» означает большие работы (коллекции, потоки) данных, которые не могут быть обработаны традиционными компьютерными техниками. Этот термин означает не само понятие «большие данные», а предмет исследования, который включает в себя различные инструменты, техники и платформы. Большие данные включают в себя информацию, генерируемую различными системами и приложениями. Некоторые из сфер, которые попадают под определение «Big Data»:
- черный ящик: информационная составляющая часть вертолета, самолета, морского/космического корабля. Данные подобного рода включают в себя запись голосов экипажа (микрофоны и наушники), информацию о характеристиках объекта управления.
- социальные медиа: включают данные, распространяемые через социальные сети.
- фондовые биржи: хранение информации о сделках купли-продажи между копаниями-партнерами.
- энергосистемы: подобного рода данные содержат информацию о узлах и нагрузках энергетической сети.
- транспортные системы: модели, характеристики, расстояния - все информация о транспорте и дорожных сетях.
- поисковые системы: инженерный поиск информации различны базах данных.
Как следствие, термин «Big Data» включает большое объем, высокую скорость обработки и широкое разнообразие данных и делится на три типа:
- структурные данные - реляционные БД
- полу-структурированные данные - XML-файлы
- неструктурированные данные - файлы формата Word, PDF, Text, медиа-журналы.
Большие данные действительно имеют решающее значение для нашей жизни и становятся одной из самых важных технологий в современном мире. Самыми распространенными и известными являются лишь несколько преимуществ. Например, использование информации, хранящейся в социальных сетях, маркетинговые агентства изучают обратную связь на свои кампании, акции, и другие рекламные носители. В свою очередь, использую информацию в социальных медиа-системах, таких как предпочтения и восприятие продукта потребителями, компании и розничные организации планируют свое производство. Касательно такой сферы, как медицина, применимость данных о предыдущей истории болезни пациентов способствует обеспечению лучшего и более быстрого обслуживания.
Большие технологии передачи данных играют важную роль в обеспечении детального анализа, который способствует принятию более точных решений, что в свою очередь приводит к повышению эффективности эксплуатации, снижению затрат и снижению рисков для бизнеса. Для использования возможностей больших данных требуется инфраструктура, которая может управлять и обрабатывать огромные объемы структурированных и неструктурированных данных в реальном времени и может защитить конфиденциальность и безопасность данных. Существуют различные технологии на рынке от различных поставщиков, включая такие компании, как Google, IBM, Microsoft, SAP и др. Рассмотрим следующие два класса техники, которые обрабатывают большие данные: технологии обработки Big Data и программно-аппаратные средства работы с большими данными.
Дата: 2019-02-02, просмотров: 199.