Сервисы анализа данных и машинного обучения. Машинное обучение для чайников

Машинное обучение - класс методов искусственного интеллекта , характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач. Для построения таких методов используются средства математической статистики, численных методов, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме. По данным HeadHunter (данные 2018 года), специалисты по машинному обучению получают 130–300 тысяч рублей, и крупные компании ведут ожесточенную борьбу за них.

2019: 10 лучших языков программирования для машинного обучения - GitHub

В январе 2019 года сервис для хостинга ИТ-проектов и их совместного развития GitHub опубликовал рейтинг самых популярных языков программирования, используемых для машинного обучения (МО). Список составлен на основе количества репозиториев, авторы которых указывают, что в их приложениях используются МО-алгоритмы. Подробнее .

2018: Проблемы машинного обучения - IBM

27 февраля 2018 года технический директор IBM Watson Роб Хай (Rob High) заявил, что в настоящее время основная задача машинного обучения – ограничить объем данных, требующихся для обучения нейросетей . Хай полагает, что есть все основания считать эту проблему вполне разрешимой. Его мнение разделяют и коллеги: так руководитель разработки технологий искусственного интеллекта (ИИ) Google Джон Джаннандреа (John Giannandrea) заметил, что его компания также занята этой проблемой.

Как правило, модели машинного обучения работают с огромными массивами данных, чтобы гарантировать точность работы нейросети, однако во многих отраслях крупных баз данных просто не существует.

Хай, однако, считает, что это проблема разрешима, ведь мозг людей научился с ней справляться. Когда человек сталкивается с новой задачей, в ход идет накопленный опыт действий в подобных ситуациях. Именно контекстуальное мышление и предлагает использовать Хай. Также в этом может помочь технология переноса обучения (transfer learning), то есть возможность взять уже обученную ИИ-модель и использовать ее данные для обучения другой нейросети, данных для которой существенно меньше.

Однако проблемы с машинным обучением этим не ограничиваются, особенно если речь идет об естественной речи.

Хай отмечает, что ИИ не обязательно должен отражать эти аспекты в антропоморфной форме, однако какие-то ответные сигналы, например, визуальные, поступать должны. В то же время большинство ИИ должно для начала разобраться в сути вопросов и научиться ориентироваться в контексте, особенно в том, как данный вопрос связан с предыдущими.

Это указывает на следующую проблему. Многие из использующихся сейчас моделей машинного обучения по своей природе предвзяты, поскольку данные, по которым их обучали, ограничены. Что касается подобной предвзятости, то тут Хай выделяет два аспекта.

В качестве примера Хай привел совместный проект IBM и онкологического центра Sloan Kettering. Они подготовили ИИ-алгоритм, основанный на работе лучших онкологических хирургов.

Однако врачи онкологического центра Sloan Kettering придерживаются определенного подхода к лечению рака. Это их школа, их марка, и эта философия должна быть отражена в созданном для них ИИ и сохранена во всех последующих его поколениях, которые будут распространяться за пределами данного онкоцентра. Большая часть усилий при создании таких систем направлена на то, чтобы обеспечить верную избирательность данных. Выборка людей и их данных должна отражать более крупную культурную группу, к которой они принадлежат.

Хай также заметил, что представители IBM наконец начали регулярно обсуждать эти проблемы с клиентами. По мнению Хая, это шаг в верном направлении, особенно если учесть, что многие его коллеги предпочитают игнорировать этот вопрос.

Опасения по поводу предвзятости ИИ разделяет и Джаннандреа. Осенью прошлого года он заявил, что боится не восстания разумных роботов, а предвзятости искусственного интеллекта. Эта проблема становится тем значительнее, чем больше технология проникает в такие области, как медицина или юриспруденция, и чем больше людей без технического образования начинают ее использовать.

2017

3% компаний используют машинное обучение - ServiceNow

В октябре 2017 года производитель облачных решений для автоматизации бизнес-процессов ServiceNow опубликовал результаты исследования, посвященного внедрению технологий машинного обучения в компаниях. Совместно с исследовательским центром Oxford Economics было опрошено 500 ИТ-директоров в 11 странах.

Выяснилось, что к октябрю 2017 года 89% компаний, сотрудники которых отвечали на вопросы аналитиков, в разной степени используют механизмы машинного обучения.

Так, 40% организаций и предприятий исследуют возможности и планируют стадии внедрения таких технологий. 26% компаний ведут пилотные проекты, 20% - применяют машинное обучение для отдельных областей бизнеса, а 3% - задействуют его для всей своей деятельности.

По словам 53% ИТ-директоров, машинное обучение является ключевым и приоритетным направлением, для развития которого компании ищут соответствующих специалистов.

К октябрю 2017 года наиболее высокое проникновение машинного обучения имеет место в Северной Америке: 72% компаний находятся на какой-либо стадии изучения, тестирования или использования технологий. В Азии этот показатель составляет 61%, в Европе - 58%.

Около 90% ИТ-директоров говорят, что автоматизация повышает точность и скорость принятия решений. По мнению больше половины (52%) участников опроса, машинное обучение помогает автоматизировать не только рутинные задачи (например, вывод предупреждений о киберугрозах), но и более сложные рабочие нагрузки, такие как способы реагирования на хакерские атаки.

Выше представлена диаграмма, показывающая степень автоматизации различных областей в компаниях в 2017 году и с прогнозом на 2020 год. К примеру, в 2017-м около 24% операций в сфере информационной безопасности полностью или в значительной степени автоматизированы, а в 2020 году показатель может вырасти до 70%.

Самая многообещающая технология. Чем вызвано всеобщее помешательство на машинном обучении?

Машинное обучение, по мнению аналитиков, является самым многообещающим технологическим трендом современности. Как возникла эта технология и почему стала столь востребованной? На каких принципах строится машинное обучение? Какие перспективы открывает для бизнеса? Ответы на эти вопросы дает материал, который для TAdviser подготовил журналист Леонид Черняк.

Почему обучение моделей настолько сложное?

Представьте, что я обучаю машину, используя группу людей... и здесь золотое правило состоит в том, что они должны быть в равной степени заинтересованы и ознакомлены с процессом, так что, скажем, я не могу взять пять программистов и четырех вчерашних студентов... Нужно стараться подбирать людей либо совершенно в случайном порядке, либо по одинаковым интересам. Есть два способа сделать это. Вы показываете им много, очень много картинок. Вы показываете им изображения гор вперемежку с фотографиями верблюдов, а также изображения предметов, которые практически в точности похожи на горы, например, мороженое в вафельном стаканчике. И вы просите их сказать, что из этих предметов можно назвать горой. При этом машина наблюдает за людьми и на основании их поведения в процессе выбора изображений с горами она также начинает выбирать горы. Такой подход называется эвристическим, - пишет автор PCWeek Майкл Кригсман

Мы смотрим на людей, моделируем их поведение путем наблюдения, а затем пытаемся повторить то, что они делают. Это вид обучения. Такое эвристическое моделирование представляет собой один из способов машинного обучения , однако это не единственный способ.

Но существует множество простых приемов, с помощью которых эту систему можно обмануть. Прекрасный пример - распознавание человеческих лиц. Посмотрите на лица разных людей. Наверное, всем известно, что существуют технологии для моделирования на основе определенных точек на лице, скажем, уголков глаз. Не хочу вдаваться в интеллектуальные секреты, но есть некоторые области, между которыми можно построить углы, и эти углы обычно не особо меняются со временем. Но вот вам показывают фотоснимки людей с широко открытыми глазами или гримасами в области рта. Такие люди пытаются сбить эти алгоритмы с толку, искажая черты своего лица. Вот почему вам нельзя улыбаться на фотографии в паспорте. Но машинное обучение уже ушло далеко вперед. У нас есть такие средства, как Eigenface, и другие технологии для моделирования поворота и искажения лиц, позволяющие определить, что это одно и то же лицо.

Со временем эти инструменты становятся все лучше. И порой, когда люди пытаются запутать процесс обучения, мы также учимся на их поведении. Так что этот процесс саморазвивающийся, и в этом плане идет постоянный прогресс. Рано или поздно цель будет достигнута, и да, машина будет находить только горы. Она не пропустит ни одной горы и никогда не будет сбита с толку стаканчиком мороженого.

Чем это отличается от классического программирования?

Изначально этот процесс происходил в игровой форме или заключался в идентификации изображений. Тогдашние исследователи просили участников играть в игры или помогать в обучении простыми утверждениями вроде «Это гора», «Это не гора», «Это гора Фудзи», «Это гора Килиманджаро». Так что у них накопился набор слов. У них была группа людей, использовавших слова для описания изображений (например, в проекте

Машинное обучение – одна из самых популярных областей Computer Science, хотя в то же время одна их самый избегаемых среди разработчиков. Основная причина этого в том, что теоретическая часть машинного обучения требует глубокой математической подготовки, которую многие предпочитают сразу же забыть по окончании университетского обучения. Но необходимо понимать, что помимо теоретических основ, существует также и практическая сторона, которая оказывается значительно проще для освоения и ежедневного использования. Цель этой работы – ликвидировать разрыв между программистами и специалистами по обработке данных и показать, что использование машинного обучения в своих приложениях может быть достаточно простой задачей. В статье излагается вся последовательность шагов, необходимая для построения модели предсказания цены автомобиля в зависимости от набора его характеристик с последующим ее использованием в мобильном приложении на Windows 10 Mobile.

Что такое Azure ML?

Если кратко, то Azure Machine Learning – это:

облачное решение, позволяющее построение и использование сложных моделей машинного обучения в простой и наглядной форме;
экосистема, предназначенные для распространения и монетизации готовых алгоритмов.

Больше информации об Azure ML вы можете найти дальше в этой статье, а также перейдя по ссылке

Почему именно Azure ML?
Потому, что Azure Machine Learning – один из простейших инструментов для использования машинного обучения, убирающий входной барьер для всех, кто решает использовать его для своих нужд. С Azure ML больше не надо быть математиком.

Логический процесс построения алгоритма машинного обучения

Определение цели. Все алгоритмы машинного обучения бесполезны без явно-определенной цели проведения эксперимента. В данной лабораторной работе цель – это предсказание цены автомобиля на основе набора характеристик, предоставленных конечным пользователем.
Сбор данных. Во время этого этапа формируется выборка данных, необходимая для дальнейшего обучения модели. В данном случае будут использоваться данные репозитария машинного обучения университета Калифорнии.
archive.ics.uci.edu/ml/datasets/Automobile
Подготовка данных. На этом этапе производится подготовка данных путем формирования характеристик, удаления выбросов и разделения выборки на обучающую и тестовую.
Разработка модели. В процессе разработки модели производиться выбор одного или нескольких моделей данных и соответствующих алгоритмов обучения, которые по мнению разработчика должны будут дать требуемый результат. Часто этот процесс совмещен с параллельным исследованием эффективности нескольких моделей и визуальным анализом данных с целью отыскания каких-либо закономерностей.
Обучение модели. Во время обучения алгоритм обучения производит поиск скрытых закономерностей в выборке данных с целью отыскания способа предсказания. Сам процесс поиска определяется выбранной моделью и алгоритмом обучения.
Оценка модели. После того как модель обучена необходимо исследовать ее прогностические характеристики. Чаще всего для этого ее прогоняют на тестовой выборке и оценивают получившийся уровень ошибки. В зависимости от этого и требований к точности модель может быть как принята в качестве итоговой, так и произведено повторное обучение после добавления новых входных характеристик или даже изменения алгоритма обучения.
Использование модели. В случае успешного тестирования обученной модели наступает стадия ее использования. И это тот случай, когда Azure ML становится незаменим, давая все необходимые инструменты для публикации, мониторинга и монетизации алгоритмов

Построение прогностической модели

На открывшейся странице нажмите Get Started now.

Для работы с Azure ML вам необходима активная подписка Microsoft Azure. Если она у вас уже есть, то просто войдите в Azure Management Portal, иначе – предварительно зарегистрируйте бесплатную пробную учетную запись, перейдя по ссылке .

В первую очередь необходимо загрузить обучающую выборку. Для этого перейдите по ссылке и загрузите на свой компьютер файл imports-85.data, содержащий выборку данных по автомобилям.
Для загрузки этого файла в Azure ML Studio нажмите на New в нижней части страницы и в открывшейся панели последовательно выберите Dataset и From Local File. В меню загрузки укажите путь к загруженному файлу, название и в качестве типа выберите Generic CSV File with no header (.hn.csv).

Создание нового эксперимента

Для того чтобы создать новый эксперимента выберите New -> Experiment -> Blank Experiment. В результате будет создана новая рабочая область эксперимента с панелью инструментов справа.

Определение выборки данных

Загруженные ранее данные должны быть отражены в разделе Saved Datasets слева. Выберите его и перетащите в любое место рабочего пространства, например, туда, куда указывает стрелка Drag Items Here.

Обратите внимание, что источник данных имеет точку соединения в форме кружка, которая используется для подключение его к другим компонентам.

Подготовка данных

При разработке моделей машинного обучения хорошей практикой является проверка предварительных результатов эксперимента после каждого изменения. Поэтому нажмите правой кнопкой на точку соединения и выберите Visualize. В результате появится окно, дающее общее представление о данных и их распределении.

Как можно заметить, в выборке имеется проблема – отсутствуют значения во втором столбце. Это может создать нежелательный эффект в процессе обучения и значительно ухудшить качество модели. Но, к счастью, эти значения характеризует страховые издержки и слабо связаны с ценой автомобиля, а потому их можно удалить. Помимо всего прочего у столбцов отсутствуют имена, что значительно усложняет работу с ними.

Для исправления проблемы с именами из группы Data Transformation/Manipulation перенесите на рабочую поверхность Metadata Editor.

Перетяните выход (снизу) выборки данных на вход (сверху) нового компонента, чтобы соединить их. Теперь кликните на него, чтобы открыть окно настроек справа. Metadata Editor позволяет изменить метаинформацию одного или нескольких столбцов, включая тип или название. Откройте мастер выбора столбцов нажатием на Launch column selector. Чтобы выбрать все столбцы, в поле Begin With выберите All columns, удалите строку уточнения выбора нажатием на знак “-“ справа и подтвердите нажатием на галочку.

В поле New column names панели настроек введите новые имена столбцов через запятую, которые можно найти в файле import-85.names по ранее приводившейся ссылке. Значение поля должно быть следующим:

symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price

Для того, чтобы увидеть результат работы компонента, нажмите на Run снизу и визуализируйте выход Metadata Editor описанным ранее способом.

Теперь удалим normalized-losses. Для этого перетащите в рабочую область Project Columns из той же группы, соедините его с Metadata Editor и перейдите к его настройкам. Снова выберите мастер выбора строк и в этот раз выберите все строки за исключением normalized-losses, сделав настройки, аналогичные приведенным на рисунке ниже.

Запустите эксперимент и визуализируйте результат, чтобы убедиться, что второй столбец пропал из выборки.

К сожалению, есть еще столбцы, в которых отсутствуют значения. Но их не много, а потому можно ограничиться лишь отбрасыванием неполных строк. Для этого выберите Missing Value Scrubber и соедините его с Project Columns. В поле For missing values измените значение на Remove entire row. Запустите, визуализируйте и убедитесь, что строки с пустыми значениями пропали.

Остался последний вопрос, который необходимо ответить на этапе подготовки: все ли характеристики влияют на цену автомобиля? На данном этапе можно ограничиться следующим небольшим числом показателей, список которых приведен ниже. В дальнейшем вы всегда сможете добавить новые и проверить гипотезу об их достаточности, сравнив точность полученных моделей.

make,body-style,wheel-base,engine-size,horsepower,peak-rpm,highway-mpg,num-of-cylinders,price

Добавьте новый Project Columns и выберите приведенные выше столбцы.

В заключение убедитесь, что подготовка данных выполняется успешно, запустив эксперимент и визуализировав результат.

Разбивка выборки

Теперь данные готовы к использованию в процессе обучения. Но в машинном обучении возможен эффект, получивший название «переобучение», – заучивание моделью данных без обобщения. Такое поведение ведет к невозможности адекватного предсказания на сколько-нибудь отличающихся данных. Для обработки этой ситуации выборку принято разделить на обучающую и тестовую в отношении близком к 3:1. Последняя из них никак не участвует в процессе обучения и по окончании используется для оценки ошибки предсказания. Если эта ошибка значительно отличается в большую сторону от ошибки на обучающей выборке, значит, наблюдается описанный выше эффект.

Для создания тестовой выборки перенесите на рабочую область эксперимента и соедините с последним Project Columns компонент Split Data из группы Data Transformation/Sample and Split. Установите долю строк на первом выходе равной 0.75 и убедитесь, что установлен флаг Randomize Split.

Обучение модели линейной регрессии

Первым делом перенесите из панели инструментов компоненты Linear Regression, Train Model, Score Model и Evaluate Model. Train Model – универсальный компонент, позволяющий обучение любой модели на любой обучающей выборке. Для настройки нашего конкретного случая подсоедините первый (левый) выход Split Data и выход Linear Regression к соответствующим входам Train Model. В настройках Train Model в качестве целевого значения (outcome column) укажите price. Теперь модель готова к обучению.

Но, помимо самого обучения, важно узнать результат обучения. Компонент Score Model позволяет вычислить выход обученной модели на произвольной выборке и рассчитать результат предсказания. Соедините выход Train Model, содержащий обученную модель, с соответствующим входом Score Model, а в качестве выборки данных на другой вход подайте тестовую выборку со второго выхода Split Data. Выход Score Model соедините с любым из входов Evaluate Model для того, чтобы рассчитать численные характеристики качества обучения. В результате должна получиться процесс, аналогичный представленному на рисунке.

Запустите модель и визуализируйте результат выполнения Evaluate Model.

Коэффициент детерминации указывает, как хорошо линия регрессии описывает исходные данные. Принимаемые ей значения варьируются от 0 до 1, где единице соответствует абсолютная точность. В нашем случае коэффициент равен 82%. Хороший ли это результат или нет – напрямую зависит от постановки задачи и определенной толерантности к ошибке. Для случая предсказания цены автомобиля 82% - отличный результат. Если вы хотите его улучшить попробуйте добавить другие столбцы в Project Columns или попробовать принципиально другой алгоритм. Например, Poisson Regression. Последнее может быть достигнуто путем простой замены компонента линейной регрессии на пуасонову. Но более интересный подход – это собрать из элементов параллельное обучение и подключить результат ко второму выходу Evaluate Model, что позволит в удобной форме сравнить результаты обучения обоих моделей.

Выполните модель и визуализируйте результат. Как видно из результата, данные значительно лучше описываются моделью линейной регрессии, а потому есть все основания выбрать именно ее в качестве итоговой.

Кликните правой кнопкой по мыши по компоненту Train Model, отвечающему линейной регрессии и выберите Save as Trained Model. Это позволит использовать полученную модель в любых других экспериментах без необходимости повторного обучения.

Публикация веб-сервиса

Для публикации сервиса выберите компонент Train Model, отвечающий линейной регрессии и нажмите в Set Up Web Service. В открывшемся меню выберите Predictive Web Service и дождитесь пока Azure ML создаст новый эксперимент, оптимизированный для нужд сервиса. Удалите автоматически созданные компоненты Web Service Input и Web Service Output – мы создадим их позднее после небольшой подготовки.

На данный момент элемент Score Model повторяет на выходе все входящие столбцы, а предсказанному значению дает название Score Labels. Это необходимо исправить.

Для этого перенесите из панели инструментов на рабочую поверхность два уже знакомых компонента: Project Columns и Metadata Editor. И соедините их в последовательности изображенной на рисунке ниже. В настройках Project Columns выберите только один столбец Score Labels, и используя Metadata Editor переименуйте его в price.

В заключение необходимо добавить вход и выход создаваемого сервиса. Для этого добавьте в эксперимент Web Service Input и Web Service Output. Соедините первый со входом Score Model, а второй с выходом Metadata Editor. В настройках обоих элементов измените название на «input» и «prediction», соответственно.

Запустите модель еще раз, нажав на Run, и по окончании валидации опубликуйте сервис нажатием Deploy Web Service.

Тестирование сервиса

После нажатия на Deploy Web Service вы будете перенаправлены на страницу с информацией о только что созданном сервисе. Ссылки под API HELP PAGE содержат достаточно подробное описание с информацией о содержимом входящего и исходящего JSON пакетов, а также пример кода консольного приложения, дающего преставление о способе использования.

Для интерактивного исследования нажмите на Test и в открывшемся окне введите значения для каждого входного параметра. Например, те, что указаны ниже, и нажмите галочку, чтобы отправить тестовый запрос.

audi sedan 99.8 four 109 102 5500 30 13950

Разработка приложения

В заключение рассмотрим процесс разработки мобильного приложения, использующего Azure ML в роли back-end сервиса. Сначала создайте новый проект универсального приложения Windows. Для этого в открытом Visual Studio 2015 выберите File -> New -> Project… В открывшемся окне перейдите на вкладку Windows в меню слева и выберите Blank App (Universal Windows). В поле названия введите AzureMLDemo и нажмите OK. В случае необходимости готовый проект может быть найден на GitHub .

После некоторой подготовки Visual Studio откроет новый проект универсального приложения. Убедитесь, что в поле процессорной архитектуры справа от Debug указано x86, и правее выберите одну из мобильных виртуальных машин в качестве среды запуска. Например, Mobile Emulator 10.0.10240.0 720p 5 inch 1GB.

Теперь можно перейти к написанию самого приложения. В меню Solution Explorer двойным кликом откройте MainPage.xaml. Описание языка разметки XAML графического интерфейса выходит за границы этой работы, поэтому просто замените открывающийся и закрывающийся теги на код ниже.

Строительный портал

Сервисы анализа данных и машинного обучения. Машинное обучение для чайников

2019: 10 лучших языков программирования для машинного обучения - GitHub

2018: Проблемы машинного обучения - IBM

2017

3% компаний используют машинное обучение - ServiceNow

Самая многообещающая технология. Чем вызвано всеобщее помешательство на машинном обучении?

Почему обучение моделей настолько сложное?

Чем это отличается от классического программирования?

Вводная

Обучение с учителем и без учителя

Обучение с учителем

Обучение без учителя

Классы задач машинного обучения

Нейронные сети

Ограниченность нейронных сетей

Самообучающееся программное обеспечение

Обучение с учителем и без

Ограничения машинного обучения

Словарь терминов

В Москве создают нейросеть, распознающую показания счетчиков на воду по фотографиям

MoneyСare использует машинное обучение для прогнозирования одобрения кредитов

Правительство Мурманской области применит машинное обучение в документообороте

«Хлынов» оптимизировал обслуживание банкоматов

«Газпром нефть» будет пользоваться искусственным интеллектом «Яндекса»

Google Prediction API

BigML

Эксперимент

Две главные задачи

2019: 10 лучших языков программирования для машинного обучения - GitHub

2018: Проблемы машинного обучения - IBM

2017

3% компаний используют машинное обучение - ServiceNow

Самая многообещающая технология. Чем вызвано всеобщее помешательство на машинном обучении?

Почему обучение моделей настолько сложное?

Чем это отличается от классического программирования?

Вводная

Обучение с учителем и без учителя

Обучение с учителем

Обучение без учителя

Классы задач машинного обучения

Нейронные сети

Ограниченность нейронных сетей

Самообучающееся программное обеспечение

Обучение с учителем и без

Ограничения машинного обучения

Словарь терминов

В Москве создают нейросеть, распознающую показания счетчиков на воду по фотографиям

MoneyСare использует машинное обучение для прогнозирования одобрения кредитов

Правительство Мурманской области применит машинное обучение в документообороте

«Хлынов» оптимизировал обслуживание банкоматов

«Газпром нефть» будет пользоваться искусственным интеллектом «Яндекса»

Google Prediction API

BigML

Эксперимент

Две главные задачи

Похожие материалы: