Что значит искусственный интеллект в телефоне
«Искусственный интеллект» в смартфонах — как это работает
Поделитесь в соцсетях:
Гонку технологий нельзя закончить, но удивлять и привлекать потребителя числовыми характеристиками становится все сложнее. Поэтому за последние пару лет мы увидели немало экспериментов в дизайне и новых программных возможностей смартфонов. Можно вспомнить всеми «любимые» вырезы в экранах, но, пожалуй, с конца 2017 года чаще всего приходится слышать словосочетание «искусственный интеллект». То, что еще 10 лет назад жило в научных лабораториях, пять лет назад стало общедоступным через сервисы Google, сегодня в буквальном смысле появляется в наших карманах.
Наличие «искусственного интеллекта» стало модной и даже обязательной характеристикой любого актуального аппарата и порою удивляешься, как много привычных функций вдруг стали «умными». Впрочем, вендоров тут можно как поругать, так и понять, ведь ИИ — весьма широкое понятие, за которым не обязаны скрываться сложные алгоритмы.
Изображение из статьи про ИИ на vas3k.ru
На примере материалов из исследовательского центра Google ( 1 , 2 ) мы знаем, что компания давно использует машинное обучение и нейронные сети в частности для совершенствования сервисов почты, обработки изображений, в голосовых ассистентах и переводчике. Интересно, что на смартфонах сценарии применения в целом схожи, но к ним добавляются функции безопасности и оптимизации работы, автономности устройств.
Облака VS устройства
Пользователи того же Gmail или Ассистента Google могут спросить — если на смартфонах уже есть подобные «умные» сервисы, то что изменилось за последний год? В первую очередь — часть функций теперь можно реализовать прямо на устройствах, не задействуя «облака».
Например, Google Фото и раньше распознавал людей на фотографиях, а также позволял совершать поиск по изображениям, но каталогизация фотографий происходила только после их загрузки на сервера компании. С появлением чипсетов вроде Kirin 970 cо встроенным NPU-модулем (Neural Processing Unit) распознавание изображений можно реализовать прямо на устройстве, а значит — более быстро (не тратится время на загрузку-выгрузку данных) и безопасно (ваши фото точно никто не увидит, даже алгоритм на сервере). Использование для этих задач специального модуля позволяет оптимизировать энергопотребление и скорость работы, ведь реализация подобной функциональности силами CPU и GPU возможна, но не эффективна.
Huawei первыми заявили об «умности» своих смартфонов, но не единственные, кто работает в этой области. После анонса Kirin 970 и Mate 10 (Pro) Apple представила платформу A11 Bionic со встроенным Neural Engine, а в Snapdragon 845 есть DSP Hexagon 685, ориентированный на решения тех же задач.
Сказать, чей ИИ лучше, даже в плане характеристик, сложно, ведь какого-то стандартного и независимого инструмента измерений пока не придумали, и на разных устройствах «интеллект» решает разные задачи. Поэтому нет ничего удивительного в том, что когда Huawei измеряет производительность своего NPU по сравнению с решением от Qualcomm первый оказывается быстрее. Но ничто не мешает как минимум ознакомиться с возможностями конкретного смартфона, которые задействуют ИИ-функциональность.
ИИ для камер
«Искусственный интеллект» давно доказал свою эффективность в задачах распознавания изображений и вполне очевидно, что он применяется в камерах смартфонов. В случае Huawei P20 Pro — это функциональность распознавания сцен. Модуль NPU распознает порядка 2000 изображений в минуту, значит практически в режиме реального времени может опознать, что именно находится в кадре и подобрать максимально подходящие для конкретного сюжета настройки.
Что это дает? Обычно автоматика подбирает параметры съемки исходя из освещенности, контрастности сцены и прочих параметров. Распознавание объектов позволяет улучшить алгоритмы. Для тех, кто понимает что такое ручные настройки, вполне очевидно, что снимая подвижный объект в первую очередь стоит задача получить резкий снимок, поэтому стоит уменьшить выдержку и можно поднять ISO немного пожертвовав качеством, а для съемки пейзажа или портрета нужен другой набор настроек.
Софт распознает сцену и подбирает лучшие параметры съемки или переключает камеру в нужный режим работы. Заодно может происходить пост-обработка фотографии — ПО повысит контрастность и насыщенность цветов, будто на фото уже наложен фильтр Instagram. С точки зрения профессиональной фотографии такой снимок может показаться неправильным, но будем честны — в мобильной фотографии всегда были важны алгоритмы, чтобы фото отлично выглядело на экране и нравилось рядовому пользователю, а точность передачи цветов оставим DSLR-камерам.
Актуальные модели уже распознают порядка 20 сцен с набором дополнительных настроек в зависимости от конкретных условий съемки. Набор сцен заранее «зашит» в ПО, производитель сам занимается первоначальным обучением нейронной сети (если используются именно сети), подбором фотографий для такого обучения и так далее. В дальнейшем эту функциональность можно расширять с помощью классических обновлений ПО.
Использование ИИ не заканчивается на одном только распознавании сцен. Тот же P20 Pro может похвастаться «интеллектуальным» автофокусом и стабилизацией видео. Работа первого заметна в виде небольших квадратов, которые обозначают точки фокусировки на подвижных объектах, например, они появляются на качающихся от ветра растениях.
Второй задействуется для продвинутой стабилизации видео и работает в паре с оптическим стабилизатором — при съемке Full HD с рук можно получить плавную картинку при ходьбе, сравнимую с той, что дают отдельные стабилизаторы. Правда, без ограничений не обошлось — это работает только для съемки Full HD @30fps и не доступно для Full HD @60fps и 4K-видео.
Еще один пример работы ИИ — съемка замедленного видео (HD @960fps). Впервые функция появилась на смартфонах Sony и тестируя ее мы отмечали, что добиться желаемого результата сложно, нужно самому ловить момент, когда пора нажать на спуск, а камера замедляет всего секунду реального времени. В Huawei P20 Pro изначально это работало таким же образом, но потом алгоритм изменили. Теперь пользователь включает нужный режим, наводит камеру и помещает специальный квадрат в область кадра, где ожидается движение. После нажатия на спуск камера сама определяет, когда начнется движение в выделенной области и замедляет видео — так гораздо легче добиться желаемого результата.
Распознавание объектов позволило добавить каталогизацию в локальную галерею. В ней появилась вкладка «Обзор», где фотографии сортируются в зависимости от места съемки, по лицам распознанных людей, а также категориям (в моем случае — еда, документы, пейзажи). Тут же работает локальный поиск, он быстрый, но не настолько умный как в Google Photos, потому что работает только в рамках знакомых локальному ИИ параметров сцен, лиц и местоположений.
… для шоппинга
Применимость отдельных функций зависит от рынка. Например, привычный для Huawei сканер QR-кодов получил интеграцию с Amazon Assistant — приложение распознает товары и пытается найти похожие на одноименной торговой площадке. Пока он работает не слишком хорошо и мало применим у нас, но вдруг появится интеграция с более подходящим сервисом?
… для перевода
Еще один сценарий использования ИИ — распознавание речи и перевод. Мощности NPU в этом случае задействует переводчик Microsoft Translator. Приложение может работать как обычный переводчик, переводить текст на фотографиях, отдельные фразы и даже работать «живым» переводчиком для группы из нескольких человек. Без подключения к сети в данном случае работает только простейший перевод, а остальные, более сложные сценарии все же требуют наличия подключения к интернету.
… для безопасности
Среди областей применения «искусственного интеллекта» называют и безопасность, что в целом понятно. В первую очередь это уже упомянутая обработка всех данных на устройстве, во вторую — Face Unlock, когда с помощью ИИ происходит распознавание лица пользователя. Цифровой снимок (модель) лица пользователя при этом хранится в специальной зашифрованной области памяти, как и отпечатки пальцев.
… для производительности
В случае почти всего, что связано с изображениями, речь зачастую идет об уже «обученных» алгоритмах — без обновлений камера не станет лучше распознавать вашего кота или не перестанет путать его с собакой (что тоже случается). В то же время производители заявляют, что ИИ позволяет оптимизировать работу устройства для конкретного пользователя.
Запоминая типичные последовательности запуска приложений и строя зависимости от времени-места софт способен ускорять запуск отдельных программ в частности и оптимизировать работу смартфона в целом, что должно вылиться и стабильно хорошую скорость работы и позитивно сказаться на автономности.
Компании заявляют, что ИИ используется в том числе и в алгоритмах шумоподавления при телефонных разговорах и многих других аспектах. Единственное «но» — все это крайне сложно проверить на практике.
Что дальше?
Наличие «умных» функций «из коробки» улучшает пользовательский опыт, но речь идет только о первой волне внедрения ИИ в смартфоны. Следующий этап — использование потенциала платформы сторонними приложениями. Хорошим тоном является наличие API для разработчиков и поддержка популярных библиотек вроде TensorFlow от Google и Сaffe от Facebook. Все это уже есть, осталось только дождаться приложений, которые покажут преимущества современных аппаратов. Это могут быть как AR-игры, так и приложения для решения отдельных задач.
Примечательно и то, что в конце 2017 года ИИ встречался в единичных флагманах, а спустя год появляется в аппаратах среднего сегмента. Например, Huawei P Smart+ лишен NPU, который есть во флагманах, но тоже является «умным» — компания смогла реализовать похожую функциональность силами отдельного DSP в новой SoC Kirin 710. Камера быстро распознает сцены, самих сцен стало еще больше, при этом ИИ работает и для фронтальной камеры, и галерея точно также сортирует изображения по различным категориям.
Слухи о Kirin 980 говорят о том, что в новых флагманах мы увидим второе поколение встроенного NPU и он наверняка принесет новую функциональность. Какую именно — пока неизвестно, но то что ИИ превращается в еще одну важную функцию современных смартфонов, понятно уже сегодня.
Что значит искусственный интеллект в телефоне
Нет сомнений в том, что искусственный интеллект уже в ближайшее время станет частью всех отраслей. Уже сейчас многие пытаются интегрировать ИИ даже в отрасли народного хозяйства. Однако что же такое ИИ и зачем он нужен смартфонам?
Искусственный интеллект (ИИ) – это технология создания интеллектуальных машин. ИИ включает в себя машинное обучение, а частью машинного обучения является глубокое обучение. Последнее включает в себя нейросети. Именно нейросети стали популярны в последнее время с ростом мощности графических карт.
Важную роль при создании нейросетей играет архитектура сети. Так, нейросети состоят из слоёв, каждый слой состоит из множества нейронов. Существуют один входной слой, несколько скрытых слоёв и один выходной. В самом простом случае нейроны на каждом слое соединяются со всеми нейронами следующего слоя. Соединения нейронов имеют свои веса.
Нейросети состоят из нейронов. Каждый нейрон включает в себя функцию активации и сумматорную функцию. Представим себе нейросеть следующим образом:
На изображении выше показаны веса соединений W, функция активации, расположенная внутри каждого нейрона, и сдвиг b, его мы опустим. Сумматорная функция суммирует все веса соединений на каждом нейроне и пропускает полученное значение через функцию активации.
Функция активации необходима для того, чтобы на основе входного значения принимать решение – активировать нейрон или нет. Активация нейрона приведет к переходу на новый слой. Как правило, в качестве функции активации используют сигмоидальную функцию.
В чем же основная особенность нейросети? Ее возможность обучаться. Например, Google Переводчик способен распознавать текст на фотографии. И, вероятно, это работает с помощью нейросетей. Но как?
Изначально все веса нейросети расставляются рандомно. И в этом случае на выходе Google Переводчик вместо слова «Велосипед» может выдать «Выпорлпыв». То есть, абсолютно несвязные буквы. А все дело в том, что наша сеть попросту не обучена.
Для обучения используют множество похожих данных, как правило, 80% исходных данных используют для обучения, а остальные 20% для тестирования. Например, в случае с Google Переводчиком на вход мы подаем каждый пиксель изображения. То есть, один нейрон равен одному пикселю. Таким образом, если мы имеем картинку размером 1000×1000, то наш входной слой будет состоять из 1 млн нейронов.
Входные значения, как правило, имеют диапазон от 0 до 1. В случае с Google Переводчиком мы первым делом фильтруем изображение, делая его черно-белым, далее, если пиксель черного цвета, на вход нейрона мы подаем «1», если белого, то «0». Затем каждый нейрон суммирует входные значения, умноженные на веса и пропускает через функцию активации.
Таким образом на выходе мы получим наше слово. Но сеть пока не обучена, так как мы не изменили веса соединений. Чтобы обучить нейросеть, используют метод обратного распространения ошибки. Покажем пример обучения нейросети с учителем. Суть ее заключается в том, что у нас имеются размеченные изображения с уже известными выходными значениями, и сеть на основе этих значений изменяет веса соединений таким образом, чтобы при любых входных данных сеть могла с большой долей вероятности определить нашу букву, а затем и слово.
В случае со смартфонами сейчас нейросети часто используют в камерах. Софт анализирует фотографии и фильтрует определенные области. Также ИИ используется в оптимизации софта, система более умно расходует память и ловко управляет процессами.
Возможно, мое объяснение было вам не очень понятно, но это нормально. Надеюсь, данная область вас заинтересовала, и вы наверняка найдете дополнительные источники для более глубокого изучения.
Мнением делитесь в Telegram-чате или ниже в комментариях.
Искусственный интеллект, или AI-обработка в камерах смартфонов
Натолкнулся на мнение, которое оказалось достаточно широко распространенным: AI-алгоритмы в камерах смартфонов – это фильтры и ничего больше, они позволяют украсить ваши фотографии, но никакого смысла, кроме этого, не имеют. В какой-то мере такая точка зрения имеет право на существование, особенно если не хочется разбираться даже в самых простых вещах. Но давайте попробуем вспомнить, когда и как началась эпоха AI-камер в смартфонах и куда идет развитие рынка.
Очень часто я натыкаюсь на отсылку к камерам Sony, в которых автоматическое определение сцен появилось одним из первых, по аналогии с тем, что делают современные смартфоны, их считают прообразом AI-камер. Возможно, такое толкование было бы оправданным, если бы не одно возражение – AI-камера не может существовать без мощного процессора, который обрабатывает все изображения с нее, причем картинки как уже сделанные, так и те, что еще не сфотографированы. Первым производителем, сделавшим ставку на AI как будущее рынка не только камер, но устройств в целом, стала компания Huawei. В октябре 2017 года в Мюнхене компания показала свой флагман Mate 10/10 Pro. Это первый аппарат, для которого использовали словосочетание “встроенный AI”, упомянули, что он используется для фотографии, но выделять в отдельный термин не стали. Упор был сделан на чипсете Kirin 970, в нем впервые появился отдельный процессор для AI-вычислений, это особый вид задач и алгоритмов. Обычные процессоры могут выполнять такие алгоритмы, но они не оптимизированы для них, как результат, их производительность оставляет желать лучшего. Поэтому отдельный процессор, отвечающий за AI-вычисления, стал логичным развитием рынка чипсетов, и то, что в первую очередь он нашел применение для фотографии и встроенных камер, вполне логично.
Тогда на корпусе не писали, что аппарат обладает AI-алгоритмами, это стало популярно позднее, а волна таких моделей пришлась на 2019 год, когда AI-обработка снимков стала функцией по умолчанию во всех современных смартфонах. Например, на корпусе Huawei P Smart 2019 вы можете видеть надпись AI Camera, что в какой-то мере дань маркетингу и той популярности, что эта опция приобрела в глазах покупателей.
Как-то попытался узнать, как понимают AI-камеру обычные покупатели. Стоя в магазине в центре Москвы в качестве продавца, разговаривал с покупателями, спрашивал про эту функцию. Большинство ответов сводились к тому, что камера сама понимает, что перед ней, и улучшает фотографии соответствующим образом. Лица людей лишает изъянов, траву подкрашивает зеленым цветом, небо делает голубым. Рискну предположить, что большинство людей определяет AI в телефоне именно так и никак иначе. Фактически мы говорим о том, что камера телефона умеет понимать, что именно вы фотографируете, и менять настройки в зависимости от этого. Первоначально таких сценариев у Huawei было несколько десятков, но лиха беда начало. К выходу Huawei P20 Pro нейронные сети натренировали определять 19 категорий снимков, всего было около 500 сценариев. В Mate 20 Pro число категорий увеличилось до 25, а общее число сценариев превысило 1500. В данный момент их число еще больше, и оно постоянно растет.
На практике в интерфейсе камеры есть “Мастер ИИ” (AI – это искусственный интеллект, ровно так же переводится аббревиатура), вы можете его как включить, так и выключить.
Когда мастер работает, то вы видите подсказку, например, наводите камеру на текст, и тут же появляется окошко, где говорится, что это текст.
Ровно так же все работает, когда вы наводите камеру на кошку или собаку, цветы и другие предметы, смартфон определяет, на что смотрит камера, и выставляет наилучшие параметры, чтобы ваш снимок для социальных сетей или для собственного использования был наилучшего качества. Кто-то говорит о том, что ратует за “натуральность”, но это настолько вымирающая тенденция, что тут просто нечего обсуждать, большая часть фотографий, которые вы видите в сети, имеют ту или иную редактуру, вольную или невольную. То, что большинство людей хочет навести камеру на предмет и получить качественный снимок, не вызывает сомнений. Меньшинство хочет некой натуральности, того, как предмет выглядит в их воображении. Но это скорее ностальгия по своим представлениям, не более того.
Вычислительная фотография пришла в нашу жизнь прочно и надолго. В темноте зачастую невозможно получить резкий, качественный снимок лица, чтобы были прорисованы отдельные волосы. А значит, можно взять примерно совпадающие волосы из базы телефона, добавить их к фотографии и получить снимок, который будет выглядеть принципиально иначе. Идея простая, но реализация на практике намного сложнее, чем это звучит. Тем не менее, это уже реализовано, и в Huawei даже пошли дальше.
На презентации Huawei P30 Pro нам показали сценарий Moon Shot, это снимок Луны. Телефон понимает, что вы направили его на Луну, использовали зум, и в этот момент делает “снимок”. Моему возмущению не было предела, так как я понимал, что оптика аппарата неспособна сделать такой снимок, и это выглядело как подделка. Спустя несколько месяцев я изменил свое мнение, и причина в том, что это ровно та же вычислительная фотография. Смартфон определяет предмет, который вы фотографируете, в нашем случае это Луна, а затем подставляет его из базы. Качественных снимков Луны много, выбрать есть из чего. Но никогда вы не могли сфотографировать Луну на свой смартфон. Тут же вам дали эту возможность, и она подкупает. Это не отражение реальности, если не считать таковым положение Луны на снимке, другие детали, например, окно или дерево, попавшее в кадр. Это скорее некая работа редактора, который подставляет качественное изображение объекта.
И вот этот пример отлично описывает то, куда движется вычислительная фотография, многие объекты не будут натуральными, их возьмут из уже существующих баз снимков, либо AI-алгоритмы дорисуют их так, как мы хотим их видеть. Самое время забыть о том, что когда-то существовала натуральность, отражение реального мира, фотография еще задолго до появления смартфонов стала манипулятивной, она не отражает реальный мир. Теперь эти манипуляции просто выходят на принципиально иной уровень, в какой-то мере становятся узаконенными. Первоначально это вызывает отторжение, стойкое неприятие. Но по зрелом размышлении ты начинаешь понимать, что весь мир будет устроен именно так и стоит это принять как можно раньше, чтобы не переживать о своих иллюзиях позднее. Прическа вашей девушки на снимке, текстура кожи и другие детали – все это отдаленное приближение к реальности, более того, сама реальность волнует немногих. Тут скорее вопрос в том, как сохранить грань между красотой снимка и искажением первоначальной картинки, как найти правильный баланс. Именно AI-алгоритмы будут их искать.
Теперь давайте посмотрим на уже готовые снимки, тут также задействуют AI-алгоритмы, в галерее можно увидеть, как снимки автоматически распределены по папкам, – смартфон понимает, где какая категория, и с каждым годом учится делать фото все лучше и лучше.
В той же Huawei специально создают AI-чип для своих процессоров, с каждым годом их производительность растет и остается одной из самых высоких. Причина в том, что именно такие алгоритмы становятся важны и постепенно выходят за рамки только камер и получения снимков. Сделанные снимки нужно распознать, AI-алгоритм определяет, есть ли на снимке люди, кто это и что они делают (радость, печаль, веселье и так далее – это определение эмоций), вещи и предметы, цвета и многое другое. Это кажется детской задачей, но она открывает целый спектр новых возможностей. Например, камера вашего телефона может научиться определять жесты и соответствующим образом реагировать. В том же Mate 30 Pro есть распознавание жестов, вы можете сделать скриншот, сжав кулак над экраном.
В какой-то мере AI – это познание внешнего мира, причем большая часть алгоритмов полностью автономна, она не требует сетевого соединения. И говорить о том, что AI – это только камера, невозможно, следует рассматривать камеру как внешний сенсор, который дает информацию для смартфона и тех алгоритмов, что в него вшиты. Мы только в самом начале пути, так как в будущем алгоритмы станут сложнее, замысловатее и при этом предложат совсем другой уровень персонализации.
Я не ставил задачей в небольшом материале остановиться на всех AI-алгоритмах, специфике их работы, это скорее статья для того, чтобы вы могли оценить направление развития, получить обзор того, куда идет индустрия.
Источники:
http://itc.ua/articles/iskusstvennyiy-intellekt-v-smartfonah/
http://androidinsider.ru/smartfony/chto-takoe-iskusstvennyiy-intellekt-i-zachem-on-nuzhen-smartfonam.html
http://mobile-review.com/articles/2019/ai-camera.shtml