Основные философские модели мира
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Основные философские модели мира
Можно выделить четыре основные модели, подхода к их решению: идеалистическую, натуралистическую, материалистическую и плюралистическую (факторную) модель.
Идеалистическая модель имела широкое распространение в истории философии и господствовала до середины
XIX
в.
Она основывается на признании абсолютного приоритета сознания по отношению к другим сторонам человеческой деятельности.
Аргументом является то обстоятельство, что в основе любых действий людей лежат идеальные побудительные мотивы, цели, установки, которые предшествуют их реальным
действиям. Так, Гегель полагал, что источник развития общества находится в
абсолютном духе, который творит историю и предопределяет все действия людей.
Люди в своих поступках связаны разнообразными нитями с творцом — духом,
направляющим и определяющим их деяния.
Идеалистическая интерпретация общества имеет реальные основания — сложность общественных процессов и их познания. В обществе, в отличие от природы, действуют люди, наделенные сознанием и волей, которые ставят перед собой определенные цели и действуют под влиянием сознательных побуждений. Абсолютизация роли сознания в жизни общества и привела к выводу, что сознание является конечной причиной исторических событий. Этот вывод связан и с теми социальными процессами, которые способствовали утверждению идеалистических взглядов: отделение умственного труда от физического, духовного производства от материального.
Идеалистическое объяснение сущности общества приводит к отрицанию объективных законов его развития. Так, последователи И. Канта Г. Риккерт (1863 — 1936) и Г. Виндельбанд (1848 — 1915) утверждали, что поскольку все социальные явления носят индивидуальный, неповторимый характер, то в обществе не может быть объективных законов, которые фиксируют устойчивые, необходимые, повторяющиеся связи между процессами и явлениями. Та же аргументация характерна для А. Тойнби, считающего общественные законы лишь гипотезами.
Отрицание закономерного характера функционирования и развития общества предопределило и решение проблемы движущих сил истории. Решающая роль отводилась великим личностям, духовной элите, творческому меньшинству. История предстала результатом их деятельности, народу отводилась роль инертной, пассивной массы, толпы.
Натуралистическая модель (или географическое направление) ведущую роль в развитии общества отводит природным условиям. С точки зрения сторонников этой теории (Ш. Монтескье, Г. Бокль, Л. Мечников), природная среда (климат, почва, полезные ископаемые и т.
В XX в. эти идеи легли в основу реакционного философского направления — геополитики (Ф. Ратцель, К. Хаусхофер, Р.Челлен). Согласно взглядам его представителей, природные условия являются определяющим фактором развития государств в мировой истории, а само же государство рассматривается как биологический организм, который для своей жизнедеятельности нуждается в определенной территории, полезных ископаемых и т. п. Поэтому борьба государства за жизненное пространство есть естественный закон борьбы за существование - закон жизни всякого живого организма. Геополитика наряду с расовой теорией составила основу официальной доктрины немецких нацистов и обосновала подготовку ко Второй мировой войне.
ТОП-10 самые необычные модели мира
Каноны красоты периодически меняются, однако, большинство моделей похожи друг на друга. Но периодически некоторые модные дома приглашают стать лицом бренда людей с нестандартной внешностью. На таких людей интересно смотреть. Когда торговую марку представляет человек с уникальной внешностью, то бренд как-будто оживает и рассказывает вам свою историю…
Темнокожая модель с шикарным телом представляет бренд Desigual. Тело девушки соответствует всем канонам. Но есть особенность: Винни Харлоу страдает от заболевания витилиго. На отдельных участках кожи модели присутствует пигментация. Девушка начала свою карьеру с участия в телевизионном шоу America’s Next Top Model’s. Там ее и заметили представители бренда Desigual.
Шон Росс (Shaun Ross)- первая модель мужского пола альбинос. Парень профессионально занимался танцами с 16 лет. Шон случайно попал в шоу Тайры Бэнкс, где его заметили скауты модельного бизнеса. После он стал сниматься для таких крупных изданий:
Шон всегда считал себя некрасивым и ненормальным. Это внушило ему общество. Парень даже представить себе не мог, что станет выдающейся персоной в сфере моделинга.
3. Эшли Грэхем
Модель простая девушка из Небраски, Эшли Грэхем (Ashley Graham), также не подозревал, что когда-то станет известной и успешной. Полненькая девочка, которая с детства терпела насмешки других детей и имела массу комплексов, стала знаменитой моделью plus-size.
Девушка всегда говорила что любит себя такой, какая она есть и не стремилась худеть. Эшли в 2014 году подписала контракт с модельным агентством IMG Models, и получила признание.
Фото Эшли украсили обложки известных журналов:
- Voque,
- Harper’s Bazzar,
- Glamour
- Elle,
- Sports Illustrated.
4. Андрей Пежич
Когда смотришь на фото, то сложно понять, в чем именно особенность. Оказывается красивая девушка на снимках с точеными скулами это не она, а он. И в это сложно поверить сразу, поскольку модель выглядит очень органично и женственно.
В 17 лет он начал работать как андрогинная модель, не скрывая, что в женских образах чувствует себя увереннее. Парень никогда не скрывал, что считает ошибкой то, что он родился в мужском теле. Андрей рассказывал журналистам, что в детстве надевал мамину юбку и танцевал, представляя себя балериной.
В 2014 год Пежич наконец-то осуществил свою мечту. Он собрал необходимую сумму для операции по смене пола начал процедуру перевоплощения в женщину. Средства на дорогостоящую операцию он смог заработать благодаря своей универсальной внешности. Она и принесла ему известность и деньги. Он выступал на показах мужской и женской одежды:
- Жана-Поля Готье,
- DKNY,
- Джереми Скотта,
- Марка Джейкобса.
Теперь модель официально зовут Андрия Пежич. С ним также связан небольшой скандал. Мужское издание FHM внесло Андрея в список самых сексапильных женщин планеты. Это произошло задолго до момента его перевоплощения в барышню.
5. Алекс Мински
Alex Minsky — военнослужащий, а если быть точнее, то пехотинец, который служил в горячих точках афганистана. Во время одной из военных операций произошел взрыв мины, и Алексу оторвало ногу. Кроме того у парня было множество других увечий среди которых черепно-мозговая травма.
Продолжительное время врачи считали что Мински останется овощем, однако парень выжил и пошел на поправку. Спустя время Алекс снова впал в депрессию и стал злоупотреблять алкоголем из-за смерти брата. Бывший военнослужащий и здесь проявил силу воли и поборол пагубную привычку. Парень взялся за ум и начал заниматься спортом. В одном из фитнес-клубов его заметил фотограф. Так Алекс стал фотомоделью и вдохновением для тех, кто отчаялся прожить жизнь достойно после получения страшных увечий.
6. Джиллиан Меркадо
Девушка, которая обожает моду и ведет свой блог. Из-за мышечной дистрофии она прикована к инвалидной коляске. Джи подала заявку на кастинг для бренда Diesel. Ставку на необычную внешность будущей модели сделал Николя Формичетти, творческий директор торговой марки. Художественный руководителя покорила харизма Меркадо. Также ему понравилась идеально чистая смуглая кожа, копна волос, огромные глаза и сексуальные губы.
7. Кармен дель Орефайс
Carmen Dell’Orefice — женщина, имя которой мир моды отождествляет с утонченностью и элегантностью. Дама, которая доказала, что понятие возраст, для настоящей леди просто цифры.
Кармен посвятила всю жизнь индустрии красоты. Впервые она появилась на обложке журнала Vogue в октябре 1947 года в возрасте 16 лет. Сам Сальвадор Дали пригласил ее позировать для своих картин. Она также работала с самыми известными фотографами:- Сесил Битон,
- Норман Паркинсон,
- Ричард Аведон.
8. Моффи
Moffy — красивая девушка с модельными параметрами. Среди других представительниц сферы моделинга ее выделяет косоглазие (страбизм). Многие фотографы выделяют особенность девушки.
Известность пришла к ней после съемок для обложки журнала POP. Сейчас модель сотрудничает с агентством Storm, которое стало в свое время стартовой площадкой для самой Кейт Мосс.
9. Амазон Ив
Рост Амазон составляет 2,02 метра и на данный момент она самая высокая модель в мире. Настоящее имя девушки Эрика Эрвин. По профессии она является фитнес-тренером. В детстве девочка сильно комплексовала из-за своего роста. Подростком она решила бороться с комплексами, и пошла, учиться актерскому мастерству. Но вскоре она бросила это дело, поскольку ей предлагали только роли монстров. Благодаря спортивным нагрузкам целеустремленная Амазон смогла создать идеальные пропорции тела и сейчас является высокооплачиваемой моделью.
10. Рик Дженест
Тело Рика — это практически произведение искусства. Все дело в том, что оно полностью покрыто татуировками. Модель имеет прозвище «Парень-Зомби». Над лицом и телом Рика потрудился монреальский тату-мастер Фрэнк Льюис. Дженеста можно увидеть в клипе Леди Гага «Born This Way».
Каждая личность представленая в топе является исключением из правил, что лишний раз доказывает, что утверждение “красота в глазах смотрящего” верно. История каждого из этого списка доказывает, что человек с любой внешностью достоин признания. Главное — вера в себя, гармония между внешней оболочкой и внутренним миром, и готовность много трудиться.
моделей мира — история обучения с подкреплением | by SmartLab AI
Автор: Роберт Мони
Вы когда-нибудь клали тетрадь под подушку перед экзаменом, желая, чтобы все, что там написано, закрепилось в вашей долговременной памяти? Я знаю друга, который сделал.
Эта статья об обучении во сне. Точнее, хочет выделить работу Дэвида Ха и Юргена Шмидхубера в области глубокого обучения с подкреплением, методов на основе подполевых моделей, представленную на Neural Information Processing Systems в 2018 году. Их статья под названием «Модели мира» демонстрирует, что их агент RL способен учиться, тренируясь в своей собственной смоделированной среде. Их модель смогла обучить агента играть и набирать высокие баллы в среде OpenAi Gym Car Racing и среде ViZDoom (DOOM с настройкой для бенчмаркинга методов RL).
Модель
Давайте сразу перейдем к делу и посмотрим на модель. У нас есть базовая установка RL: среда, в которой агент пытается изучить политику методом проб и ошибок, чтобы получить максимально возможное вознаграждение.
Модель мира — модель [Источник]Шаг за шагом, в рамках тематического исследования задачи «Автогонки», модель выполняет следующие действия: ширина, длина и глубина RGB).
Таким образом, модель мира состоит из трех основных частей, которые, как заявляют авторы, обучаются отдельно. Далее дается отдельное описание для трех модулей.
1. Vision
[Источник]Для этого модуля обучен сверточный вариационный автоэнкодер (VAE). VAE — это мощные генеративные модели, обученные с полууправляемым обучением. Чтобы глубже погрузиться в VAE, я рекомендую вам прочитать этот пост и следовать этому руководству по python, созданному с помощью Tensorflow в наборе данных MNIST. Нам важен скрытый вектор z, , которое выбирается из факторизованного распределения Гаусса N со средним значением μ и диагональной дисперсией σ. Для каждого наблюдения из окружающей среды (изображения) в следующую модель передается скрытый вектор z .
Кодирование ускоряет процесс обучения, поскольку агент видит только встроенное представление входного изображения.
2. Память
Модель M представляет собой долговременную кратковременную память (LSTM) с 256 скрытыми состояниями и сетью плотности смеси (MDN).
М-модель пытается предсказать, каким будет следующее значение z . Это подается в модуль MDN, целью которого является введение случайности. По сути, MDN изменяет вывод LSTM, который представляет собой детерминированное значение z , в диапазон возможностей для z .
3. Контроллер
Простая линейная модель, обученная принимать наилучшее решение, выглядит следующим образом: Используется алгоритм стратегии (CMA-ES). Это было выполнено с использованием размера популяции 64 ЦП, и каждый агент выполнил задачу 16 раз с разными начальными случайными начальными значениями. Таким образом, несколько вариантов контроллера были оценены для ЦП, и были выбраны лучшие параметры для работы в реальной среде.
Эта установка хорошо работала в среде Car Racing, где целью было набрать в среднем не менее 900 очков за 100 испытаний .
Действительно ли он учится во сне?
Теперь вернемся к сновидениям. Это был эксперимент, проведенный в среде DOOM. У него какая-то другая настройка, адаптированная для этой среды, учитывая другой размер входного изображения и тот факт, что агент может умереть.
Фундаментальный вклад (который собственно и раскрутили с рассказом о том, что агент узнает во сне) состоит в демонстрации того обучения агента с помощью предсказанных z скрытое представление, созданное моделью M, получило лучший результат во время игры в DOOM. Модель M учится генерировать монстров, которые стреляют огненными шарами в направлении агента, в то время как модель C обнаруживает политику, позволяющую избегать этих генерируемых огненных шаров. Модель V используется только для декодирования скрытых векторов z , созданных M, в последовательность пиксельных изображений.
Запустите метод
Большое спасибо Fábián Füleki, который собрал для экспериментов образ докера, работающий на хост-компьютере Linux. Репозиторий GitHub можно найти здесь, и убедитесь, что вы используете систему, оснащенную графическим процессором с поддержкой CUDA, и вы установили docker, nvidia-docker и CUDA 9..0.
Действия:
1. Настройка докера
a. Извлекая образ из dockerhub docker pull ffabi/gym:90 b. Создав его локально git clone https://github.com/ffabi/SemesterProject.git cd SemesterProject/docker_setup docker build -f Dockerfile_cuda90 -t ffabi/gym:90 . 2. Запуск контейнера докеров mkdir ./ffabi_shared_folder nvidia-docker create -p 8192:8192 -p 8193:22 -p 8194:8194 --name / ffabi_gym -v $(pwd)/ffabi_shared_folder:/root/ffabi_shared_folder / ffabi/gym:90 nvidia-docker start ffabi_gym docker exec - это ffabi_gym bash 3. Клонировать реализацию концепции World Models cd ffabi_shared_folder git clone https://github.com/ffabi/SemesterProject.git cd SemesterProject/World Модели 4. Запуск приложения мкдир данных xvfb-run -a -s "-screen 0 1400x900x24" python3 01_generate_data.py car_racing --total_episodes 200 --start_batch 0 --time_steps 300 xvfb-run -a -s "-screen 0 1400x900x24 " python3 02_train_vae. py --start_batch 0 --max_batch 9 --new_model xvfb-run -a -s "-screen 0 1400x900x24" python3 03_generate_rnn_data.py --start_batch 0 --max_batch 9 xvfb-run -a -s "- экран 0 1400x900x24" python3 04_train_rnn.py --start_batch 0 --max_batch 0 --new_model xvfb-run -a -s "-screen 0 1400x900x24" python3 05_train_controller.py car_racing --num_worker 1 --num_worker_trial 2 --num_episode 4 --max_length 1000 --eval_steps 25
Заключение 90 019
Все модели Неправильно, некоторые полезны (Джордж Бокс, 1976)
Модель мира Дэвида Ха и Юргена Шмидхубера, безусловно, полезная модель, которая способна изучить окружающую среду и научить агента хорошо работать в ней. Эта работа дает хорошее объяснение того, как наш мозг обрабатывает информацию, чтобы принимать решения о действиях, и, таким образом, служит отличной основой для будущих исследований методов, основанных на моделях.
Ссылки
Сообщение в блоге Paper:
World Models
Интерактивная демонстрация: коснитесь экрана, чтобы отменить решения агента.
Мы изучаем создание генеративных моделей нейронных сетей…worldmodels.github.io
Репозиторий GitHub:
hardmaru/WorldModelsExperiments
World Models Experiments. Внесите свой вклад в развитие hardmaru/WorldModelsExperiments, создав учетную запись на GitHub.
github.com
2 других варианта использования модели Word:
Галлюциногенное глубокое обучение с подкреплением с использованием Python и Keras
Обучение машины освоению автомобильных гонок и предотвращению огненных шаров с помощью «Мировых моделей»
средний .com
Ссылки для VAE:
Интуитивное понимание вариационных автоэнкодеров
И почему они так полезны при создании собственного генеративного текста, рисунков и даже музыки
по направлению к datascience.com
Исходный пост можно найти на личной странице Роберта: https://medium.com/@robertmoni_66330/b5611c590e6e
Мастерство Atari с дискретными моделями мира — блог Google AI
Автор: Данияр Хафнер, студент-исследователь, Google Research
Глубокое обучение с подкреплением (RL) позволяет искусственным агентам улучшать свои решения с течением времени. Традиционные подходы без моделей узнают, какие из действий являются успешными в различных ситуациях, взаимодействуя с окружающей средой путем большого количества проб и ошибок. Напротив, недавние достижения в области глубокого RL позволили на основе моделей подходит к , чтобы узнать точные модели мира из входных изображений и использовать их для планирования. Модели мира могут обучаться за счет меньшего количества взаимодействий, облегчают обобщение автономных данных, обеспечивают перспективное исследование и позволяют повторно использовать знания в нескольких задачах.
Несмотря на свои интригующие преимущества, существующие модели мира (такие как SimPLe) не были достаточно точными, чтобы конкурировать с лучшими подходами без моделей в наиболее конкурентоспособных тестах обучения с подкреплением — на сегодняшний день хорошо зарекомендовавший себя тест Atari требует алгоритмы без моделей, таких как DQN, IQN и Rainbow, чтобы достичь производительности на уровне человека. В результате многие исследователи вместо этого сосредоточились на разработке конкретных задач методов планирования, таких как VPN и MuZero, которые обучаются, прогнозируя суммы ожидаемых вознаграждений за выполнение задач. Однако эти методы специфичны для отдельных задач, и неясно, насколько хорошо они будут обобщаться для новых задач или учиться на неконтролируемых наборах данных. Подобно недавнему прорыву в обучении представлений без учителя в компьютерном зрении [1, 2], модели мира нацелены на изучение паттернов в окружающей среде, которые являются более общими, чем любая конкретная задача, чтобы впоследствии решать задачи более эффективно.
Сегодня в сотрудничестве с DeepMind и Университетом Торонто мы представляем DreamerV2, первый агент RL, основанный на мировой модели, который достиг производительности на уровне человека в тесте Atari. Он представляет собой второе поколение агента Dreamer, который изучает поведение исключительно в скрытом пространстве модели мира, обученной из пикселей. DreamerV2 полагается исключительно на общую информацию из изображений и точно предсказывает будущие награды за выполнение задач, даже если эти награды не повлияли на его представления. Используя один графический процессор, DreamerV2 превосходит лучшие алгоритмы без моделей при том же бюджете вычислений и выборки.
Геймер нормализовал средний балл в 55 играх Atari после 200 миллионов шагов. DreamerV2 существенно превосходит предыдущие мировые модели. Более того, он превосходит лучшие агенты без моделей при том же бюджете вычислений и выборки. [Обновление — 04 мая 2021 г.: более ранняя версия этого рисунка показывала более низкую производительность DreamerV2, чем она была достигнута на самом деле.] 2 для некоторых из 55 игр Atari. Эти видеоролики показывают изображения из окружающей среды. Видео-прогнозы показаны ниже в сообщении блога. |
Абстрактная модель мира
Как и его предшественник, DreamerV2 изучает модель мира и использует ее для обучения поведению актера-критика исключительно на основе предсказанных траекторий. Модель мира автоматически учится вычислять компактные представления своих изображений, которые обнаруживают полезные концепции, такие как позиции объектов, и изучает, как эти концепции меняются в ответ на различные действия. Это позволяет агенту генерировать абстракции своих изображений, которые игнорируют ненужные детали, и позволяет выполнять массовые параллельные прогнозы на одном графическом процессоре. В течение 200 миллионов шагов среды DreamerV2 предсказывает 468 миллиардов компактных состояний для изучения своего поведения.
DreamerV2 основан на рекуррентной модели пространства состояний (RSSM), которую мы представили для PlaNet и которая также использовалась для DreamerV1. Во время обучения кодировщик превращает каждое изображение в стохастическое представление, которое включается в повторяющееся состояние модели мира. Поскольку представления являются стохастическими, они не имеют доступа к полной информации об изображениях и вместо этого извлекают только то, что необходимо для прогнозирования, что делает агента устойчивым к невидимым изображениям. Из каждого состояния декодер реконструирует соответствующее изображение, чтобы изучить общие представления. Кроме того, небольшая сеть вознаграждений обучена ранжировать результаты во время планирования. Чтобы обеспечить планирование без создания изображений, предиктор учится угадывать стохастические представления без доступа к изображениям, из которых они были вычислены.
Процесс обучения модели мира, используемой DreamerV2. Модель мира поддерживает повторяющиеся состояния (h 1 –h 3 ), которые получают действия (a 1 –a 2 ) и включают информацию об изображениях (x 1 –x 3 ) через st охастический представления (z 1 –z 3 ). Предсказатель угадывает представления как (ẑ 1 –ẑ 3 ) без доступа к изображениям, из которых они были созданы. |
Важно отметить, что DreamerV2 вводит в RSSM два новых метода, которые позволяют создать значительно более точную модель мира для изучения успешных политик. Первый метод заключается в представлении каждого изображения несколькими категориальными переменными вместо переменных Гаусса, используемых PlaNet, DreamerV1 и многими другими моделями мира в литературе [1, 2, 3, 4, 5]. Это приводит к тому, что модель мира рассуждает о мире с точки зрения дискретных концепций и позволяет более точно прогнозировать будущие представления.
Кодер превращает каждое изображение в 32 распределения по 32 классам каждое, значения которых определяются автоматически по мере обучения модели мира. Горячие векторы, выбранные из этих распределений, объединяются в разреженное представление , которое передается в рекуррентное состояние. Для обратного распространения по образцам мы используем прямые градиенты, которые легко реализовать с помощью автоматического дифференцирования. Представление изображений с категориальными переменными позволяет предсказателю точно изучить распределение по горячим векторам возможных следующих изображений. Напротив, более ранние модели мира, использующие предикторы Гаусса, не могут точно сопоставить распределение по нескольким представлениям Гаусса для возможных следующих изображений.
Множественные категориальные, которые представляют возможные следующие изображения, могут быть точно предсказаны категориальным предиктором, тогда как гауссовский предиктор недостаточно гибок, чтобы точно предсказать несколько возможных гауссовских представлений. |
Второй новой техникой DreamerV2 является балансировка KL . Многие предыдущие модели мира используют цель ELBO, которая поощряет точные реконструкции, сохраняя при этом стохастические представления (апостериорные) близкими к их прогнозам (априорным), чтобы упорядочить объем информации, извлекаемой из каждого изображения, и облегчить обобщение. Поскольку цель оптимизирована от начала до конца, стохастические представления и их прогнозы можно сделать более похожими, приблизив одно из двух к другому. Однако приведение представлений к их предсказаниям может быть проблематичным, если предсказатель еще не точен. Балансировка KL позволяет прогнозам двигаться быстрее к представлениям, чем наоборот. Это приводит к более точным прогнозам, что является ключом к успешному планированию.
Долгосрочные видеопрогнозы модели мира для последовательностей удержания. Каждая модель получает на вход 5 кадров (не показаны), а затем прогнозирует на 45 шагов вперед, учитывая только действия. Видеопрогнозы используются только для получения представления о качестве модели мира. При планировании прогнозируются только компактные представления, а не образы. |
Измерение производительности Atari
DreamerV2 — первая в мире модель, которая позволяет обучаться успешному поведению с производительностью на уровне человека на хорошо зарекомендовавшем себя и конкурентоспособном эталонном тесте Atari. Мы выбираем 55 игр, которые являются общими для многих предыдущих исследований, и рекомендуем этот набор игр для будущей работы. В соответствии со стандартным протоколом оценки агентам разрешено 200 млн взаимодействий с окружением, используя повторение действия, равное 4, и фиксированные действия (вероятность 25 %, что действие будет проигнорировано, а вместо него будет повторено предыдущее действие). Мы сравниваем с топовыми агентами без моделей IQN и Rainbow, а также с известными агентами C51 и DQN, реализованными в рамках Dopamine.
Существуют разные стандарты для суммирования результатов в 55 играх. В идеале новый алгоритм должен работать лучше при любых условиях. Для всех четырех методов агрегации DreamerV2 действительно превосходит все сравниваемые безмодельные алгоритмы при том же вычислительном бюджете.
DreamerV2 превосходит лучшие модели без агентов по четырем методам суммирования результатов в 55 играх Atari. Мы представляем и рекомендуем Clipped Record Mean (крайний правый график) как информативная и надежная метрика производительности. [Обновление — 4 мая 2021 г.: более ранняя версия этого рисунка показывала более низкую производительность DreamerV2, чем она была достигнута на самом деле.] |
Ранее в литературе были предложены первые три метода агрегации. Мы выявляем важные недостатки в каждом из них и рекомендуем новый метод агрегирования, усеченных записей, означающих , для преодоления их недостатков.
- Медиана игрока. Чаще всего баллы для каждой игры нормализуются по производительности игрока-человека, которая была оценена для бумаги DQN, и сообщается медиана нормализованных результатов всех игр. К сожалению, медиана игнорирует результаты многих более простых и сложных игр.
- Игрок Среднее. Среднее значение учитывает результаты всех игр, но в основном на него влияет небольшое количество игр, в которых игрок-человек показал плохие результаты. Это позволяет алгоритму легко получать большие нормализованные результаты в некоторых играх (например, Джеймс Бонд, видео-пинбол), которые затем доминируют над средним значением.
- Запись Среднее. Предыдущая работа вместо этого рекомендует нормализацию, основанную на мировом рекорде человека, но на такой показатель по-прежнему чрезмерно влияет небольшое количество игр, в которых искусственным агентам легко превзойти человеческий рекорд.
- Усеченное значение записи. Мы вводим новую метрику, которая нормализует баллы по мировому рекорду и обрезает их так, чтобы они не превышали рекорд. Это дает информативную и надежную метрику, которая примерно в равной степени учитывает производительность во всех играх.
Несмотря на то, что многие современные алгоритмы превосходят базовые возможности человека-геймера, они все же значительно отстают от мирового рекорда человечества. Как показано на крайнем правом графике выше, DreamerV2 лидирует, достигая 25% человеческого рекорда в среднем по играм. Сокращение очков на линии рекордов позволяет нам сосредоточить наши усилия на разработке методов, которые приближаются к мировому рекорду человечества во всех играх, а не превышают его лишь в нескольких играх.
Что важно, а что нет
Чтобы получить представление о важных компонентах DreamerV2, мы проводим обширное исследование абляции. Важно отметить, что мы обнаружили, что категориальные представления имеют явное преимущество перед гауссовскими представлениями, несмотря на то, что гауссовы представления широко использовались в предыдущих работах. Балансировка KL дает еще более существенное преимущество перед регуляризатором KL, используемым в большинстве генеративных моделей.
Не позволяя реконструкции изображения или градиентам предсказания вознаграждения формировать состояния модели, мы изучаем их важность для изучения успешных представлений. Мы обнаружили, что DreamerV2 полностью полагается на универсальную информацию из многомерных входных изображений и его представления позволяют точно прогнозировать вознаграждение, даже если они не были обучены с использованием информации о вознаграждении . Это отражает успех неконтролируемого обучения представлению в сообществе компьютерного зрения.
Производительность Atari для различных аблаций DreamerV2 (урезанное значение записи). Категориальные представления, балансировка KL и изучение изображений имеют решающее значение для успеха DreamerV2. Использование информации о наградах, характерной для узких задач, не дает дополнительных преимуществ для изучения модели мира. |
Заключение
Мы покажем, как изучить мощную модель мира, чтобы достичь производительности на уровне человека в конкурентном тесте Atari и превзойти лучших агентов без моделей. Этот результат демонстрирует, что модели мира являются мощным подходом для достижения высоких результатов в задачах обучения с подкреплением и готовы к использованию для практиков и исследователей. Мы видим в этом указание на то, что успех неконтролируемого репрезентативного обучения в компьютерном зрении [1, 2] теперь начинает реализовываться в обучении с подкреплением в форме моделей мира.