Главная В клубе 2819 Войти
Здравствуйте, гость Правила · Помощь

»  Оценка карты играющего при заданном сносе, Определение результата игры для мизера и игры на взятки Подписаться | Сообщить другу | Версия для печати
      » 2/12/2017, 11:42,  Kirk 
Протокол-то проще: клик по кнопке, или выбор из списка - и все дела.
Но вот что на кнопке должно быть написано, и что она делать должна, нажавшись... это ж все надо заранее придумать! Вот к этому-то "заранее" программисты 1970-х и были морально не готовы.
      » 8/12/2017, 21:49,  american_boy 
Нейросеть AlphaZero разгромила действующего чемпиона мира среди компьютерных программ Stockfish


Нейросеть AlphaZero – разработка компании DeepMind – победила сильнейшую шахматную компьютерную программу Stockfish 8.
Соперники провели 100 партий с контролем 1 минута на ход. AlphaZero выиграла 28 партий (25 белыми) и сыграла вничью 72 партии – общий счет 64:36.
AlphaZero – более универсальная версия нейросети AlphaGo Zero, которая в свою очередь является улучшенной версией AlphaGo. В мае 2017 года AlphaGo победила сильнейшего игрока в го Кэ Цзе.
В отличие от других шахматных программ (в том числе Stockfish) AlphaZero выбирает ход не за счет перебора возможных ходов, а применяя алгоритмы, которые вырабатываются при обучении в играх с самой собой. Для сравнения: AlphaZero рассматривала 80 тысяч позиций за секунду, Stockfish 8 – 70 миллионов позиций за секунду.
Известно, что AlphaZero обучалась шахматам, зная только правила игры. После 4 часов игры с самой собой нейросеть была готова к партиям против Stockfish 8.




Ключевое слово "разгромила".

Далее, важно отметить: "Известно, что AlphaZero обучалась шахматам, зная только правила игры" и "После 4 часов игры с самой собой нейросеть была готова к партиям против Stockfish 8".

ну и последнее 28 побед +72 ничьи=100. ни одного поражения.

такие вот делишки

Это сообщение отредактировал american_boy - 8/12/2017, 21:51
      » 8/12/2017, 22:08,  bamboo 
фигасе Stockfish 8 лох лохом
      » 8/12/2017, 22:10,  Apophis 
не, ну в техасский холдем не факт. тут рулетка канешно, не та игра.
      » 8/12/2017, 22:12,  american_boy 
ну вот. все отметились.
я тоже так считаю
      » 9/12/2017, 12:09,  Pochemuk 
Apophis ( 8 дек. 2017, 22:10)
не, ну в техасский холдем не факт. тут рулетка канешно, не та игра.

Тут дело даже не в том, что рулетка, а еще в том, что шахматы и холдем (преферанс, блэкджек и т.д.) и используют разные установки в определении критерия выигрыша.

Если для шахмат эти установки "терминальные" (проиграл/ничья/выиграл), то для многих других игр они "достижительные" - сделать карьеру оптимизировать величину проигрыша/выигрыша на дистанции.

Не буду утверждать, что правомерно распространять термины социальной психологии на описание таких игр, но, как мне кажется, различие в характерах целей (установках) очень сильно влияют на возможности НС. Т.е. "объяснить" НС, что она должна выигрывать, проще, чем "объяснить" ей, что она должна выигрывать побольше (проигрывать поменьше) на дистанции.

На примере:
Если в шахматах какой-то ход ведет к проигрышу - это однозначно плохой ход. И запускаем механизм обратного распространения ошибки.
Если в преферансе какое-то решение (вступление в торговлю, контракт, вистование, выбор сноса и т.д.) приводит к проигрышу, то это не означает, что это решение было не верным. Может быть как раз наоборот и надо его подтверждать, а не считать ошибочным.

Это сообщение отредактировал Pochemuk - 9/12/2017, 12:10
      » 9/12/2017, 16:49,  Pochemuk 
И еще вот какая мысль о том, почему сложно приспособить НС к преферансу и другим играм с неполной информацией:

С помощью НС решаются задачи классификации (Кошка/Собака на картинке) и кластеризации (разобрать геометрические фигуры на группы). Попытки прогноза трендов тоже предпринимаются, но пока что успехов мало. Потому что тренды - понятие динамическое, а НС работает больше со статическими входными данными.

Задача определения "Хороший/Плохой ход (решение)" тоже кое-как вписывается в эту область, только вот всё дело в том, что в преферансе хорошим решением может быть не конкретное "чистое" решение, а смешанная стратегия.

Т.е. имея мизерную руку нужно не только определять, какой снос будет лучшим, но и в каких случаях нужно выбирать его случайным образом, из каких вариантов и с какой частотой.

А это уже ни разу не задача классификации/кластеризации.

Я, конечно, обладаю познаниями в НС на уровне "исчезающе малая величина", но предполагаю, что такая задача перед НС, играющей в шахматы, не ставилась :)
      » 9/12/2017, 19:39,  american_boy 
да коллега, как мы видим, НС умеет играть только в игры с полной инфой. Нормальных прог по игре с неполной инфой по сути нет. Тут ей придётся иметь дело только с жалкими людишками.
      » 10/12/2017, 02:03,  Невозмутимый 
да ето все фигня Cepheus давно уже возюкает не только людей но и других ботов

HFT trading и тп боты впереди планеты всей. Преферанс не решен только потому что никому не интересно его решать
      » 10/12/2017, 12:38,  Pochemuk 
Невозмутимый (10 дек. 2017, 02:03)
да ето все фигня Cepheus давно уже возюкает не только людей но и других ботов

Ссылки по теме:

http://www.gipsyteam.ru/news/4362-proschay-limitnyy-holdem

http://www.pokeroff.ru/limitniy-ha-holdem-...en-post-2898582

Только там речь идет о лимитном хлдэме.

Это сообщение отредактировал Pochemuk - 10/12/2017, 13:23
      » 10/12/2017, 17:19,  Невозмутимый 
Принципиальной разницы нет. Дерево решений будет гораздо больше, поэтому создать GTO approximation будет труднее но это вопрос исключительно ресурсов.
В играх с неполной информацией нет ничего волшебного, боты потихоньку доедают людей и там.
« Предыдущая тема | Перечень тем | Следующая тема »
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей: