Не так давно, 9 февраля сего года, в "The New Yorker" появилась заметка прекрасно известного русскоязычному читателю умной и красивой научной фантастики писателя и программиста Теда Чана под названием "ChatGPT Is a Blurry JPEG of the Web" с подзаголовком "OpenAI’s chatbot offers paraphrases, whereas Google offers quotes. Which do we prefer?". Об эссе автора я узнал только из перевода (под заголовком "ChatGPT это лишь сжатое изображение всемирной сети") на портале syg.ma (ссылки на все будут в конце этого текста). Далее я хотел бы помимо того, чтобы просто сообщить о существовании что оригинала, что переводной версии очень интересной и донельзя актуальной нехудожественной работы Теда Чана, но и вкратце раскрыть ее основные тезисы, а также сравнить их с неоднозначным, но очень известным (по слухам, ставшим причиной закрытия ряда проектов по разработке ИИ — отсылаю к интервью "Финикового компота" с Серлом, а также послужившим идейной почвой для институционального оформления когнитивистики как науки) мысленным экспериментом американского аналитического философа языка и сознания Джона Серла. С "китайской комнатой" из культовой статьи "Сознание, мозг и программы".
Итак, если вкратце, то Тед Чан на пальцах и путем аналогий-метафор старается донести до массового нетехнического читателя простую истину — чат-GPT не есть т. н. "сильный ИИ". Это очередное, новаторское и интересное, но все-таки звено в цепи усовершенствований и изобретательских итераций в цепи прогресса "слабых ИИ". Притом дальнейшие усилия в этом конкретном процессе совсем не точно приведут к выполнению истматовского "перехода количество в качество". Т. е. совсем не факт, что из очень-очень-очень сильного "слабого ИИ" получится "ИИ сильный". Но обо всем по порядку.
Начиная с небольшой исторической ремарки из области программирования, Тед Чан напоминает о двух путях в процессе сжатия данных — с потерями и без:
"Сжатие данных подразумевает два процесса: кодировка, когда данные компрессуются в более компактный формат, и декодирование — обратный процесс. Если восстановленный файл идентичен оригиналу, то использовалось сжатие без потерь: не было утеряно никаких данных. Если же, напротив, востановленный файл лишь приблизительно тождественнен оригиналу, то применялось сжатие с потерями: некоторые данные были утеряны и теперь не подлежат восстановлению. Сжатие без потерь обычно используется для текстовых файлов и компьютерных программ, потому что в этих форматах утрата даже единственного символа может повлечь серьезные последствия. Сжатие с потерями зачастую используется для фото, аудио и видео — там, где абсолютная точность не критична"
Неразличение двух этих подходов — по недосмотру, случайности или продуманно — порой приводит к неприятным ситуациям. А именно к случаю с ксероксом одной немецкой компании, который при копировании (которое, как отмечает Чан, давно уже "не то, что раньше", ведь "...для решения проблемы понадобился именно информатик, потому что современный ксерокс уже не использует физический ксерографический процесс как в 60-х годах — вместо этого изображение сканируется дигитально, а затем распечатывается") допускал странные ошибки — заменял различные записанные числа на планах на одно и то же число:
"Главной проблемой в этой истории стало не то, что в копировальном аппарате использовался метод сжатия с потерями, а то, что аппарат искажал копию незаметно, и артефакты сжатия не сразу бросались в глаза. Если бы на выходе получались размытые изображения, всем стало бы ясно, что копии не соответствуют в точности оригиналу. Но копии казались точными — данные на них были ясно читаемыми, будучи неверными. В 2014 году Xerox выпустили патч, исправляющий эту проблему с их копировальными аппаратами"
Запомним это на будущее. И вот, ознакомившись с базовым и тривиальным программистским знанием, мы можем прийти к более сложным материям, которые талантливый писатель объясняет элегантно и просто. А именно для понимания сути чатаGPT, почему он не обладает пониманием и возможностью создать что-то действительно новое (ну и почему он не есть "сильный ИИ", как бы то не хотелось его технофобным или всего лишь грамотных в маркетинге создателям), американский писатель и программист предлагает нам поучаствовать в мысленном эксперименте. Сравнить чат-GPT с помянутым выше копировальным аппаратом, который тоже сжимает данные с потерями. Только здесь он старается копировать (подчеркнем этот термин) не просто какой-то текстовый документ, а всю мировую паутину:
"Мне кажется, что этот случай особенно актуален сегодня, когда речь заходит о ChatGPT и подобных программах, известных в кругах исследователей ИИ как большие языковые модели. Конечно, сходство между копировальным аппаратом и большой языковой моделью не сразу может показаться очевидным, но представьте, что вы вот-вот потеряете доступ к интернету навсегда. Вы решаете создать сжатую копию всех текстовых данных в сети, чтобы хранить ее затем на своем локальном сервере. К сожалению, объем вашего сервера лишь 1% от объема всех данных, поэтому вы не можете использовать алгоритмы для сжатия данных без потерь. Вместо этого, вы пишете алгоритм сжатия с потерями — он будет распознавать статистические закономерности в тексте и сохранять их в собственном формате. Добавим неограниченную вычислительную мощность вашего компьютера, так что даже малейшие закономерности в тексте не ускользают от вашего алгоритма, и вам удается достичь необходимого уровня сжатия сто к одному.
Теперь потеря доступа в интернет не кажется столь катастрофичным событием, ведь у вас есть копия всей информации в сети на собственном сервере. Проблема лишь в том, что из–за столь плотного уровня сжатия, вы не сможете искать нужную информацию, пользуясь точными цитатами — вы не найдете совпадений. Для решения проблемы вы создаете интерфейс, принимающий запросы в формате прямых вопросов, и дающий ответы, передающие суть информации, сохраненной на вашем сервере"
И эта странная, на первый взгляд, аналогия оказывается очень рабочей и позволяющей через то самое "размытие" объяснить феномен "бреда" (или "вранья", как говорит уже российский специалист по машинному обучению на стриме канала "Рабкор" — тоже ссылку прикреплю ниже):
"Эта аналогия не только помогает понять каким образом ChatGPT парафразирует информацию, найденную в интернете, но также и объясняет «бред» или нелепые ответы на конкретные вопросы, столь часто наблюдаемые в поведении ChatGPT и прочих больших языковых моделей. Этот бред — это артефакты сжатия, только как и в истории с ксероксом, они настолько «читаемы», что их не распознать без скрупулезного сравнения с оригиналом. Оригинал в нашем случае — либо интернет, либо наши собственные знания о мире. Когда мы рассматриваем такой бред сквозь данную призму, он становится вполне ожидаемым: если при сжатии 99% оригинальной информации было утеряно, закономерно ожидать, что существенные доли реконструкции при декодировании будут полностью сфабрикованы"
Все это — результат интерполяции, процедуры, проделываемой программы для восстановления утерянных данных по аналогию, за счет сравнения с сохранившимися. И пока что чаты-GPT плохо справляются с этими потерями, по замечанию Чана. Именно этим писатель объясняет, почему создатели этих программ пока не смогли взять и, видимо, не претендуют в ближайшее время на становление лауреатами премии "Приз Хаттера" ("...с 2006 года исследователь ИИ Маркус Хаттер вручает денежную награду тому, кто сможет без потери данных сжать конкретный текстовый файл объемом в 1ГБ компактнее, чем предыдущий рекордсмен. Премия известна как Приз Хаттера или Премия за сжатие человеческих знаний"):
"Большие языковые модели распознают статистические закономерности в тексте. Любой анализ текста в сети покажет, что такие фразы как «низкое предложение» часто соседствуют с такими фразами как «повышение цен». Чатбот, уловивший данную корреляцию, способен ответить про повышение цен на вопрос об эффекте недостаточных поставок товаров на прилавки. Если большая языковая модель уловила огромное количество текстовых корреляций между экономическими терминами (причем настолько огромное, что способна правдоподобно отвечать на широкий спектр вопросов), можем ли мы сказать, что она на самом деле понимает экономическую теорию? Модели на подобие ChatGPT не становятся лауреатами Премии Хаттера, среди прочего, потому что не способны в точности воссоздать оригинальный текст — иными словами, они не сжимают данные без потерь. Но может быть их способ сжатия с потерями все–таки показывает на скромные начала в понимании концепций, на которое так рассчитывают исследователи ИИ?"
Далее следуют примеры с арифметикой. И они ярче всего показывают неудачи в области понимания (как бы сказал Серл, семантики), ведь чат-GPT в поисках ответов, например, на пример "245 + 821". В Сети просто-напросто крайне мало идентичных трехзначных сложений, вычетаний и т. д., а, значит, мало соответствующих корреляций. Отчего чатбот показывает всяческое отсутствие математических компетенций из стандартов начальной школы. Но далее (и я приближаюсь к финалу как цитирований из эссе, так и своего эссе об эссе) Чан предлагает представить себе таковой "мыслящий" чат как программу сжатия без потери данных. Может, таковой механизм способен понимать, производить новое и думать? И снова нет:
"Представьте, что было бы если бы ChatGPT была алгоритмом сжатия без потерь? В таком случае, она бы всегда отвечала на вопросы точными цитатами соответствующих страниц в интернете. Нас бы вряд ли сильно впечатлила такая технология — не особо существенное улучшение обычных поисковых движков. То, что ChatGPT парафразирует текст из интернета, а не цитирует его, делает модель похожей на ученицу, способную выражать мысли собственными словами, а не только «зубрить» фразы из учебника. Это создает иллюзию понимания. В человеческом обучении механическое запоминание не является показателем понимания, поэтому неспособность ChatGPT цитировать информацию из источников — это именно то, что создает впечатление ее обучаемости. Когда речь идет о последовательности слов, сжатие с потерями впечатляет больше, чем сжатие без потерь"
Идем к завершению пересказа и, наконец-то, к сравнению. В заключении американский писатель отмечает, что, вполне возможно, чуть позднее чатботы смогут — при некоторых "но" — заменить поисковики. Феномен "размытия" так вообще может сослужить полезную службу т. н. "контент-фермам". Но такая виртуальная машинерия вряд ли сможет помочь в работе писателя. Если мы говорим просто о контенте (уж простите за намек о дихотомии, при которой есть "высокое" и "большая литература"), то его умножение методом чатботов может привести к "искривлению" Интернета и осложнению поиска информации в нем для пользователей ("Расцвет такого типа пересказа контента усложняет поиск нужных данных уже сегодня — чем больше текста, сгенерированного большими языковыми моделями, будет публиковаться в сети, тем больше интернет станет походить на все более и более размытую версию самого себя"). Но все равно — может, чатбот хотя бы позволит "настругать" некий шаблон, материал для облегчения "технических" задач писателя и любого другого создателя самого различного текста? Но ведь именно через движение через ошибки, через писание неудачных, вторичных и пошлых вещей, выбрасывание их не в стол, а в окно, и получается действительно сильная вещь. Только так и не иначе ("Если вы писатель, вы напишете множество вторичных вещей прежде, чем удастся написать что-нибудь оригинальное. При этом, время и усилия, вложенные во вторичные тексты никоим образом не тратятся зря — напротив, именно они и позволяют вам в итоге создать нечто неповторимое. Мучительный выбор верного слова и бесконечная перестановка предложений в инстинктивном поиске наиболее приятного течения текста — этим и познается проза").
Но это я все к чему? Как по мне, Тед Чан (наверняка зная, как мне кажется, об аргументе "китайской комнаты") оформляет второе издание, так сказать, дополненное, исправленное и сжатое — без потери данных! — "китайской комнаты" Джона Серла. Я говорю именно об отдельно взятом мысленном эксперименте из статьи "Сознание, мозг и программы", без привлечения работ философа по его собственной теории сознания, социальных институтах и устройства языка. Ведь, так скажем, негативная программа (проект) Серла, его скептические и критические нападки на современные проекты, громогласно заявляющие о создании чего-то близкого к "сильному ИИ", т. е. сознающему и разумному искусственному существу, до сих пор актуальна хотя бы своим запалом.
Я не стану цитировать Серла — и так превысил объемы для быстрого чтения. Просто скажу, что у обоих авторов совпадают не только цели текстов (у Чана, кстати: "Учитывая, что большие языковые модели как ChatGPT зачастую превозносятся чуть ли не как прорыв в сфере искусственного интеллекта, может показаться пренебрежительным или уничижительным описывать их как алгоритмы сжатия текста с потерями. Я на самом деле считаю, что рассматривать большие языковые модели в данной перспективе полезно для усмирения тенденции их очеловечивания"), но и средства. И Чан, и Серл прибегают к мысленному эксперименту для сокрушения спеси проектировщиков якобы "сильных ИИ". Оба различают синтаксическое и семантическое, т. е. то, что кандидаты в разумные машины не обладают пониманием, а просто оперируют рядом формальных правил (Джон Серл в указанной статье четко проводит это различение — между синтаксисом и семантикой языка — для ликвидации лишь поверхностной адекватности метафоры человеческого сознания как компьютерной программы). А из последних напрямую не проистекает, не создается и не формируется понимание, т. е. человеческий разум, настоящее сознание и ментальные состояния с убеждениями и прочим человеческим, слишком человеческим. Притом и писатель, и философ не считают, что "сильный ИИ" принципиально невозможен. И критикуемые философом программы, и писателем нейросети если и проходят тесты Тьюринга, то только потому, что это неудовлетворительный тест на определение у собеседника ментальных состояний и разумности. Т. е. (выше я говорил запомнить момент с термином "копировать") копирование (имитация) работы сознания современными машинами происходит с такой потерей содержания и качества процесса, что дубликат не идет ни в какое сравнение с оригиналом. Серл настаивает на смещении внимания с "софта" на "хард", а Чан скорее говорит о том, что стоит затянуть пояса скорых и завышенных ожиданий. В любом случае, при всех прочих равных, фантаст-программист справляется с созданием четкого, понятного, приятного для чтения и вместе с тем сильного с аргументационной точки зрения текста с критикой реализации в настоящее время "сильного ИИ" лучше, чем философ-лингвист-когнитивист. При всей моей симпатии как к фигуре Серла, так и к этой его статье и другим произведениям. Притом "подкопаться" к эссеистскому эксперименту Чана сложнее, чем к мысленному эксперименту Джона Серла. Как ни крути, при всей изящности "китайской комнаты", в самой ее основе есть родовая травма, слабое место: вопрос "который сейчас час?" и иже с ними. Да, можно вводить модификации "...комнаты" для преодоления набегов секты "ИИ здесь-и-сейчас", но чем статья Чана — не такая идеальная, преодолевшая слабости прародителя, версия критики от Серла? Это тот из немногих случаев, когда ремейк лучше оригинала.
Примечания:
2. Перевод статьи Теда Чана №1
3. Нейросети учатся врать? (Сергей Марков, Борис Кагарлицкий)
5. Джон Серл. Сознание, мозг и программы
6. Создатель ChatGPT "опасается своего творения"
7. Истина это здравый смысл, а не наоборот (интервью с Джоном Серлом)
8. Наверное, даже более верное сравнение аналогии Чана не с "китайской комнатой" Серла, а с "китайской нацией" Блока (которого и Серл упоминает, кстати), как заметил при обсуждении эссе фантаста FixedGrin.
9. Это сотая, юбилейная публикация в моей колонке. Спасибо всем тем, кто читает мое многословие и многобуковие!