Большие языковые модели (LLM): что это такое и как они работают?
Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет). Данная статья является переводом. Ссылка на оригинал. В начале 17 века математик и астроном по имени Эдмунд Гантер столкнулся с исключительной астрономической задачей. Вычисление движения планет и предсказание затмений требовали больше чем просто интуиции — были необходимы знания сложных логарифмических и тригонометрических уравнений. Поэтому, как и любой другой опытный изобретатель, Гантер решил построить их с нуля! Он создал аналоговое вычислительное устройство, которое впоследствии стало известно как логарифмическая линейка. Будучи прямоугольным деревянным блоком длиной в 30 сантиметров, логарифмическая линейка состоит из двух частей: фиксированной рамы и подвижной части. На раме есть неподвижные логарифмические шкалы и подвижная шкала. Чтобы использовать такую линейку, нужно понимать базовые принципы логарифмов и как сопоставить шкалы для умножения, деления и других математических операций. Надо было сдвинуть подвижную часть для сопоставления чисел, прочесть результат и учесть расположение десятичной точки. Логарифмическая линейка Примерно через 300 лет, в 1961 году, Bell Punch Company представила первый настольный калькулятор, ANITA Mk VII. В течение следующей пары десятилетий электронные калькуляторы стали более сложными. Задачи, ранее требовавшие длинных вычислений, претерпели заметное снижение необходимого на их выполнение рабочего времени, что позволило работникам сфокусироваться на более аналитических и креативных аспектах их работы. В результате современный электронный калькулятор не только изменил рабочие роли, но также проложил дорогу для больших возможностей решения различных задач. Подумайте о том, как вы составляете предложения. Для начала необходима идея. Затем надо знать какие-то слова (словарный запас). Потом стоит уметь соединять их в правильные предложения (грамматика). Мы довольно последовательно производили слова 50 000 лет назад, как раз, когда современный человек впервые придумал язык. Если задуматься, использование подходящих лексикона и грамматики — это просто следование правилам. Правилам языка. Это похоже на математику. Она полна правил. Вот почему я могу быть уверен в том, что 1+1=2, и в том, как работают калькуляторы! Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а» Интересно, перейти к каналу Да, разные языки следуют разным правилам, но эти правила должны выполняться, чтобы языки были понятны. Очевидная разница между языками и математикой состоит в том, что в математике есть однозначные ответы, в то время как количество подходящих слов, которые можно вставить в предложение, может быть огромным. Попробуйте закончить предложение: Я съел _________. Представьте возможные слова, которыми можно его продолжить. В английском примерно 1 миллион слов. Многие из них можно использовать здесь, но точно не все. Ответ «чёрную дыру» будет эквивалентом заявления, что 2+2=5. Ответ «яблока» также будет неверным. Почему? Из-за грамматики! В последние месяцы Большие Языковые Модели (LLM) захватили мир. Некоторые называют их прорывом в обработке естественного языка, а другие видят в них начало новой эры искусственного интеллекта (ИИ). LLM оказались особенно хороши в образовании текста похожего на человеческий, поднимая планку для языковых приложений с ИИ. С учётом широкой базы знаний и контекстуального понимания LLM можно применять в различных сферах начиная от переводов и генерации контента и заканчивая виртуальными помощниками и чатботами поддержки клиентов. Статья по теме 💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 1 Прежде чем ответить на это, разберём, как работают LLM. Они основаны на трансформерах, которые используются для вычисления и определения, какие слова лучше всего подойдут предложению. Чтобы построить мощную нейронную сеть-трансформер, необходимо обучить её на огромном количестве текстовых данных. Вот почему подход «предположить следующее слово/токен» так хорошо работает: обучающие данные легко достать. На вход LLM берёт всю цепочку слов и определяет, какое слово с наибольшей вероятностью будет дальше. Чтобы изучить, что скорее всего будет дальше, LLM прочёсывают всю Википедию в качестве разминки, прежде чем перейти на книги, а потом и весь интернет. Ранее мы установили, что язык содержит правила и паттерны. Модель косвенно учит эти правила, перебирая все эти предложения, чтобы спрогнозировать следующее слово. Глубинная нейронная сеть После существительного во множественном числе с большой вероятностью последует глагол с окончанием «и». В том же духе, при чтении Шекспира повышаются шансы увидеть слова по типу «дабы» и «посему». Во время обучения модель учит эти языковые паттерны, постепенно становясь экспертом! Язык запутан — одно слово принимает множество значений в зависимости от контекста. Поэтому — механизм самовнимания. Простыми словами, самовнимание — это техника, которая используется LLM для понимания закономерностей между различными словами в предложении или тексте. Как мы обращаем внимание на разные части истории, чтобы понять её, так и самовнимание позволяет LLM придать большее значение определённым словам в процессе обработки информации. Так модель лучше понимает общий смысл и контекст текста, а не вслепую предугадывает слово на основании лишь языковых правил. Механизм самопонимания Когда вы просите Большую Языковую Модель сделать что-то умное, и она работает, то высока вероятность того, что она уже видела тысячи примеров выполнения этого задания. И даже если вы придумаете что-либо уникальное, например: Amidst the waves, a sight unseen, An orca hunts, swift and keen, In ocean’s realm, the dance begins, As a chicken’s fate, the orca wins. With mighty jaws, it strikes the prey, Feathers float, adrift away, In nature’s way, a tale is spun, Where life and death become as one. ChatGPT Довольно неплохо, да? Благодаря своему механизму самовнимания, модель может успешно смешать и сопоставить подходящую информацию, чтобы создать правдоподобный и связный ответ. Во время процесса обучения LLM учатся распознавать паттерны, ассоциации и отношения между словами и фразами. В результате этого экстенсивного обучения и регуляции LLM могут показывать эмердживные свойства, такие как умение переводить тексты, реферировать, отвечать на вопросы и даже практиковать креативное письмо. Эти умения выходят за рамки того, что было явно запрограммировано в модель. Электронный калькулятор существует уже более шести десятилетий. Сам инструмент развивался семимильными шагами, но никогда не считался разумным. Почему? Тест Тьюринга Тест Тьюринга — это обманчиво простой метод определения, проявляет ли машина интеллект, как у человека: если машина может вступить в диалог с человеком и быть от него неотличимым, предполагается, что она обладает человеческим разумом. Калькулятор никогда не подвергался тесту Тьюринга, потому что он общается не тем же языком, что и люди, а только языком математики. С другой стороны, LLM генерируют человеческий язык. Весь их процесс обучения завязан на подражании ему. Поэтому не удивительно, что они могут «вступить в диалог с человеком и быть от него неотличимыми». Сложно сказать, что LLM «разумны», потому что нет точной договорённости о значении разума. Определить, разумно ли что-либо, можно по тому, делает ли это что-то интересные, полезные и не очень очевидные вещи. LLM входят в эту категорию. Тем не менее я полностью несогласен с этой точкой зрения. На момент написания данной статьи машина, обученная определять следующие токены/слова, всё ещё не способна расширить эти границы. Что она может, так это интерполировать на основе тренировочных данных. Нет явного понимания логики, как нет и дерева знаний. Как следствие, такая машина никогда не сможет придумать выдающиеся идеи или испытать момент прозрения. Она всегда будет давать точные, но довольно обычные ответы. Мы должны относиться к LLM скорее как к калькулятору для слов. Никогда не делегируйте всё своё мышление языковой модели. В то же время, так как эти модели становятся всё лучше, можно начать чувствовать себя всё более подавленными и незначительными. Решением такой проблемы является постоянный интерес к идеям по виду не связанным между собой. Идеям, которые на первый взгляд кажутся бессвязными, но начинают иметь смысл с учётом нашего взаимодействия с окружающим миром. Надо жить на краю знаний, создавая и сопоставляя новые факты. При таком раскладе все виды технологий, будь то калькулятор или большая языковая модель, станут инструментами, а не экзистенциальной угрозой. Калькулятор стал прорывом в выполнении математических операций. Что насчёт языка?
Справедливо будет сказать, что когда речь идёт о формировании предложений, мы всё ещё находимся в Гюнтеровской эре использования логарифмической линейки!
Что нам нужно, так это калькулятор, но для слов!
Вопрос: настал ли такой же переломный момент с LLM, какой был в 1960-х с электронным калькулятором?
Но достаточно ли этого? Достаточно ли изучения языковых правил?
Если LLM — это калькуляторы слов, просто предугадывающие следующее слово, то как они отвечают на все мои вопросы?
«Напиши мне стихотворение о том, как косатка ест курицу»
Большие Языковые Модели разумны?
Я определяю разумность как способность расширить границы знаний.
Так что это значит для людей?
- 0 views
- 0 Comment