Популярность больших языковых моделей предоставила возможность использовать Ай, как эффективную, так и творческую, с большими языковыми моделями, которые привели к беспрецедентному показанию, которое вскоре стало убийственным продуктом для крупных интернет-компаний или приложений. Однако в некоторых применениях, которые требуют более высокой актуальности, таких как услуги обслуживания клиентов и анализ данных в реальном времени, крупные языковые модели не имеют большого преимущества. Спрос на оборудование и так уже сталкивается с большими трудностями при использовании триллионов параметров LLM. Таким образом, перед лицом относительно простых задач, небольшие языковые модели (SLM) являются более подходящими. В частности, локальная модель AI, поддерживаемая микрочипом ии с ограниченной мощностью на конце, вместо того, чтобы побуждать аппаратное обеспечение к более масштабной модели, небольшие языковые модели лучше подходят для выполнения максимальных функций, а не для того, чтобы побуждать аппаратное обеспечение к более широкой поддержке. В 2023 году microsoft Phi выпустила небольшую языковую модель Phi-1, основанную на архитектуре Transformer, которая имеет только 1,3 миллиарда параметров и сосредоточена главным образом на базовом программировании Python, реализующем текстовый трансфер-код. Вся модель была построена всего за 8 блоков A100 GPU, что заняло четыре дня на подготовку. Это также в полной мере свидетельствует о гибкости малых языковых моделей, которые могли бы создать подходящие модели для каждой конкретной задачи, в то время как ЛЛМ, как правило, требует сотни, тысячи блоков GPU и десятки, а то и сотни дней на подготовку модели. На днях microsoft полностью обновила модель Phi и выпустила три версии Phi-3-mini, Phi-3-small и Phi-3-medium. Среди них Phi3-mini — небольшая языковая модель с 8 миллиардами параметров, синхронно представленная Phi-3-small и Phi-3-medium соответственно 7 миллиардами и 14 миллиардами параметров. Phi-3-mini обладает версиями, поддерживаемыми 4K и 128K в двух контекст в этом масштабе, первой версией, поддерживаемой до 125 км в контекст, а microsoft утверждает, что ее производительность составляет более чем несколько миллиардов параметров. Тестируя iPhone 14 с чипом A16, Phi-3-mini может достичь скорости 12 токена в секунду, когда чистый конец устройства отключен. После успеха модели Gemini, основанной на фреймвоке Gemini, google также разработала соответствующую легкую языкообразную модель джеммы, основанную на gemini. Джемма разделена на 2 миллиарда параметров и 7 миллиардов параметров, из которых 2 миллиарда могут работать на мобильных устройствах и ноутбуках, в то время как версия 7 миллиардов параметров может быть расширено до небольших серверов. Несмотря на то, что ресурсы не занимают много времени, джемма по-прежнему может сравниться с более крупными моделями в различных базовых тестах, например, с 13 миллиардами параметров Llama-2. Кроме того, google предоставляет не только пренатальную версию джеммы, но и поддержку настройки модели с помощью дополнительной подготовки для улучшения поведения модели джеммы, повышения ее эффективности в конкретных задачах, таких как обучение с помощью взаимодействия на человеческом языке, повышение производительности входных входных данных в чатах и т.д. Джемма, сравнивая производительность Llama-2 / google, естественно, не сравнится с требованиями старшего брата гемини, но google сотрудничает с nvidia, чтобы оптимизировать GPU от дата-центра до облаков и до компьютера RTX-AI, что позволяет не только иметь обширную совместимость между собой, Также гарантируют двойное преимущество как в расширении, так и в производительности. Написанное в последнем появлении небольших лингвистических моделей дало новые возможности для промышленности, особенно в тот момент, когда большинство крупных моделей продолжают сжигать деньги, в то время как маленькие языковые модели ускоряют падение, предлагая менее затратные решения для обучения. Однако в то же время недостатки малых языковых моделей остаются неизменными, например, их размер обречен на то, что они не смогут сохранить достаточно «фактов», а во-вторых, такие малые языковые модели вряд ли смогут обеспечить многоязычную поддержку. Но мы должны признать существование маленьких языковых моделей не для того, чтобы заменить большие, а для того, чтобы предложить более гибкую модель.

XVME-244

XVME-244