Сотрудники Apple разработали новый метод для тренировки больших языковых моделей, который с лёгкостью интегрирует и текстовую, и визуальную информацию.
Модель под названием «MM1» использует новый подход к созданию более продвинутых и гибких систем ИИ. Используя разнообразные данные, состоящие из текста и изображений, модель MM1 задала новый стандарт в выполнении таких задач, как придумывание подписей к изображениям, ответы на визуальные вопросы и естественные языковые взаимодействия с высоким уровнем точности.
Исследование Apple сфокусировано на объединении разных типов данных и разных архитектур моделей. Это позволяет ИИ понимать и генерировать язык на основе смеси визуальных и лингвистических подсказок. Такие способности необходимы для задач, которые требуют тонкого понимания мира. К примеру, интерпретирование сложных изображений или ответы на вопросы, включающие визуальные элементы.
Apple также подчеркивает исключительные способности модели MM1 к контекстному обучению, особенно в самой большой конфигурации модели, состоящей из 30 миллиардов параметров. Эта версия демонстрирует возможности многоэтапного рассуждения над несколькими изображениями с использованием подсказок «цепочки мыслей» из нескольких шагов — метода, который позволяет ИИ решать сложные задачи на основе минимальных примеров.
Исследование ещё раз доказывает повышенный интерес Apple в возможностях ИИ. Ранее журналист Bloomberg Марк Гурман писал, что Apple ведёт переговоры с Google об использовании моделей Google Gemini для новых функций iOS 18.