Google Cloud представляет модель Gemini 3.2 Flash Lite с затратами на инференс на 95% ниже, чем у GPT-5.5

Согласно мониторингу Beating.AI, в списке выбора моделей Google Cloud по состоянию на 17 мая появилась новая опция модели под названием gemini-3.2-flash-lite-live-preview. Суффиксы «lite» и «live» указывают на то, что Google создает специализированную версию, оптимизированную для сверхнизкой задержки при интерактивных взаимодействиях в реальном времени.

Ранее генеральный директор Abacus.AI Бинду Редди сообщила, что Gemini 3.2 Flash обеспечивает 92% возможностей кодирования и рассуждений GPT-5.5, при этом затраты на инференс составляют лишь 1/20 от затрат GPT-5.5, а большинство запросов возвращают ответы менее чем за 200 миллисекунд. Ожидается, что этот ориентированный на снижение издержек облегчённый модель будет официально представлен на Google I/O 20 мая.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев