劃重點
01國內(nèi)首個UI大模型Motiff妙多通過高質(zhì)量專業(yè)數(shù)據(jù)和個性化模型架構,實現(xiàn)了效果和能力上的超越。
02為此,Motiff妙多通過提高知識密度、生成合成數(shù)據(jù),構建了一批優(yōu)質(zhì)UI數(shù)據(jù),并個性化調(diào)整模型架構。
03與此同時,Motiff妙多采用切圖策略,保持長寬比和精準定位,提升模型在UI領域的表現(xiàn)。
04基于自研大模型,Motiff妙多開創(chuàng)了AI復制、AI設計系統(tǒng)等功能,使AI生成UI功能迅速躋身行業(yè)前列。
05未來,Motiff妙多將繼續(xù)迭代大模型技術,為設計師提供更高效、更智能的設計工具,推動UI設計行業(yè)變革。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
隨著大模型加速應用落地,提高模型訓練效率成為更受關注的議題。在10 月 18 日召開的 2024 QCon 大會上,Motiff 妙多 AI 負責人趙薇分享了國內(nèi)首個 UI 大模型的開發(fā)經(jīng)歷。趙薇介紹,相比于常見的“大力出奇跡”做法,Motiff 妙多選擇了“四兩撥千斤”。憑借高質(zhì)量的專業(yè)數(shù)據(jù)和個性化的模型架構,Motiff 妙多大模型在效果和能力上超越了 GPT-4o 和蘋果的 Ferret UI,并追平了訓練數(shù)據(jù)多 40 倍的 Google ScreenAI 大模型。
(Motiff 妙多 AI 負責人趙薇 QCon 演講現(xiàn)場)
Motiff 妙多大模型在數(shù)據(jù)、模型架構和訓練方法上進行了多次創(chuàng)新。UI 領域的訓練數(shù)據(jù)比通用領域少一個量級,Motiff 妙多通過提高知識密度、生成合成數(shù)據(jù),構建了一批優(yōu)質(zhì) UI 數(shù)據(jù),并根據(jù) UI 領域需求個性化調(diào)整模型架構。這些調(diào)整使得 Motiff 妙多大模型適配 UI 領域特點,具備“支持輸入高清”、“保持圖片長寬比”和“精準定位”三大優(yōu)勢。
“基于自研大模型,我們能以較低成本快速孵化 AI 應用。”趙薇表示,自研大模型加持下,Motiff 妙多開創(chuàng)了 AI 復制、 AI 設計系統(tǒng)等功能,AI 生成 UI 功能也迅速躋身行業(yè)前列。Motiff 妙多大模型不失為一個典型的樣本:當通用大模型在專業(yè)領域“失靈”時,AI 應用企業(yè)如何通過自研領域大模型助力應用創(chuàng)新?
大模型對齊訓練“少即是多”,數(shù)據(jù)質(zhì)量是關鍵當前,通用大模型在處理復雜任務和理解多種數(shù)據(jù)方面表現(xiàn)出色,但在特定領域依然存在明顯的局限性。例如,GPT-4 在 UI 領域錯誤率超過 70%,理解和生成用戶界面表現(xiàn)不佳。作為 AI 時代設計工具,Motiff 妙多需要構建一個“UI知識體系完整”和“UI技能豐富”的專業(yè)大模型。
構建大模型的首要問題是數(shù)據(jù)。為克服UI 領域高質(zhì)量圖片數(shù)據(jù)量較孝數(shù)據(jù)任務不夠豐富的挑戰(zhàn),Motiff 妙多通過增加知識密度和加入基于專家模型生成的合成數(shù)據(jù),構建了一批高質(zhì)量、具有專業(yè)知識的 UI 數(shù)據(jù)。
“數(shù)據(jù)量少并不是問題,高密度才是關鍵。”趙薇表示,在領域遷移中,不用海量的 UI 領域對齊數(shù)據(jù),依然可以實現(xiàn)有效對齊。
如何提高信息密度?Motiff 妙多對 UI 數(shù)據(jù)進行了多維度的內(nèi)容分析和層次結構描述。對每張UI圖片,Motiff 妙多從布局、組件、功能、視覺效果和設計風格等多維度深入分析,并增加了 UI 特有的結構和定位知識。在隨機采樣的 1 萬條數(shù)據(jù)中,每張圖片的描述 token 數(shù)量從 20 增長到 628,信息密度提升了 30.4 倍。
在生成合成數(shù)據(jù)過程中,Motiff 妙多引入了多個專家模型,將大量的專家知識提煉到合成數(shù)據(jù)中。以圖標描述數(shù)據(jù)的合成為例,在整合人類專家知識后,Motiff 妙多的數(shù)據(jù)更加細粒度且情境相關。比如,針對“愛心”圖標,Google 的 ScreenAI 大模型只能描述圖標類別,而 Motiff 妙多大模型能夠生成具體的功能描述,如“收藏按鈕”。
(通過長期積累的專家模型,為合成數(shù)據(jù)注入大量專業(yè)知識)
豐富多樣、接近真實世界的數(shù)據(jù)使得訓練出的模型具備解決復雜問題的能力。在五個行業(yè)公認的 UI 能力基準測試集中,Motiff 妙多大模型的各項指標均超過了 GPT-4o 和蘋果的 Ferret UI,多項指標追平谷歌的 ScreenAI ,并在 Screen2Words(界面描述與推斷)和 Widget Captioning(部件描述)兩大指標上超越了 ScreenAI 。要知道,ScreenAI 在訓練時用了近 4 億條訓練數(shù)據(jù),相比之下,Motiff 妙多大模型所用的訓練數(shù)據(jù)不到其 2%。
強化領域模型優(yōu)勢,快速孵化 AI 功能在完成數(shù)據(jù)收集與構建后,便進入模型基座與訓練階段。多模態(tài)大模型在近年來快速發(fā)展,但大多缺乏對 UI 領域的特殊適配。趙薇指出,通用模型在 UI 領域容易出現(xiàn)文字識別幻覺和定位偏移,這讓Motiff 妙多團隊更加重視視覺編碼器和位置感知訓練。
通用視覺編碼器在處理高分辨率和復雜布局時有明顯的缺陷,容易導致信息丟失。因此,Motiff 妙多采用切圖策略,將高清圖片切成多張小圖送入模型,確保信息完整并提升細節(jié)敏感度。
(Motiff 妙多大模型架構)
Motiff 妙多通過保持長寬比和精準定位,進一步增強模型表現(xiàn)。通用大模型通常忽視了精準定位的能力,而 Motiff 妙多通過補充切割后小圖的位置信息,提升了模型的位置感知。
通過改進模型基座,Motiff 妙多大模型更適配 UI 領域任務,具備 “支持輸入高清”、“保持圖片長寬比”、“精準定位” 三大優(yōu)勢,能更好地理解和處理 UI 設計中的復雜元素。
“基于大模型的 AI 應用有啟動成本低、算法建模簡單、任務更加復雜等特點。”趙薇說。以 Motiff 妙多大模型為底座,團隊迅速開創(chuàng)和升級了 AI 設計系統(tǒng)、AI 生成 UI 等功能。
以Motiff 妙多首創(chuàng)的 AI 設計系統(tǒng)功能為例,該功能能精確定位并理解設計稿中的所有設計組件。對于難以區(qū)分的組件(如button 和 tag),Motiff 妙多大模型都能準確識別,準確率提升至 95% 以上。
趙薇稱,Motiff 妙多計劃在未來持續(xù)迭代大模型技術。實踐證明,AI 在 UI 設計中的應用潛力巨大,Motiff 妙多將致力于 AI 與 UI 設計的深度融合,為設計師提供更高效、更智能的設計工具,推動 UI 設計行業(yè)變革。