1. Utangulizi
Sheria za upimaji za Miundo Mikubwa ya Lugha (LLMs) kihistoria zililenga vigezo vya mfano na ukubwa wa data ya mafunzo, na kwa kiasi kikubwa kupuuza ukubwa wa msamiati kama mwelekeo muhimu wa upimaji. Karatasi hii inachunguza athari ya ukubwa wa msamiati kwenye utendaji wa LLM na kupendekeza njia za kubainisha ukubwa bora wa msamiati kwa bajeti fulani za mafunzo.
Utafiti unaonyesha kuwa LLMs za sasa kama Llama2-70B hutumia ukubwa wa msamiati usio bora (32K dhidi ya bora iliyotabiriwa ya 216K), ikionyesha mapungufu makubwa ya ufanisi katika mazoea ya sasa.
Masafa ya Mfano
33M - 3B
Vigezo Vilivyofunzwa
Data ya Mafunzo
500B
Herufi Zilizosindika
Tofauti ya Msamiati
7x
Kupunguzwa kwa Kadiri kwa Llama2-70B
2. Njia ya Utafiti
2.1 Uundaji wa Hasara Iliyosanifiwa
Ili kuhakikisha kulinganishwa kwa haki kati ya miundo yenye ukubwa tofauti wa msamiati, waandishi wanaanzisha utendakazi wa hasara uliosanifiwa unaozingatia tofauti za ufanisi wa kitokensi. Usanifishaji huu unazuia miundo yenye msamiati mkubwa kuwa na faida bandia katika vipimo vya hasara.
2.2 Njia Tatu za Utabiri
Karatasi hii inapendekeza njia tatu zinazosaidiana za kutabiri ukubwa bora wa msamiati:
2.2.1 Uchambuzi wa IsoFLOPs
Kufunza miundo kwa bajeti sawa za hesabu lakini ukubwa tofauti wa msamiati ili kutambua sehemu ya chini kabisa ya hasara kwa kila kiwango cha bajeti.
2.2.2 Makadirio ya Kinyago
Kutumia njia zinazotegemea kinyago kupata mahali ambapo kinyago cha utendakazi wa hasara kuhusiana na ukubwa wa msamiati ni sawa na sifuri, ikionyesha sehemu bora.
2.2.3 Ulinganisho wa Parameta
Kulinganisha uhusiano wa sheria ya nguvu kati ya vigezo vya mfano, ukubwa wa msamiati, na hasara ili kupata fomula za utabiri.
3. Matokeo ya Majaribio
3.1 Usanidi wa Mafunzo ya Mfano
Miundo kutoka vigezo 33M hadi 3B ilifunzwa kwa hadi herufi 500B na usanidi mbalimbali wa msamiati. Mafunzo yalichukua bajeti tofauti za FLOPs ili kuanzisha uhusiano kamili wa upimaji.
3.2 Ugunduzi wa Msamiati Bora
Utafiti unaonyesha uhusiano wa sheria ya nguvu: $N_v^{opt} \propto N_{nv}^\gamma$ ambapo $\gamma < 1$, ikionyesha kuwa vigezo bora vya msamiati vinapaswa kupimwa polepole kuliko vigezo visivyo vya msamiati. Hii inapingana na mazoea ya kawaida ya kutumia ukubwa wa msamiati uliowekwa kwenye viwango vyote vya mfano.
Kielelezo 1: Uhusiano wa Upimaji wa Msamiati
Uonyeshaji wa kuona unaonyesha matokeo ya majaribio yanayolingana na utabiri wa kinadharia, na miduara mikubwa ikionyesha maadili makubwa ya hasara. Grafu inaonyesha ukubwa bora wa msamiati kwa viwango tofauti vya mfano, na kuunda mkunjo wazi wa sheria ya nguvu.
3.3 Uthibitishaji wa Utendaji wa Mwisho
Uthibitishaji wa majaribio na miundo ya vigezo 3B unaonyesha uboreshaji thabiti wakati wa kutumia ukubwa bora wa msamiati uliotabiriwa. Kwenye ARC-Challenge, kuongeza msamiati kutoka 32K hadi 43K kuliboresha utendaji kutoka 29.1 hadi 32.0 kwa bajeti sawa ya FLOPs 2.3e21.
Uelewa Muhimu
- Ukubwa wa msamiati unaathiri sana ufanisi wa upimaji wa LLM
- Msamiati bora hupimwa kwa bajeti ya hesabu na ukubwa wa mfano
- LLMs za sasa kwa ujumla hutumia ukubwa wa msamiati usio bora
- Kuzingatia pamoja kitokensi na upimaji wa mfano ni muhimu
4. Uchambuzi wa Kiufundi & Mfumo
4.1 Uundaji wa Kihisabati
Uhusiano mkuu wa kihisabati uliogunduliwa unaonyeshwa kama:
$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$
Ambapo $L$ ni hasara iliyosanifiwa, $N_{nv}$ ni vigezo visivyo vya msamiati, $N_v$ ni vigezo vya msamiati, $D$ ni ukubwa wa data ya mafunzo, na $E, A, B, C, \alpha, \beta, \gamma$ ni viwango vilivyolinganishwa.
Ukubwa bora wa msamiati unakidhi: $\frac{\partial L}{\partial N_v} = 0$
4.2 Mfano wa Mfumo wa Uchambuzi
Kisomo cha Kesi: Kubainisha Msamiati Bora kwa Mfano wa Vigezo 10B
Imetolewa: Bajeti ya mafunzo = 1e23 FLOPs, Lengo la kikoa = uelewa wa lugha ya jumla
Utumiaji wa Mfumo:
- Kadiria vigezo visivyo vya msamiati: $N_{nv} = 9.5\text{B}$ (95% ya jumla)
- Tumia sheria ya nguvu: $N_v^{opt} \propto N_{nv}^{0.7}$ (kutoka kwa ulinganisho wa majaribio)
- Hesabu: $N_v^{opt} \approx 150\text{K}$ vitokensi
- Thibitisha kwa uchambuzi wa IsoFLOPs kwa bajeti iliyotolewa
- Rekebisha kwa usambazaji wa kitokensi maalum wa kikoa
Mfumo huu unatoa njia ya kimfumo ya kupima ukubwa wa msamiati ambayo waundaji wa miundo ya sasa mara nyingi huuacha.
5. Mtazamo wa Mchambuzi wa Sekta
5.1 Uelewa Mkuu
Sekta imekuwa ikiongozwa vibaya kimsingi katika kuchukulia ukubwa wa msamiati kama kigezo cha juu kisichobadilika. Karatasi hii inafunua pengo muhimu la ufahamu: tumekuwa tukiboresha LLMs kwa mkono mmoja umefungwa nyuma. Ugunduzi kwamba msamiati wa Llama2-70B unapaswa kuwa mkubwa mara 7 sio tu udadisi wa kitaaluma—unawakilisha mabilioni ya dola ya hesabu zilizopotea na utendaji duni wa mfano katika mfumo mzima wa AI. Upuuuzi huu unakumbusha utafiti wa awali wa mtandao wa neva ambao ulipunguza umuhimu wa vitendakazi vya uanzishaji, kama ilivyorekodiwa katika kazi muhimu ya Glorot na Bengio (2010) juu ya kuelewa ugumu wa kufunza mitandao ya kina ya neva ya mbele.
5.2 Mtiririko wa Mantiki
Hoja ya karatasi inaendelea kwa usahihi wa upasuaji: Kwanza, wanaanzisha kwamba msamiati ni muhimu (kinyume na dhana za kawaida za sheria za upimaji). Pili, wanaonyesha kuwa ni muhimu kwa njia ya kimfumo kupitia sheria za nguvu. Tatu, wanatoa zana za vitendo za uboreshaji. Mnyororo wa mantiki hauna mapungufu—kutoka utambuzi wa tatizo kupitia uvumbuzi wa njia hadi uthibitishaji wa majaribio. Hivi ndivyo utafiti mkali unapaswa kufanywa, tofauti na mwelekeo wa kuchapisha uboreshaji wa nyongeza bila uelewa wa msingi.
5.3 Nguvu na Mapungufu
Nguvu: Njia ya njia tatu (IsoFLOPs, vinyago, ulinganisho wa parameta) inatoa uthibitishaji thabiti. Kiwango cha majaribio (vigezo 33M hadi 3B) kinavutia na kinashawishi. Matokeo ya vitendo yanaweza kutekelezwa mara moja kwa shirika lolote linalofunza LLMs.
Mapungufu: Utafiti unalenga hasa maandishi ya Kiingereza—matokeo ya lugha nyingi bado hayajachunguzwa. Gharama ya hesabu ya njia yao inaweza kuwa ghali sana kwa vikundi vidogo vya utafiti. Hawashughulikii jinsi uboreshaji wa msamiati unavyoshirikiana na chaguzi zingine za usanifu kama mbinu za umakini, eneo ambalo karatasi ya usanifu wa Transformer (Vaswani et al., 2017) ilianzisha kanuni za msingi ambazo bado zinatawala sekta hii.
5.4 Uelewa Unaoweza Kutekelezwa
Kila maabara ya AI inayofunza LLMs inapaswa mara moja: 1) Kutathmini upya mkakati wao wa kupima msamiati, 2) Kutekeleza uchambuzi wa IsoFLOPs kwa miradi ya sasa, 3) Kuchukulia ukubwa wa msamiati kama mwelekeo wa kwanza wa upimaji pamoja na vigezo na data. Kwa kampuni za vifaa kama NVIDIA na AMD, utafiti huu unapendekeza fursa mpya za uboreshaji katika usanifu wa kumbukumbu kwa meza kubwa za uingizaji. Tofauti ya msamiati ya mara 7 kwa Llama2-70B inamaanisha kuwa vifaa vya sasa havilingani kimsingi na usanidi bora wa mfano.
6. Matumizi ya Baadaye & Mwelekeo
Matumizi ya Mara Moja:
- Kubuni upya mikakati ya msamiati kwa LLMs za kizazi kijacho (GPT-5, Gemini 2.0, n.k.)
- Uboreshaji wa vifaa kwa meza kubwa za uingizaji
- Ufanisi ulioboreshwa katika utoaji na utambuzi wa mfano
Mwelekeo wa Utafiti:
- Uboreshaji wa msamiati wa lugha nyingi katika lugha mbalimbali
- Kupima ukubwa wa msamiati wakati wa mafunzo
- Ujumuishaji na usanifu wa mchanganyiko wa wataalamu
- Uboreshaji wa msamiati kwa miundo maalum ya kikoa
- Kuzingatia msamiati wa njia nyingi kwa miundo ya hali nyingi
Kanuni zilizoanzishwa katika kazi hii zinaweza kupanuliwa zaidi ya miundo ya lugha hadi miundo mingine ya mfuatano katika bioinformatics, uzalishaji wa msimbo, na uchambuzi wa mfululizo wa wakati, sawa na jinsi kanuni za mtandao wa neva wa kijamii kutoka kwa maono ya kompyuta (kama katika karatasi ya AlexNet ya Krizhevsky et al., 2012) zilivyohamishiwa kwenye maeneo mengine.
7. Marejeo
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
- Brown, T., et al. (2020). Language Models are Few-Shot Learners.
- Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
- Vaswani, A., et al. (2017). Attention Is All You Need.
- Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
- Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
- Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.