भाषा अधिग्रहण के संज्ञानात्मक मॉडल के रूप में तंत्रिका भाषा मॉडल का मूल्यांकन

1 परिचय

यह लेख मानव भाषा अधिग्रहण के सिद्धांतों के प्रतिनिधि के रूप में तंत्रिका भाषा मॉडल के उपयोग की बढ़ती प्रवृत्ति का आलोचनात्मक विश्लेषण करता है। हालांकि भाषा मॉडल विभिन्न प्राकृतिक भाषा प्रसंस्करण कार्यों में उल्लेखनीय सफलता प्राप्त कर चुके हैं, परंतु उनके प्रशिक्षण डेटा के आकार और प्रकृति में बच्चों के भाषा सीखने से मूलभूत अंतर होने के कारण, उनकी संज्ञानात्मक मॉडल के रूप में प्रासंगिकता पर प्रश्नचिह्न लगाया जाता है।

लेखकों का मानना है कि लोकप्रिय वाक्यात्मक मूल्यांकन बेंचमार्क (जैसे BLiMP, SyntaxGym) में संरचनात्मक विविधता और मनोवैज्ञानिक वैधता की कमी हो सकती है, जो भाषा मॉडल के मानव-समान तरीके से भाषा सीखने का आकलन करने के लिए आवश्यक है। वे अधिक कठोर, भाषावैज्ञानिक रूप से सावधानीपूर्वक डिज़ाइन किए गए डेटासेट के उपयोग की वकालत करते हैं, जैसे LI-Adger डेटासेट, जिसमें मूल वक्ताओं के ग्रेडिएंट स्वीकार्यता निर्णय शामिल हैं।

1.1 भाषा अर्जन अनुसंधान के लिए निहितार्थ?

यह खंड डेटा में स्पष्ट अंतर को रेखांकित करता है: BERT जैसे मॉडल अरबों टोकन पर प्रशिक्षित होते हैं, जबकि एक बच्चा प्रति वर्ष केवल लगभग एक करोड़ शब्द ही प्राप्त करता है। हाल के शोध ने इस अंतर को पाटने का प्रयास किया है, मॉडल को मानव-समान पैमाने के बाल-केंद्रित कॉर्पोरा (जैसे 5 मिलियन टोकन) पर प्रशिक्षित करके। मूल प्रश्न यह है कि क्या इस तरह के "कटे-छंटे" इनपुट पर प्रशिक्षित मॉडल व्यवहारात्मक बेंचमार्क पर अच्छा प्रदर्शन कर सकते हैं और इस प्रकार प्रभावी संज्ञानात्मक मॉडल बन सकते हैं।

2 मुख्य अंतर्दृष्टि: बेंचमार्किंग का भ्रम

इस लेख का मुख्य तर्क प्राकृतिक भाषा प्रसंस्करण क्षेत्र में आत्मसंतुष्टता को सीधे चुनौती देता है। BLiMP जैसे टेम्प्लेट-आधारित, कृत्रिम बेंचमार्क पर प्रभावशाली प्रदर्शन ने व्याकरणिक क्षमता का एक भ्रम पैदा किया है। लेखक इसे एक पद्धतिगत मिथ्या के रूप में उजागर करते हैं। जब भाषा मॉडल का LI-Adger डेटासेट पर परीक्षण किया जाता है - जो विशिष्ट वाक्यात्मक सिद्धांतों की जांच के लिए सैद्धांतिक भाषाविदों द्वारा सावधानीपूर्वक निर्मित न्यूनतम विपरीत जोड़ियों का एक सेट है - तो उसका मूल्यांकन मानव निर्णयों से स्पष्ट रूप से भिन्न होता है। यह केवल प्रदर्शन का अंतर नहीं है; यह मूलभूत प्रतिनिधित्वात्मक बेमेलपन का प्रमाण है। भाषा मॉडल सतही सांख्यिकीय पैटर्न सीख रहे होंगे जो संयोग से सरल वाक्यात्मक टेम्प्लेट के साथ मेल खाते हैं, न कि मानव व्याकरण को आधार प्रदान करने वाली अमूर्त, पदानुक्रमित संरचनाओं को।

3 तार्किक ढांचा: डेटा विषमता से पद्धतिगत आलोचना तक

论证过程如外科手术般精确。首先，它确立了语言模型训练与儿童习得之间不可否认的数据规模鸿沟，将“小规模训练”研究框定为必要但不足的纠正措施。其次，它证明即使在这个公平的竞争环境（小数据）下，语言模型的性能也可能被更简单的基线模型匹配，从而质疑其附加的认知价值。逻辑的转折点在于对基准设计的批判：模板化任务缺乏真实语言探究的“结构多样性”。最终的、决定性的证据来自 LI-Adger 测试，其中语言模型的性能与人类语言直觉完全相悖。脉络如下：问题陈述（数据不匹配）-> 尝试的解决方案（小规模训练）-> 揭示更深层问题（有缺陷的评估）-> 结论性的反证。

4 शक्तियाँ और सीमाएँ: आलोचनात्मक विश्लेषण

शक्तियाँ: इस लेख की सबसे बड़ी शक्ति इसकी पद्धतिगत कठोरता और अंतर-अनुशासनिक आधार है। यह केवल आलोचना ही नहीं करता, बल्कि एक बेहतर विकल्प (LI-Adger) भी प्रदान करता है। मूल्यांकन को मुख्य सैद्धांतिक भाषाविज्ञान और मनोभाषाविज्ञान से जोड़कर, यह "मानव-समान" ज्ञान के साक्ष्य को परिभाषित करने की मानक को ऊँचा उठाता है। डेटा पैमाने पर ध्यान भी दूरदर्शी है, जो कुशल मशीन लर्निंग के व्यापक रुझान के अनुरूप है।

कमियाँ और चूक: यह विश्लेषण तीखा होते हुए भी, विफलता की सीमा को बढ़ा-चढ़ाकर प्रस्तुत कर सकता है। क्या LI-Adger पर मतभेद, भाषा मॉडल सीखने और भाषा अधिग्रहण के बीच की सभी समानताओं को नकार देता है? शायद नहीं। यह लेख भाषा मॉडलों पर अधिक चर्चा कर सकता था।वास्तव मेंक्या सही किया गया और क्यों। इसके अलावा, यह वाक्यविन्यास ज्ञान पर अत्यधिक निर्भर करता है; एक अधिक संपूर्ण संज्ञानात्मक मॉडल को अर्थ विज्ञान, प्रयोजन विज्ञान और सामाजिक शिक्षा के पहलुओं पर भी विचार करना चाहिए। "अधिक वास्तविक डेटा" की मांग उचित है, लेकिन अपर्याप्त रूप से विशिष्ट है - हम बच्चों के लिए निर्देशित इनपुट की बहु-मोडल, अंतःक्रियात्मक और त्रुटिपूर्ण प्रकृति का मॉडल कैसे बनाएं?

5 व्यावहारिक सुझाव: आगे का रास्ता

शोधकर्ताओं के लिए, आवश्यकता स्पष्ट है: सरल बेंचमार्क पर निर्भरता छोड़ें। सैद्धांतिक भाषाविज्ञान (जैसे LI-Adger प्रतिमान) और विकासात्मक मनोविज्ञान से संसाधनों को मूल्यांकन सूट में एकीकृत करें। "संज्ञानात्मक बेंचमार्क" बनाने को प्राथमिकता दें जो मानव भाषा अधिग्रहण की विशिष्ट विशेषताओं की जांच करे: विरल डेटा से सामान्यीकरण, शोर के प्रति सहनशीलता, और अमूर्त व्याकरणिक सिद्धांतों का पालन। मॉडल डेवलपर्स के लिए, लक्ष्य बेंचमार्क स्कोर को अधिकतम करने से हटकर डेटा-कुशल आर्किटेक्चर और प्रशिक्षण तंत्र डिजाइन करने की ओर होना चाहिए जो मानव-जैसे इनपुट से सीख सकें (उदाहरण के लिए, विकास-प्रेरित पाठ्यक्रम शिक्षण या सक्रिय शिक्षण तंत्र को शामिल करके)। अंतिम अंतर्दृष्टि यह है: एक वास्तविक संज्ञानात्मक मॉडल का निर्माण, एक उच्च-प्रदर्शन प्राकृतिक भाषा प्रसंस्करण प्रणाली के निर्माण से एक अलग और अधिक कठिन समस्या है।

6 मौलिक विश्लेषण: भाषा मॉडलिंग में संज्ञानात्मक खाई

Vázquez Martínez et al. का यह पेपर एक ऐसे युग में, जो अक्सर पैमाने से चकाचौंध हो जाता है, एक आवश्यक और विचारोत्तेजक आलोचना प्रस्तुत करता है। यह सही ढंग से एक मौलिक तनाव की ओर इशारा करता है: हालांकि आधुनिक भाषा मॉडल, विशेष रूप से बड़े भाषा मॉडल, प्रभावशाली सतही भाषाई क्षमताएं प्रदर्शित करते हैं, लेकिन उनकी इस क्षमता को प्राप्त करने का मार्ग एक बच्चे से मौलिक रूप से भिन्न है। लेखकों का बेंचमार्क की अपर्याप्तताओं पर ध्यान विशेष रूप से तीक्ष्ण है। यह एआई के अन्य क्षेत्रों में चिंताओं की प्रतिध्वनि है, जहां बेंचमार्क प्रदर्शन मजबूत, सामान्यीकरण योग्य बुद्धिमत्ता में परिवर्तित नहीं होता है। उदाहरण के लिए, कंप्यूटर विजन में, ImageNet पर उत्कृष्ट प्रदर्शन करने वाले मॉडल सरल प्रतिकूल विक्षोभों से मूर्ख बन सकते हैं, जो वास्तविक दृश्य समझ की कमी को प्रकट करते हैं - MIT और Google Brain जैसे संस्थानों के शोध ने इस घटना का विस्तार से वर्णन किया है। इसी तरह, यह पेपर दर्शाता है कि BLiMP पर भाषा मॉडल की सफलता एक समान "क्लीवर हंस" प्रभाव हो सकती है, जहां मॉडल बेंचमार्क निर्माण में सांख्यिकीय नियमितताओं का फायदा उठाते हैं, न कि अंतर्निहित वाक्यविन्यास नियम सीखते हैं।

LI-Adger डेटासेट की वकालत करना इस पेपर का सबसे महत्वपूर्ण योगदान है। मूल्यांकन को न्यूनतम विपरीत जोड़े और ढाल स्वीकार्यता निर्णयों - सैद्धांतिक वाक्यविन्यास का स्वर्ण मानक - पर स्थापित करके, यह मॉडल कोव्याकरणिकताज्ञान, न कि केवल संभावना। भाषा मॉडलों की इस विफलता के परिणाम स्पष्ट हैं। यह दर्शाता है कि विशाल पाठ कोष से सीखे गए संभाव्यता वितरण ($P(w_n | w_{1:n-1})$) आवश्यक रूप से मानव व्याकरण ज्ञान का प्रतिनिधित्व करने वाले वर्गीय या प्रवणता निर्णयों में परिवर्तित नहीं होते। यह नोम चॉम्स्की जैसे भाषाविदों के तर्क के अनुरूप है, जो लंबे समय से कहते आए हैं कि सतही रूपों से सांख्यिकीय शिक्षण, उद्दीपन की दरिद्रता और वाक्यविन्यास नियमों की अमूर्तता की व्याख्या करने के लिए पर्याप्त नहीं है।

हालांकि, इस पेपर का निष्कर्ष यह नहीं होना चाहिए कि भाषा मॉडल संज्ञानात्मक विज्ञान के लिए अप्रासंगिक हैं। बल्कि, यह चुनौती को पुनः परिभाषित करता है। भविष्य "संज्ञानात्मक वास्तुकला-प्रेरित" मॉडलिंग में निहित है। इसमें भाषावैज्ञानिक सिद्धांतों से प्रेरित आगमनात्मक पूर्वाग्रहों (जैसे, पदानुक्रम के प्रति झुकाव) को शामिल करना शामिल हो सकता है, जैसा कि कुछ तंत्रिका-प्रतीकात्मक दृष्टिकोणों में देखा गया है, या अगले शब्द पूर्वानुमान से परे प्रशिक्षण लक्ष्यों को डिजाइन करना शामिल हो सकता है। ब्रेंडन लेक और मार्को बारोनी जैसे शोधकर्ताओं द्वारा कम-नमूना शिक्षण और संयोजनशीलता पर किए गए कार्य इस दिशा की ओर इशारा करते हैं। आगे का रास्ता भाषा मॉडलों को त्यागना नहीं है, बल्कि सही संज्ञानात्मक मानदंडों के आधार पर उनका सख्ती से परीक्षण करना और उनकी विफलताओं के आधार पर उन्हें पुनरावृत्त रूप से पुनर्डिजाइन करना है, ठीक वैसे ही जैसे अन्य विज्ञानों में सिद्धांत और प्रयोग का चक्र चलता है।

7 तकनीकी विवरण और गणितीय ढांचा

चर्चा की गई मूल्यांकन पद्धति भाषा मॉडलों के आउटपुट संभाव्यता का उपयोग मानव स्वीकार्यता निर्णयों की भविष्यवाणी करने के लिए करती है। एक वाक्य $S = w_1, w_2, ..., w_n$ के लिए, एक मानक स्वत:प्रतिगामी भाषा मॉडल एक संभाव्यता निर्दिष्ट करता है:

本文还提到了在儿童导向语料上训练的模型。这里的关键技术挑战是从非常小的数据集（约 $5\times10^6$ 个词元）中学习，这与标准的语言模型语料库（$>10^9$ 个词元）相比相去甚远。这需要高效的架构和训练技术，以避免过拟合并从稀疏数据中提取可泛化的模式。

8 प्रयोगात्मक परिणाम और ग्राफ़ विश्लेषण

इस पेपर में चित्र 1 (PDF सामग्री में वर्णित) में एक महत्वपूर्ण परिणाम प्रस्तुत किया गया है। यह ग्राफ़ LI-Adger डेटासेट पर विभिन्न भाषा मॉडलों (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) के प्रदर्शन की तुलना मानव प्रदर्शन बेसलाइन से करता है।

ग्राफ़ व्याख्या: मानव प्रदर्शन का प्रतिनिधित्व करने वाली ऊर्ध्वाधर रेखा एक बेंचमार्क के रूप में कार्य करती है। ग्राफ़ संभवतः प्रत्येक भाषा मॉडल के सरप्राइज (उदाहरण के लिए, स्पीयरमैन $\rho$) और मानव स्वीकार्यता रेटिंग के बीच सहसंबंध गुणांक दिखाता है। मुख्य निष्कर्ष यह है कि सभी भाषा मॉडलों के बार मानव बेसलाइन से काफी नीचे हैं। यह इस पेपर के केंद्रीय दावे का सहज प्रमाण प्रस्तुत करता है: यहां तक कि बच्चों जैसे डेटा (BabyBERTa, AO-CHILDES) पर विशेष रूप से प्रशिक्षित मॉडल भी इस सूक्ष्म वाक्यविन्यास वाले डेटासेट पर मानव निर्णय से मेल नहीं खा सकते। प्रदर्शन का यह अंतर दर्शाता है कि, इस कठोर परीक्षण के मापदंड के अनुसार, वर्तमान भाषा मॉडल प्रशिक्षण उद्देश्य मानव-जैसे व्याकरणिक ज्ञान के अधिग्रहण का कारण नहीं बनते।

9 विश्लेषणात्मक ढांचा: LI-Adger केस स्टडी

ढांचा: न्यूनतम जोड़ी स्वीकार्यता मूल्यांकन के माध्यम से संज्ञानात्मक मॉडल के रूप में भाषा मॉडल का मूल्यांकन।

उद्देश्य: यह निर्धारित करना कि भाषा मॉडल की आंतरिक संभाव्यता वितरण मानव की संरचनात्मक रूप से विपरीत वाक्यों के प्रति व्याकरणिक अंतर्ज्ञान के साथ संगत है या नहीं।

चरण:

उद्दीपन चयन: LI-Adger जैसे डेटासेट का उपयोग करना, जो न्यूनतम विपरीत जोड़े से बना है (जैसे, "Who do you think that John saw?" बनाम "Who do you think John saw?"), जहां विशिष्ट वाक्यविन्यास सिद्धांतों (जैसे, "that-trace" फ़िल्टर) के आधार पर एक प्रकार व्याकरणिक रूप से सही है और दूसरा कम स्वीकार्य या अव्याकरणिक है।
मॉडल क्वेरी: न्यूनतम विपरीत जोड़े में प्रत्येक वाक्य $S$ के लिए, मॉडल की औसत टोकन आश्चर्य गणना करें: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$।
पूर्वानुमान उत्पादन: 模型“偏好”惊奇度较低的句子。对于一个最小对比对 (A, B)，如果 $\text{Surprisal}(A) < \text{Surprisal}(B)$，则模型预测 A 更可接受。
मानव डेटा से तुलना: ऐसी सैकड़ों न्यूनतम विपरीत जोड़ियों पर मॉडल की प्राथमिकता पैटर्न की तुलना मानव प्रतिभागियों के सामूहिक स्वीकार्यता निर्णयों से करें। मॉडल सरप्राइज़ल और मानव रेटिंग के बीच सहसंबंध गुणांक (जैसे, स्पीयरमैन $\rho$) की गणना करें।
व्याख्या: एक उच्च, सांख्यिकीय रूप से महत्वपूर्ण सकारात्मक सहसंबंध यह संकेत देगा कि भाषा मॉडल का ज्ञान मानव वाक्यविन्यास निर्णयों के अनुरूप है। एक कम या गैर-महत्वपूर्ण सहसंबंध (जैसा कि इस पेपर में पाया गया) विसंगति का संकेत देता है।

गैर-कोड उदाहरण: 考虑测试跨干扰从句的主谓一致知识：“The key to the cabinets *are/*is on the table.” 人类一致认为“is”是正确的。一个习得了抽象一致规则（主语‘key’ -> 动词‘is’）的语言模型应该为正确的句子分配更高的概率。一个依赖局部 n-gram 统计的语言模型可能会被“cabinets”的邻近性误导而偏好“are”。将上述框架应用于许多此类对比对，可以揭示语言模型所习得知识的本质。

10 भविष्य के अनुप्रयोग और शोध दिशाएँ

1. "संज्ञानात्मक बेंचमार्क" विकसित करना: एक प्रमुख दिशा मानकीकृत, बहुआयामी मूल्यांकन सूट बनाना है जो वाक्य-रचना से परे जाकर शब्दार्थ, प्रयोजनमूलक भाषाविज्ञान और भाषा अर्जन के मील के पत्थरों (जैसे, शब्दावली विस्फोट, अतिसामान्यीकरण त्रुटियाँ) को शामिल करे। इन बेंचमार्कों को कम्प्यूटेशनल भाषाविदों, विकासात्मक मनोवैज्ञानिकों और संज्ञानात्मक वैज्ञानिकों द्वारा संयुक्त रूप से डिजाइन किया जाना चाहिए।

2. भाषाई आगमनात्मक पूर्वाग्रह वाली संरचनाएँ: भविष्य के मॉडल स्पष्ट संरचनात्मक पूर्वधारणाओं को शामिल कर सकते हैं। उदाहरण के लिए, वे आर्किटेक्चर जो जन्मजात रूप से पदानुक्रमित अभ्यावेदन का निर्माण करते हैं या उत्पादन प्रक्रिया के दौरान वाक्यात्मक बाध्यताओं को लागू करते हैं, भाषाविज्ञान के सिद्धांत और पैरामीटर ढाँचे के अधिक निकट होंगे।

3. इंटरैक्टिव और बहुप्रकारी प्रशिक्षण: बच्चों के सीखने का बेहतर अनुकरण करने के लिए, मॉडलों को स्थिर पाठ के बजाय इंटरैक्टिव, बहुप्रकारी डेटा प्रवाह (दृश्य + भाषण + पाठ) पर, साकार एआई अनुसंधान में खोजे गए तरीके से, एक साकार वातावरण में प्रशिक्षित किया जा सकता है।

4. डेटा-कुशल और पाठ्यक्रम सीखना: ऐसे प्रशिक्षण एल्गोरिदम विकसित करना जो कई गुना कम डेटा के साथ सफलता प्राप्त कर सकें, शायद उन पाठ्यक्रम सीखने की रणनीतियों को लागू करके हासिल किया जा सकता है जो बाल-निर्देशित कॉर्पोरा में जटिलता की प्रगति को प्रतिबिंबित करती हैं।

5. तंत्रिका भाषाविज्ञान के साथ सेतु: भाषा मॉडल की आंतरिक अभिव्यक्तियों और प्रसंस्करण गतिकी की तुलना मानव भाषा कार्य करते समय के तंत्रिका आंकड़ों (जैसे, fMRI, EEG) से करना, जैसा कि MIT के McGovern Brain Institute के शोधकर्ताओं द्वारा प्रारंभ किए गए कार्य में है, संज्ञानात्मक मॉडलों के लिए सत्यापन का एक नया स्तर प्रदान कर सकता है।

11 संदर्भ सूची

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. CoNLL की कार्यवाही.
Chomsky, N. (1965). सिंटैक्स के सिद्धांत के पहलू. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. NAACL की कार्यवाही.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. प्राकृतिक भाषा में बीजगणितीय संरचनाएँ.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.