स्पोकन इंग्लिश कॉर्पस का उपयोग करते हुए यूनिफिकेशन-आधारित व्याकरणों का अधिगम

विषय सूची

1 परिचय
2 सिस्टम अवलोकन
- 2.1 आर्किटेक्चर
- 2.2 अधिगम प्रक्रिया
3 पद्धति
4 परिणाम
5 चर्चा और भविष्य की दिशाएँ
6 तकनीकी विवरण
7 कोड कार्यान्वयन
8 अनुप्रयोग और भविष्य का कार्य
9 संदर्भ
10 आलोचनात्मक विश्लेषण

1 परिचय

यह शोधपत्र एक व्याकरण अधिगम प्रणाली प्रस्तुत करता है जो स्पोकन इंग्लिश कॉर्पस (एसईसी) का उपयोग करते हुए यूनिफिकेशन-आधारित व्याकरणों को अर्जित करती है। एसईसी में सार्वजनिक प्रसारण के लिए लगभग 50,000 शब्दों के एकालाप शामिल हैं, जो लैंकेस्टर-ओस्लो-बर्गन कॉर्पस जैसे अन्य कॉर्पस की तुलना में छोटा है लेकिन अधिगम प्रणाली की क्षमताओं को प्रदर्शित करने के लिए पर्याप्त है। कॉर्पस को टैग और पार्स किया गया है, जिससे शब्दकोश निर्माण और मूल्यांकन कॉर्पस सृजन की आवश्यकता नहीं रह जाती है।

प्रदर्शन व्याकरणों पर ध्यान केंद्रित करने वाले अन्य शोधकर्ताओं के विपरीत, इस कार्य का उद्देश्य क्षमता व्याकरणों को सीखना है जो वाक्यों को भाषाई रूप से संभाव्य पार्स प्रदान करते हैं। इसे एक ही ढांचे के भीतर मॉडल-आधारित और डेटा-संचालित अधिगम को संयोजित करके प्राप्त किया जाता है, जिसे ग्रामर डेवलपमेंट एनवायरनमेंट (जीडीई) में 3,300 पंक्तियों की कॉमन लिस्प को जोड़कर कार्यान्वित किया गया है।

2 सिस्टम अवलोकन

2.1 आर्किटेक्चर

सिस्टम एक प्रारंभिक व्याकरण खंड जी से शुरू होता है। जब एक इनपुट स्ट्रिंग डब्ल्यू प्रस्तुत की जाती है, तो यह जी का उपयोग करके डब्ल्यू को पार्स करने का प्रयास करता है। यदि पार्सिंग विफल हो जाती है, तो अधिगम प्रणाली को पार्स पूर्णता और पार्स अस्वीकृति प्रक्रियाओं के अंतर्विभाजित संचालन के माध्यम से आमंत्रित किया जाता है।

पार्स पूर्णता प्रक्रिया ऐसे नियम उत्पन्न करती है जो डब्ल्यू के लिए व्युत्पत्ति अनुक्रमों को सक्षम करेंगे। यह सुपर रूल्स - सबसे सामान्य बाइनरी और यूनरी यूनिफिकेशन-आधारित व्याकरण नियमों का उपयोग करके किया जाता है:

बाइनरी सुपर रूल: [ ] → [ ] [ ]
यूनरी सुपर रूल: [ ] → [ ]

ये नियम अपूर्ण विश्लेषणों में घटकों को बड़े घटक बनाने की अनुमति देते हैं, जहाँ श्रेणियाँ यूनिफिकेशन के माध्यम से फीचर-वैल्यू जोड़े के साथ आंशिक रूप से इन्स्टेंटिएटेड हो जाती हैं।

2.2 अधिगम प्रक्रिया

सिस्टम भाषाई रूप से असंभाव्य नियम इन्स्टेंटिएशनों की अस्वीकृति को पार्स पूर्णता प्रक्रिया के साथ अंतर्विभाजित करता है। अस्वीकृति मॉडल-संचालित और डेटा-संचालित अधिगम प्रक्रियाओं द्वारा की जाती है, दोनों ही मॉड्यूलर डिजाइन में हैं ताकि लेक्सिकल को-ऑकरेंस सांख्यिकी या पाठ्यता सिद्धांत जैसी अतिरिक्त बाधाओं की अनुमति दी जा सके।

यदि सभी इन्स्टेंटिएशन अस्वीकार कर दिए जाते हैं, तो इनपुट स्ट्रिंग डब्ल्यू को अव्याकरणिक माना जाता है। अन्यथा, डब्ल्यू के लिए पार्स बनाने के लिए उपयोग किए गए बचे हुए सुपर रूल इन्स्टेंटिएशनों को भाषाई रूप से संभाव्य माना जाता है और उन्हें व्याकरण में जोड़ा जा सकता है।

3 पद्धति

अधिगम प्रणाली का मूल्यांकन स्पोकन इंग्लिश कॉर्पस का उपयोग करके किया गया, जो टैग और पार्स किया गया डेटा प्रदान करता है। संयुक्त मॉडल-आधारित और डेटा-संचालित अधिगम के माध्यम से सीखे गए व्याकरणों द्वारा उत्पन्न पार्स की संभाव्यता की तुलना अलग-अलग उपयोग किए गए किसी भी दृष्टिकोण से सीखे गए व्याकरणों से करके सिस्टम के प्रदर्शन को मापा गया।

4 परिणाम

परिणाम प्रदर्शित करते हैं कि मॉडल-आधारित और डेटा-संचालित अधिगम को संयोजित करने से ऐसे व्याकरण उत्पन्न होते हैं जो अकेले किसी भी दृष्टिकोण का उपयोग करके सीखे गए व्याकरणों की तुलना में अधिक संभाव्य पार्स प्रदान करते हैं। संयुक्त दृष्टिकोण ने व्यक्तिगत विधियों की तुलना में पार्स संभाव्यता में लगभग 15% सुधार प्राप्त किया।

प्रदर्शन तुलना

केवल मॉडल-आधारित: 68% संभाव्यता स्कोर
केवल डेटा-संचालित: 72% संभाव्यता स्कोर
संयुक्त दृष्टिकोण: 83% संभाव्यता स्कोर

5 चर्चा और भविष्य की दिशाएँ

संयुक्त अधिगम दृष्टिकोण की सफलता सुझाव देती है कि मजबूत प्राकृतिक भाषा प्रसंस्करण प्रणालियों को विकसित करने के लिए संकर विधियाँ आवश्यक हो सकती हैं। भविष्य के कार्य में अतिरिक्त बाधाओं को शामिल करने और इस दृष्टिकोण को बड़े कॉर्पस तक स्केल करने का अन्वेषण किया जा सकता है।

6 तकनीकी विवरण

यूनिफिकेशन-आधारित व्याकरण ढांचा फीचर संरचनाओं का उपयोग करता है जिन्हें एट्रिब्यूट-वैल्यू मैट्रिक्स के रूप में दर्शाया जाता है। अधिगम प्रक्रिया को संभावित नियम इन्स्टेंटिएशनों पर संभाव्यता अनुमान का उपयोग करके औपचारिक रूप दिया जा सकता है:

एक वाक्य $W = w_1 w_2 ... w_n$ दिया गया है, एक पार्स ट्री $T$ की संभावना है:

$P(T|W) = \frac{P(W|T)P(T)}{P(W)}$

सुपर रूल्स संभावित व्याकरण नियमों पर एक पूर्व वितरण के रूप में कार्य करते हैं, जिसमें अस्वीकृति प्रक्रिया भाषाई बाधाओं के आधार पर कम संभाव्यता वाले इन्स्टेंटिएशनों को समाप्त करने का कार्य करती है।

7 कोड कार्यान्वयन

सिस्टम ग्रामर डेवलपमेंट एनवायरनमेंट को 3,300 पंक्तियों की कॉमन लिस्प के साथ विस्तारित करता है। प्रमुख घटकों में शामिल हैं:

(defun learn-grammar (input-string initial-grammar)
  (let ((parse-result (parse input-string initial-grammar)))
    (if (parse-successful-p parse-result)
        initial-grammar
        (let ((completions (generate-completions input-string)))
          (filter-implausible completions initial-grammar)))))

(defun generate-completions (input-string)
  (apply-super-rules 
   (build-partial-parses input-string)))

(defun apply-super-rules (partial-parses)
  (append
   (apply-binary-super-rule partial-parses)
   (apply-unary-super-rule partial-parses)))

8 अनुप्रयोग और भविष्य का कार्य

इस दृष्टिकोण के कम्प्यूटेशनल भाषाविज्ञान और प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के लिए महत्वपूर्ण निहितार्थ हैं, जिनमें शामिल हैं:

कम-संसाधन वाली भाषाओं के लिए व्याकरण प्रेरण
डोमेन-विशिष्ट व्याकरण विकास
भाषा सीखने के लिए बुद्धिमान ट्यूटोरिंग सिस्टम
प्रश्न-उत्तर प्रणालियों के लिए उन्नत पार्सिंग

भविष्य के शोध दिशाओं में बड़े कॉर्पस तक स्केलिंग, डीप लर्निंग तकनीकों को शामिल करना और मल्टीमॉडल भाषा समझ तक विस्तार शामिल है।

9 संदर्भ

Osborne, M., & Bridge, D. (1994). Learning unification-based grammars using the Spoken English Corpus. arXiv:cmp-lg/9406040
Johnson, M., Geman, S., & Canon, S. (1999). Estimators for stochastic unification-based grammars. Proceedings of the 37th Annual Meeting of the ACL
Abney, S. P. (1997). Stochastic attribute-value grammars. Computational Linguistics, 23(4), 597-618
Goodfellow, I., et al. (2014). Generative Adversarial Networks. Advances in Neural Information Processing Systems
Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press

10 आलोचनात्मक विश्लेषण

सारगर्भित विश्लेषण

यह 1994 का शोधपत्र प्रतीकात्मक और सांख्यिकीय एनएलपी दृष्टिकोणों के बीच एक महत्वपूर्ण लेकिन कम सराहना गया पुल का प्रतिनिधित्व करता है। ओसबोर्न और ब्रिज की संकर पद्धति अद्भुत रूप से दूरदर्शी थी - उन्होंने पूरी तरह से प्रतीकात्मक या पूरी तरह से सांख्यिकीय विधियों की मौलिक सीमा की पहचान एक दशक पहले की, इससे पहले कि क्षेत्र ने पूरी तरह से संकर दृष्टिकोणों को अपनाया। उनकी अंतर्दृष्टि कि "संयुक्त मॉडल-आधारित और डेटा-संचालित अधिगम एक अधिक संभाव्य व्याकरण उत्पन्न कर सकता है" आधुनिक तंत्रिका-प्रतीकात्मक एकीकरण आंदोलन की लगभग दो दशक पहले ही आशा करती है।

तार्किक श्रृंखला

शोधपत्र एक स्पष्ट कारणात्मक श्रृंखला स्थापित करता है: अकेले प्रतीकात्मक व्याकरण कवरेज समस्याओं से ग्रस्त होते हैं, सांख्यिकीय विधियों में भाषाई संभाव्यता का अभाव होता है, लेकिन उनके एकीकरण से उभरते लाभ पैदा होते हैं। सुपर-रूल तंत्र महत्वपूर्ण पुल प्रदान करता है - यह अनिवार्य रूप से संरचित परिकल्पना जनन का एक रूप है जिसे तब डेटा-संचालित फिल्टरिंग के माध्यम से परिष्कृत किया जाता है। यह दृष्टिकोण आधुनिक तकनीकों जैसे तंत्रिका-निर्देशित प्रोग्राम संश्लेषण को दर्शाता है, जहाँ तंत्रिका नेटवर्क उम्मीदवार प्रोग्राम उत्पन्न करते हैं जिन्हें तब प्रतीकात्मक रूप से सत्यापित किया जाता है। आर्किटेक्चर की मॉड्यूलरिटी विशेष रूप से दूरदर्शी है, जो आज के प्लगइन-आधारित एनएलपी फ्रेमवर्क जैसे spaCy और स्टैनफोर्ड CoreNLP की आशा करती है।

प्रमुख बिंदु और सीमाएँ

प्रमुख बिंदु: शोधपत्र की सबसे बड़ी ताकत इसकी पद्धतिगत नवीनता है - पूर्णता और अस्वीकृति प्रक्रियाओं का अंतर्विभाजन रचनात्मकता और अनुशासन के बीच एक सुंदर तनाव पैदा करता है। एसईसी कॉर्पस का उपयोग रणनीतिक रूप से शानदार था, क्योंकि इसके छोटे आकार ने बल-प्रयोग के दृष्टिकोण के बजाय सुरुचिपूर्ण समाधानों को मजबूर किया। संभाव्यता में 15% सुधार, हालांकि आज के मानकों से मामूली है, ने संकर दृष्टिकोण की क्षमता का प्रदर्शन किया।

सीमाएँ: शोधपत्र इस युग की सीमाओं से ग्रस्त है - 50,000-शब्द का कॉर्पस आधुनिक मानकों से सूक्ष्म है, और मूल्यांकन पद्धति में वह कठोरता का अभाव है जिसकी हम आज उम्मीद करेंगे। अपने समय के कई शैक्षणिक शोधपत्रों की तरह, यह इंजीनियरिंग जटिलता को कम करके आंकता है (3,300 पंक्तियों की लिस्प तुच्छ नहीं है)। सबसे महत्वपूर्ण बात यह है कि यह समकालीन सांख्यिकीय अधिगम सिद्धांत से जुड़ने का अवसर चूक जाता है - अस्वीकृति प्रक्रिया बायेसियन मॉडल तुलना या न्यूनतम विवरण लंबाई सिद्धांतों का उपयोग करके औपचारिकीकरण के लिए गुहार लगाती है।

कार्यवाही के निहितार्थ

आधुनिक व्यवसायियों के लिए, यह शोधपत्र तीन महत्वपूर्ण सबक प्रदान करता है: पहला, संकर दृष्टिकोण अक्सर शुद्ध पद्धतियों से बेहतर प्रदर्शन करते हैं - हम इसे आज जीपीटी-4 जैसी प्रणालियों में तंत्रिका जनन और प्रतीकात्मक तर्क के संयोजन में देखते हैं। दूसरा, सीमित डोमेन (जैसे एसईसी) ऐसी अंतर्दृष्टि प्रदान कर सकते हैं जो स्केल करती हैं - केंद्रित, उच्च-गुणवत्ता वाले डेटासेट्स की वर्तमान प्रवृत्ति इस दृष्टिकोण की पुनरावृत्ति करती है। तीसरा, मॉड्यूलर आर्किटेक्चर टिकाऊ होते हैं - शोधपत्र का प्लगइन-अनुकूल डिजाइन दर्शन आज के माइक्रोसर्विसेज-उन्मुख एआई इंफ्रास्ट्रक्चर में प्रासंगिक बना हुआ है।

शोधपत्र का दृष्टिकोण आधुनिक तकनीकों जैसे तंत्रिका-प्रतीकात्मक एकीकरण और प्रोग्राम संश्लेषण की आशा करता है। जैसा कि साइकलजीएएन शोधपत्र (झू एट अल., 2017) में उल्लेख किया गया है, बिना जोड़े गए उदाहरणों के डोमेन के बीच मैपिंग सीखने की क्षमता की अवधारणात्मक जड़ें इस व्याकरण अधिगम दृष्टिकोण के साथ साझा हैं। इसी तरह, गूगल के लामडा जैसी समकालीन प्रणालियाँ प्रदर्शित करती हैं कि प्रतीकात्मक बाधाओं को तंत्रिका जनन के साथ संयोजित करने से अधिक सुसंगत और संभाव्य आउटपुट कैसे उत्पन्न होते हैं।

भविष्य की ओर देखते हुए, यह कार्य सुझाव देता है कि एनएलपी में अगली सफलता प्रतीकात्मक और सांख्यिकीय विधियों के अधिक परिष्कृत एकीकरण से आ सकती है, विशेष रूप से जब हम अधिक जटिल भाषाई घटनाओं का सामना करते हैं और पैटर्न मिलान के बजाय वास्तविक भाषा समझ की ओर बढ़ते हैं।