Correct Answer:
Option B - सुदृढ़ीकरण (Reinforcement) सीखने में एजेंट परीक्षण और त्रुटि के माध्यम से इष्टतम व्यवहार सीखते हैं। यह तरीका व्यवहार के आधार पर पुरस्कार प्राप्त करने और उसके अनुसार अपने फैसले को संशोधित करने की प्रक्रिया को दर्शाता है। सुदृढ़ीकरण सीखने के एल्गोरिथ्म पर्यवेक्षित लेबल पर निर्भर नहीं करते हैं। इसके अलावा, यह अप्राकृतिक पर्यवेक्षण (Unsupervised Supervision) के तहत पुरस्कार संकेतों (Reward Signals) के आधार पर काम करता है। इसलिए, अभिकथन (A) सही है, लेकिन कारण (R) गलत है।
B. सुदृढ़ीकरण (Reinforcement) सीखने में एजेंट परीक्षण और त्रुटि के माध्यम से इष्टतम व्यवहार सीखते हैं। यह तरीका व्यवहार के आधार पर पुरस्कार प्राप्त करने और उसके अनुसार अपने फैसले को संशोधित करने की प्रक्रिया को दर्शाता है। सुदृढ़ीकरण सीखने के एल्गोरिथ्म पर्यवेक्षित लेबल पर निर्भर नहीं करते हैं। इसके अलावा, यह अप्राकृतिक पर्यवेक्षण (Unsupervised Supervision) के तहत पुरस्कार संकेतों (Reward Signals) के आधार पर काम करता है। इसलिए, अभिकथन (A) सही है, लेकिन कारण (R) गलत है।