ശാസ്ത്രഗതി (ജൂൺ 2022) പ്രസിദ്ധീകരിച്ച ലേഖനം
ആമുഖം
മനുഷ്യർക്കു നൈസർഗ്ഗികമായുള ഒരു കഴിവാണ് ഭാഷ. കുഞ്ഞുങ്ങൾ ഏതു ഭാഷയും അവരുടെ പരിസരങ്ങളിൽ നിന്നും സ്വാഭാവികമായി നേടിയെടുക്കുന്നു. ഈ ശേഷി ഒരു കമ്പ്യൂട്ടറിന് കൈവരിക്കാൻ അത്ര എളുപ്പമല്ല. സിനിമാടിക്കറ്റ് ബുക്ക് ചെയ്യാനും, ഭക്ഷണം ഓർഡർ ചെയ്യാനും, മെയിലയക്കാനും, അലാറം വെയ്ക്കാനുമൊക്കെ ഇംഗ്ലീഷ് ഭാഷയിൽ പറഞ്ഞാൽ ചെയ്യാൻ കഴിയുന്ന ഡിജിറ്റൽ അസിസ്റ്റന്റുകളൊക്കെ ഇന്നുണ്ട്. ഇതിനർത്ഥം യന്ത്രങ്ങൾ ഭാഷാശേഷി കൈവരിച്ചുവെന്നാണോ? മലയാളമുൾപ്പെടെയുള്ള മറ്റു ഭാഷകളും കമ്പ്യൂട്ടറുകൾക്കു വഴങ്ങുമോ? അതിനു കൃത്രിമബുദ്ധി ആവശ്യമുണ്ടോ? ഈ വിഷയങ്ങളൊക്കെ പരിശോധിക്കുകയാണ് ഈ ലേഖനത്തിൽ.
യന്ത്രങ്ങൾക്ക് സ്വയം പഠിക്കാനാകുമോ?
ചുറ്റുപാടുമുള്ള ശബ്ദങ്ങൾ പിടിച്ചെടുക്കാനുള്ള ഉപകരണം എല്ലാ ഫോണുകളിലുമുണ്ട്. ആ ശബ്ദത്തിൽ നിന്നും സംസാരം വേർതിരിച്ച്, പറഞ്ഞതെന്തെന്ന് തിരിച്ചറിയാനുള്ള സംവിധാനം പല ഭാഷകളിലും ഇന്ന് സാധ്യമാണ്. തിരിച്ചറിഞ്ഞ സംസാരത്തിന്റെ ഉദ്ദേശ്യം മനസ്സിലാക്കി അതിലടങ്ങിയ നിർദ്ദേശം നടപ്പിലാക്കുകയെന്നത് ഒരല്പം കൂടി ബുദ്ധിമുട്ടുള്ള സംഗതിയാണ്. അതിന്റെ പ്രയോഗങ്ങൾ ഇംഗ്ലീഷ് ഭാഷയിൽ കുറച്ചൊക്കെ സാദ്ധ്യമായിട്ടുണ്ടെങ്കിലും ലോകത്തുള്ള മറ്റനേകം ഭാഷകൾ കമ്പ്യൂട്ടറിന് വഴങ്ങാൻ ഒരുപാട് കടമ്പകളുണ്ട്. പരമ്പരാഗതമായ ഭാഷാകമ്പ്യൂട്ടിങ്ങും മെഷീൻ ലേണിങ്ങ് എന്ന നവീന സാങ്കേതികവിദ്യയും ചേർന്നിട്ടാണ് ഇതിനെല്ലാമുള്ള അടിത്തറയൊരുക്കുന്നത് എന്ന് ലളിതമായി പറയാം.
പരമ്പരാഗതമായ ഭാഷാകമ്പ്യൂട്ടിങ്ങ്, ഭാഷാശാസ്ത്രം എന്ന ശാസ്ത്രശാഖയെ അവലംബിച്ചാണിരിക്കുന്നത്. ഭാഷയുടെ സ്വനവിജ്ഞാനീയം, വ്യാകരണനിയമങ്ങൾ ഒക്കെ കൃത്യമായി നിർവ്വചിക്കുക, വാക്കുകളുടെ പരസ്പരബന്ധമുൾക്കൊള്ളുന്ന നിഘണ്ടുക്കൾ നിർമ്മിക്കുക, ഇവയെല്ലാം കോർത്തിണക്കി വാചകഘടനയും ആശയവും ഉൾക്കൊള്ളുക ഇവയൊക്കെയാണ് ഭാഷാശാസ്ത്രത്തിന്റെ വഴികൾ. അതിന്റെ കമ്പ്യൂട്ടിങ്ങ് അൽഗോരിതം തയ്യാറാക്കലാണ് അടിസ്ഥാനപരമായി ഭാഷാസാങ്കേതികവിദ്യ. ഭാഷാവിദഗ്ദ്ധരും സാങ്കേതികവിദഗ്ദ്ധരും കൈകോർക്കേണ്ട ഒരു മേഖലയാണിത്.
എന്നാൽ ഈയൊരു ചട്ടക്കൂടിൽ നിന്നും വേറിട്ടവഴിയാണ് മെഷീൻ ലേണിങ്ങ് സങ്കേതത്തിലുള്ളത്. കൂറ്റൻ ഡേറ്റാസെറ്റാണ് മെഷീൻ ലേണിങ്ങിന്റെ കാതൽ. ലക്ഷക്കണക്കിന് വാക്കുകളും, അവയുടെ ഉച്ചാരണവും അടങ്ങിയ ഒരു ഡേറ്റാസെറ്റുണ്ടെങ്കിൽ അതിൽ നിന്നും മെഷീൻ ലേണിങ്ങ് വഴി ഒരു ‘വാക്കുച്ചാരണമാതൃക’ (trained pronounciation model) നിർമ്മിച്ചെടുക്കാനാകും. ഒരു പുതിയ വാക്ക് നൽകിയാൽ, അതിന്റെ ഉച്ചാരണം അതിന് തിരിച്ചുതരാനാകും. ഈ മാതൃക നിർമ്മിക്കാൻ ഭാഷയുടെ അക്ഷരങ്ങളും സ്വനിമനിയമങ്ങളുമൊന്നും കൃത്യമായി പഠിക്കേണ്ടതില്ല. വലിയൊരു പദസമുച്ചയത്തിൽ നിന്നും അങ്ങനെയൊരു ക്രമം സ്വയം കണ്ടെത്തുന്ന വിധമാണ് മാതൃകാനിർമ്മാണത്തിന്റെ അൽഗോരിതം.
രണ്ടു ഭാഷകൾക്കിടയിൽ യാന്ത്രികതർജ്ജമയ്ക്കാവശ്യമായ മെഷീൻ ലേണിങ്ങ് മാതൃക ഉണ്ടാക്കണമെന്നിരിക്കട്ടേ, ആയിരക്കണക്കിന് വാചകങ്ങളും അവയുടെ തർജ്ജമകളും കൃത്യമായി അടയാളപ്പെടുത്തിയ ഒരു വലിയ ഡേറ്റാസെറ്റാണ് നമുക്കാദ്യം വേണ്ടത്. ഇനി ഇതിലേയ്ക്ക് ഒരു വാചകം നൽകിയാൽ തിരികെ കിട്ടുന്നത് അതിന്റെ തർജ്ജമയായിരിക്കും. ഇവിടെയും വ്യകാരണനിയമങ്ങളൊക്കെ കൃത്യമായി പഠിച്ചെടുക്കലല്ല, ആയിരക്കണക്കിനു വാചകങ്ങളിൽ നിന്നും സ്വയമൊരു ക്രമം കണ്ടെത്തുകയാണ് മെഷീൻ ലേണിങ്ങ് അൽഗോരിതം.
ജിമെയിലിലെ സ്പാം മെയിലുകൾ വേർതിരിക്കുന്നതിനൊക്കെ ഗൂഗിൾ ഉപയോഗിക്കുന്ന വിദ്യ ഇതിനു സമാനമാണ്. ലക്ഷക്കണക്കിന് സ്പാംമെയിലുകൾ അടയാളപ്പെടുത്തിക്കൊടുത്താൽ ഒരു മെഷീൻ ലേണിങ്ങ് സങ്കേതത്തിന് ഒരു സ്പാം മെയിൽ വേർതിരിക്കൽ മോഡലുണ്ടാക്കാനാകും. പുതിയൊരു മെയിൽ കണ്ടാൽ സ്പാം ആണൊ അല്ലയോ എന്ന് അതിന് തിരിച്ചറിയാനുമാകും. ഒരു കുട്ടി തന്റെ ചുറ്റുപാടിൽ നിന്നും സ്വാഭാവികമായി ഭാഷ പഠിച്ചെടുക്കുന്നതിനു സമാനമായി തനിക്കു ലഭ്യമായ ഡേറ്റയിൽ നിന്നും യന്ത്രം അറിവ് നേടുകയാണ് എന്നതാണ് ഇവിടെ സങ്കല്പം.
യന്ത്രങ്ങളെ ഭാഷ പഠിപ്പിക്കുന്നതെങ്ങനെ?
വളരെ കൃത്യമായ പ്രോഗ്രാമിങ്ങ് നിർദ്ദേശങ്ങൾ ഉണ്ടാക്കാൻ പറ്റുന്ന സന്ദർഭങ്ങളിൽ മെഷീൻ ലേണിങ്ങിന്റെ ആവശ്യം വരുന്നില്ല. ഉദാഹരണത്തിന് മലയാളത്തിന്റെ ഉച്ചാരണനിയമങ്ങൾ ഇംഗ്ലീഷിനെ അപേക്ഷിച്ച് കൃത്യതയുള്ളതാണ്. ആ നിയമങ്ങൾ കൃത്യമായെഴുതിയാൽ മലയാളലിപി കമ്പ്യൂട്ടറുപയോഗിച്ച വായിക്കാനുള്ള ഒന്നാമത്തെ കടമ്പ പൂർത്തിയാകും. എന്നാൽ ഇംഗ്ലീഷ് വാക്കുകൾ എങ്ങനെ ഉച്ചരിക്കണമെന്നതിന്റെ നിയമങ്ങൾ സങ്കീർണ്ണമായതുകൊണ്ട് അതിനായി ഒരു മെഷീൻ ലേണിങ്ങ് മോഡൽ നിർമ്മിക്കുന്നതാകും എളുപ്പം. ലക്ഷക്കണക്കിന് ഇംഗ്ലീഷ് വാക്കുകളും അവയുടെ ഉച്ചാരണവും കൊണ്ട് പരിശീലിപ്പിച്ചിട്ടാണ് ആണ് സ്വയമേവ പുതിയ വാക്കുകളുടെ ഉച്ചാരണം തരാൻ കഴിയുന്ന യന്ത്രസംവിധാനങ്ങൾ നിർമ്മിച്ചെടുക്കുന്നത്. മെഷീൻ ലേണിങ്ങ് വഴി ഇതു സാധ്യമാക്കാൻ അതിനുപറ്റിയ അൽഗോരിതങ്ങളാണ് അടുത്തതായി ആവശ്യം. ഒപ്പം അതീവ കാര്യക്ഷമതയാർന്ന പ്രോസസ്സറുകളും.
ഡേറ്റാസഞ്ചയത്തിൽ നിന്നും മാതൃക നിർമ്മിക്കുവാനുള്ള അൽഗോരിതത്തിന് പ്രവർത്തിക്കാൻ സാധാരണ ലാപ്ടോപ്പുകളിലുള്ള ഇന്റലിന്റെ പ്രോസസ്സറുകൾ മതിയാകില്ല. ഗണിതക്രിയകൾ പെട്ടെന്നു ചെയ്യാനാവുന്ന ഗ്രാഫിക്കൽ പ്രോസസിങ്ങ് യൂണിറ്റുകൾ (ജി. പി. യു.) എൻവിഡിയ കമ്പനി പുറത്തിറക്കുന്നുണ്ട്[1]. ഭീമമായ കമ്പ്യൂട്ടിങ്ങ് പവർ ഉണ്ടെങ്കിൽ പോലും ഡേറ്റാസഞ്ചയത്തിനുമേൽ ദിവസങ്ങളും ആഴ്ചകളുമെടുത്ത് പ്രവർത്തിച്ചാലാണ് ഭാഷാകമ്പ്യൂട്ടിങ്ങ് മേഖലയിലെ ഒരു മെഷീൻ ലേണിങ്ങ് മാതൃക നിർമ്മിക്കാനാകുക. സങ്കീർണ്ണമായ കണക്കുകൂട്ടലുകൾ വേഗത്തിൽ ചെയ്യാനാവശ്യമായ ഹാർഡ്വെയറാണ് ജി. പി. യു. വിലുള്ളത്. ഡേറ്റയിൽ നിന്നും സവിശേഷതകൾ കണ്ടെത്തുന്നതിനുള്ള കണക്കുകൂട്ടലുകൾ വളരെ സങ്കീർണ്ണമാണ്. ഡേറ്റയുടെ അളവും കൃത്യതയും വർദ്ധിക്കുന്തോറും മെഷീൻ ലേണിങ്ങ് മാതൃക മെച്ചപ്പെടും. പക്ഷേ അതിന് വിലയേറിയ ജി.പി.യു. കൾ ഒരുപാടെണ്ണം ഒരുമിച്ച് പ്രവർത്തിപ്പിക്കേണ്ടിവരും. സാധാരണ ഗവേഷകർക്ക് അപ്രാപ്യമായ വിധത്തിൽ ചിലവേറിയതാവുകയാണ് ഈ മേഖല. അതായത് ഈ വഴിയിലൂടെയുള്ള ഭാഷാസാങ്കേതികവിദ്യാഗവേഷണം ഹാർഡ്വെയർ ലഭ്യതയുള്ളവരുടെ കയ്യിൽ മാത്രമായൊതുങ്ങാനും സാദ്ധ്യതയുണ്ട്.
സാധ്യതകൾ, പരിമിതികൾ
ചിത്രങ്ങൾക്ക് സ്വയമേവ അടിക്കുറിപ്പെഴുതുക, ഒരു വലിയ ഖണ്ഡിക സംഗ്രഹിക്കുക, ചോദ്യങ്ങൾക്ക് ഉത്തരംകണ്ടെത്തുക തുടങ്ങി ഉയർന്നനിലയിലുള്ള ഭാഷാനൈപുണി പോലും മെഷീൻ ലേണിങ്ങ് വഴി കമ്പ്യൂട്ടറുകൾക്ക് സ്വായത്തമാക്കാനാകുമ്പോൾ അവ മനുഷ്യസമാനമായ ഒരു ബൗദ്ധികശേഷി ആർജ്ജിച്ചുകഴിഞ്ഞതായി സ്വാഭാവികമായും നമുക്കു തോന്നും. ‘ആർട്ടിഫിഷൽ ജനറൽ ഇന്റലിജൻസ്’ എന്ന് പൊതുവേ വിളിക്കപ്പെടാറുള്ള ഈ സങ്കല്പം പക്ഷേ യാഥാർത്ഥ്യത്തിൽ നിന്നും വളരെയേറെ അകലെയാണ്.
മേൽപ്പറഞ്ഞ ഓരോ പ്രവർത്തിക്കുമുള്ള മെഷീൻ ലേണിങ്ങ് മാതൃകകൾക്ക് നിയുക്തമായ ആ പ്രവൃത്തി മാത്രമേ ചെയ്യാൻ കഴിയാറുള്ളൂ. ഇതുപോലെ ഒരുകൂട്ടം പ്രവർത്തികൾ ചെയ്യാൻ കഴിയുന്ന യന്ത്രസംവിധാനങ്ങൾ മെഷീൻ ലേണിങ്ങ് വഴി നമുക്കിന്നു നിർമ്മിച്ചെടുക്കാൻ കഴിഞ്ഞിട്ടുണ്ടെന്നുള്ളത് വാസ്തവമാണ്. അങ്ങനെ ഒന്നിലധികം പ്രവർത്തികൾക്കുള്ളവ കോർത്തിണക്കിയാലും മനുഷ്യസമാനമായ യുക്തി (‘ഇന്റലിജൻസ്’)മെഷീനിൽ സാദ്ധ്യമാകില്ല എന്ന് ഓർക്കേണ്ടതുണ്ട്. ‘പൂച്ച പൂച്ച’യെന്ന് പലവട്ടം കേൾക്കുന്ന തത്തയ്ക്ക് ആ വാചകം ആവർത്തിയ്ക്കാൻ കഴിയുമെന്നല്ലാതെ സന്ദരഭോചിതമായി അർത്ഥം മനസ്സിലാക്കാനാകില്ലല്ലോ.
മെഷീൻ ലേണിങ്ങ് വഴി നിർമ്മിക്കുന്ന സംവിധാനങ്ങളുടെ കൃത്യതയെക്കുറിച്ച് മുൻകൂട്ടി പ്രവചനമൊന്നും സാദ്ധ്യവുമല്ല. അത് മിക്കപ്പോഴും ഡേറ്റാസഞ്ചയത്തിന്റെ കൃത്യതയെ ആശ്രയിച്ചിരിക്കും. ഗൂഗിളിന്റെ യാന്ത്രികതർജ്ജമ ആദ്യം റിലീസ് ചെയ്തകാലത്ത് തികച്ചും അനുപയുക്തമായിരുന്നത് ഉപയോഗിച്ചുനോക്കിയവർക്ക് ഓർമ്മയിലുണ്ടാകും. എന്നാൽ കാലക്രമേണ കൂടുതൽ വലിയ ഡേറ്റയ്ക്കുമുകളിൽ പ്രവർത്തിച്ചു തുടങ്ങിയതോടെ അത് മെച്ചപ്പെടുകയുണ്ടായി. എന്നാൽ ട്രെയിനിങ്ങിനുപയോഗിച്ച ഡേറ്റയേക്കാൾ മെച്ചപ്പെടാൻ ഒരിക്കലും ഇതിന് സാധിക്കുകയില്ല.
ഒരു വാക്കോ വാചകമോ നൽകിയാൽ അതിന്റെ തുടർച്ചയായി വരാൻ സാദ്ധ്യതയുള്ള വാചകങ്ങളെ പ്രവചിക്കുന്ന ഭാഷാമാതൃകകൾ ധാരാളമായി അടുത്തിടെ നിർമ്മിക്കപ്പെട്ടിട്ടുണ്ട്. ഈമെയിൽ ടൈപ്പു ചെയ്തുകൊണ്ടിരിക്കുമ്പോൾ നാം എഴുതാൻ പോകുന്നത് പ്രവചിച്ചു സൂചന നൽകുന്ന സംവിധാനമൊക്കെ ഇതിന്റെ പ്രയോഗസാദ്ധ്യതയാണ്. ഇന്റർനെറ്റിൽ ലഭ്യമായ എഴുത്തുകൾ ഉപയോഗിച്ചു പരിശീലിപ്പിക്കുന്ന ഇത്തരം സംവിധാനങ്ങളിൽ ആ ഡേറ്റയിലുള്ള മുഴുവൻ ഭാഷാവൈകല്യവും, പക്ഷപാതവുമെല്ലാം കടന്നു വരികയും, ആളുകൾ അതുപയോഗിക്കുമ്പോൾ ആ വൈകല്യങ്ങൾ ഭാഷയിൽ ഉറച്ചുപോകുകയും ചെയ്യും.
ഇതിനേക്കാളുപരി മെഷീൻ ലേണിങ്ങ് അടക്കമുള്ള സാങ്കേതികവിദ്യകൊണ്ട് നിർമ്മിച്ച ‘ബുദ്ധിയുള്ള യന്ത്രങ്ങളെ’ എന്തിനൊക്കെ ഉപയോഗിക്കുന്നുവെന്നത് നൈതികതയുമായി ബന്ധപ്പെട്ട വിഷയമാണ്. മുഖവും ചലനവും നോക്കി ഒരാൾ കുറ്റകൃത്യത്തിലേർപ്പെടാനുള്ള സാദ്ധ്യത പ്രവചിക്കുന്ന യന്ത്രസംവിധാനങ്ങളെ സങ്കല്പിച്ചുനോക്കൂ. പോലീസും കോടതിയും അന്ധമായി അതിനെ ആശ്രയിക്കാൻ തുടങ്ങിയാലോ?. ഒരു യന്ത്രത്തിന്റെ പിഴവുകൊണ്ട് ആരും ഏതുനിമിഷവും കുറ്റവാളിയാക്കപ്പെടുമോയെന്ന ആധിയിൽ ജീവിക്കേണ്ടി വരില്ലേ? ആർട്ടിഫിഷൽ ഇന്റലിജൻസ് ഗവേഷണങ്ങൾക്കു മുൻകയ്യെടുക്കുന്ന വൻകിട കമ്പനികൾ ഇതൊന്നും കാര്യമാക്കാറില്ല എന്നതാണ് സത്യം. ഇത്തരം കാര്യങ്ങളുൾപ്പെടെയുള്ള മെഷീൻ ലേണിങ്ങിലെ നൈതികവിഷയങ്ങൾ, വലിയ തോതിലുള്ള ട്രെയിനിങ്ങിനാവശ്യമായ പ്രോസസിങ്ങ് പവർ, അതിന്റെ ചിലവ്, പാരിസ്ഥിതാഘാതം ഇവയെല്ലാം വിശദമായി ചർച്ച ചെയ്യുന്ന പ്രബന്ധം പ്രസിദ്ധീകരിച്ച സംഘത്തിലുണ്ടായിരുന്ന ഗവേഷകരെ ഗൂഗിൾ പിന്നീട് പിരിച്ചുവിട്ടത് അടുത്തിടെ വലിയ വിവാദമാകുകയുണ്ടായി [2][3].
പ്രാദേശികഭാഷകളും മെഷീൻലേണിങ്ങും
മലയാളം ഉൾപ്പെടെയുള്ള ധാരാളം ലോകഭാഷകൾ വിഭവദരിദ്ര (low resource) ഗണത്തിൽപ്പെടുന്നതാണ്. അതായത് നല്ലരീതിയിൽ പരിപാലിക്കപ്പെടുന്ന കൃത്യമായി രേഖപ്പെടുത്തിയ കമ്പ്യൂട്ടിങ്ങ് വ്യാകരണനിയമങ്ങളോ, ഡേറ്റാസഞ്ചയമോ ഇല്ലാത്ത ഭാഷകൾ. ഡേറ്റ വലിയതോതിൽ ലഭ്യമല്ലാത്ത പ്രവർത്തനങ്ങൾക്കായി മെഷീൻലേണിങ്ങിനെ തന്നെ ആശ്രയിക്കണമെന്നില്ല. ഡേറ്റാശേഖരത്തിന്റെ അഭാവത്തിൽ പോലും പിശകുകളില്ലാത്ത മലയാളം ഭാഷാ കമ്പ്യൂട്ടിങ്ങ് സാധ്യമാക്കാനാകുന്ന മലയാളം മോർഫോളജി അനലൈസർ, വ്യാകരണനിയമങ്ങൾക്കായി കൃത്യമായ അൽഗോരിതം നിർമ്മിക്കുന്ന പ്രോജക്ടാണ്. വിഭവദരിദ്ര ഭാഷകൾക്ക് പിന്തുടരാനാകുന്ന ഒരു മാതൃകയാണിത്[4] .
ഭാഷയും ഭാഷാസങ്കേതങ്ങളും അതുപയോഗിക്കുന്ന ജനതയുടെ സാംസ്കാരികസമ്പത്താണ്. അതിന്റെ ഏതെങ്കിലും വിധത്തിലുള്ള കുത്തകവൽക്കരണം ചെറുക്കേണ്ടതുണ്ട്. മാത്രമല്ല കുത്തകകമ്പനികൾ നൽകുന്ന ഭാഷാസങ്കേതങ്ങൾ എന്നെങ്കിലും പിൻവലിച്ചാലോ വിപണിമൂല്യത്തിനനുസരിച്ച് കനത്തവിലയീടാക്കിയാലോ ഭാഷയ്ക്ക് ഭീഷണിയാവും. അതുകൊണ്ടുതന്നെ ഭാഷാസാങ്കേതികവിദ്യയുടെ പൊതു ഉടമസ്ഥതയ്ക്ക് വിവിധതലങ്ങളിൽ പ്രാധാന്യമുണ്ട്. മോസില്ല ഫൗണ്ടേഷൻ, പൊതുജനങ്ങളിൽ നിന്നും അനുമതിയോടെ ശബ്ദം ശേഖരിച്ച് പ്രസിദ്ധീകരിക്കുന്ന കോമൺ വോയിസ് എന്ന പ്രോജക്ടിന്റെ പ്രാധാന്യം അതാണ്[5]. ഇതിന്റെ മലയാളം പതിപ്പിലേയ്ക്കായി ധാരാളം സന്നദ്ധപ്രവർത്തകർ സ്വന്തം ശബ്ദം വായിച്ചു റേക്കോർഡ് ചെയ്തു നൽകിക്കൊണ്ടിരിക്കുന്നു.
സ്വതന്ത്ര ലൈസൻസിൽ ലഭ്യമായ കൃത്യതയാർന്ന ഡേറ്റാസഞ്ചയങ്ങൾ, അതുപയോഗിക്കാനുതകുന്ന സ്വതന്ത്രലൈസൻസിൽ ലഭ്യമായ മെഷീൻ ലേണിങ്ങ് പ്രോഗ്രാമുകൾ ട്രെയിനിങ്ങിനാവശ്യമായ ഹാർഡ്വെയർ സൗകര്യങ്ങൾ - ഇവയെല്ലാം ഉണ്ടെങ്കിൽ മാത്രമാണ് മെഷീൻ ലേണിങ്ങ് അധിഷ്ഠിതമായ മലയാള ഭാഷാകമ്പ്യൂട്ടിങ്ങ് മുന്നോട്ട് പോകൂ. പ്രാദേശികമായി യൂണിവേഴ്സിറ്റികളും ഗവേഷണസ്ഥാപനങ്ങളുമൊക്കെ ഇതിനായി പരസ്പര സഹകരണത്തോടെ ഡേറ്റയും ഹാർഡ്വെയറുമൊക്കെ പങ്കുവെച്ചുകൊണ്ടുള്ള ഗവേഷണങ്ങൾ പ്രോത്സാഹിപ്പിച്ചാൽ മാത്രമേ കുത്തകവൽക്കരണത്തെ ചെറുത്ത് സാങ്കേതികവിദ്യകളെ മുന്നോട്ട് നടത്താനാകൂ.
അവലംബം
[2] On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜
[3] What Really Happened When Google Ousted Timnit Gebru
[4] Malayalam Morphology Analyser
[5] Mozilla’s Common Voice project