EMNLP 2024

/img/emnlp/coverpic.jpeg

Empirical Methods in Natural Language Processing (EMNLP), കമ്പ്യൂട്ടേഷണൽ ലിംഗ്വിസ്റ്റിക്സിന്റെ ലോകോത്തര കോൺഫറൻസ് വേദികളിലൊന്നാണ്. കേരള ഡിജിറ്റൽ യൂണിവേഴ്സിറ്റിയിലെ Virtual Resource Centre for Language Computing (VRCLC) എന്ന ഭാഷാകമ്പ്യൂട്ടിങ്ങ് കേന്ദ്രത്തെ പ്രതിനിധീകരിച്ച് കോൺഫറൻസിൽ പങ്കെടുത്ത് ഒരു പ്രബന്ധം അവതരിപ്പിക്കുകയുണ്ടായി.

VRCLCയിലെ പ്രാദേശികഭാഷാഗവേഷണം

ഇംഗ്ലീഷ് ഭാഷയ്ക്ക് അനുയോജ്യമായ വിധത്തിലുള്ള ഏറ്റവും മികച്ച ആർട്ടിഫിഷൽ ഇന്റലിജൻസ് മോഡലുകളുടെ നിർമ്മാണത്തിൽ ഒരുപാട് ബഹുരാഷ്ട്ര കമ്പനികൾ മത്സരിക്കുന്നുണ്ട്. അതിൽ ചില എഐ മോഡലുകളൊക്കെ ബഹുഭാഷാശേഷിയുള്ളതാണെന്നൊക്കെ അവർ അവകാശപ്പെടുമ്പോഴും അവയിലൊക്കെ കൃത്യത ഉറപ്പുവരുത്താനുള്ള ശ്രമങ്ങൾ പലപ്പോഴും ഉണ്ടാകാറില്ല. ഇംഗ്ലീഷിതര ഭാഷകൾക്കുള്ള ഭാഷാകമ്പ്യൂട്ടിങ്ങ്, സ്പീച്ച് എഐ മോഡലുകളുടെ നിർമ്മാണം ഒക്കെ പല കാരണങ്ങൾ കൊണ്ട് ബുദ്ധിമുട്ടുള്ളതാണ്. എഐ മോഡലുകളുടെ ട്രെയിനിങ്ങിനാവശ്യമായ ഡാറ്റയുടെ അഭാവമാണ് അതിൽ ഏറ്റവും പ്രധാനം. വിഭവദരിദ്രഭാഷകൾ (Under resourced Languages) എന്നാണ് AI ലോകത്ത് അത്തരം ഭാഷകൾ അറിയപ്പെടുന്നത്. ഇന്ത്യയിലെ പ്രാദേശികഭാഷകളിൽ, ഈ വിഭവദാരിദ്ര്യത്തെ മറികടന്നുകൊണ്ട് മികച്ച കമ്പ്യൂട്ടിങ്ങ് സാധ്യമാക്കുന്നതെങ്ങനെയെന്ന അന്വേഷണത്തിലൂന്നിയാണ് VRCLCയിലെ ഗവേഷണ പ്രവർത്തനങ്ങൾ നടക്കുന്നത്.

എന്താണ് പുതിയ കണ്ടെത്തൽ?

പുതിയ ഓഡിയോ ഏഐ മോഡലുകൾ പുറത്തിറങ്ങുമ്പോൾ അതുകൊണ്ട് തന്നെ ഞങ്ങൾ നന്നായി ശ്രദ്ധിക്കാറുണ്ട്. OpenAI പുറത്തിറക്കിയ വിസ്പർ സ്പീച്ച് റെക്കഗ്നിഷൻ എഞ്ചിൻ പരിശോധിക്കുമ്പോൾ അവർ അവകാശപ്പെടുന്ന കൃത്യത നമ്മൾ പരിശോധിക്കുമ്പോൾ ഇല്ലല്ലോ എന്ന ഒരു സംശയത്തിൽ തുടങ്ങിയ അന്വേഷണം അവസാനിച്ചത് ഓപ്പൺഎഐ കൃത്യത അളക്കാനുപയോഗിക്കുന്ന അൽഗോരിതത്തിലെ ഒരു പിഴവിലായിരുന്നു. മലയാളമുൾപ്പെടെയുള്ള ഇന്ത്യൻ ഭാഷകളുടെയെല്ലാം കാര്യത്തിൽ, അല്പം കൂടി വ്യക്തമാക്കി പറഞ്ഞാൽ ബ്രാഹ്മി ലിപി ഉപയോഗിക്കുന്ന മുഴുവൻ ലോകഭാഷകളുടേയും കാര്യത്തിൽ ഈ പിഴവ് കടന്നുകൂടിയിട്ടുണ്ട്. ഇതേ പിഴവ് മെറ്റയും അവരുടെ ഓഡിയോ എഐ മോഡലിനെ വിലയിരുത്തുമ്പോൾ ആവർത്തിക്കുകയും ചെയ്യുന്നു. ലോകഭാഷകൾക്കെല്ലാം വേണ്ടി AI Models ഉണ്ടാക്കുമ്പോൾ വേണ്ട ഉത്തരവാദിത്തം OpenAIയും, Metaയുമൊന്നും കാണിച്ചിട്ടില്ലെന്നാണ് മേൽപ്പറഞ്ഞ ഗവേഷണത്തിന്റെ രത്നച്ചുരുക്കം.

പ്രബന്ധം പൂർണ്ണരൂപത്തിൽ: What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations

VRCLCയിലെ ഗവേഷണങ്ങളെ നയിക്കുന്ന ഡോ. എലിസബത്ത് ഷേർളിയ്ക്കും, ഈ ഗവേഷണത്തിൽ ഒപ്പമുണ്ടായിരുന്ന ലീന ജി പിള്ളയ്ക്കുമൊപ്പം.

VRCLCയിലെ ഗവേഷണങ്ങളെ നയിക്കുന്ന ഡോ. എലിസബത്ത് ഷേർളിയ്ക്കും, ഈ ഗവേഷണത്തിൽ ഒപ്പമുണ്ടായിരുന്ന ലീന ജി പിള്ളയ്ക്കുമൊപ്പം.

അസോസിയേഷൻ ഓഫ് കമ്പ്യൂട്ടേഷണൽ ലിംഗ്വിസ്റ്റിക്സിന്റെ ഗ്രാന്റോടു കൂടിയാണ് ഫ്ലോറിഡയിൽ വെച്ചു നടക്കുന്ന EMNLP 2024 കോൺഫറൻസിൽ പങ്കെടുക്കുന്നത്.

See also

comments powered by Disqus