Text Speech and Dialogue: TSD 2020

I presented a paper on Quantitative Analysis of the Morphological Complexity of Malayalam Language at 23rd International Conference on Text, Speech and Dialogue: TSD 2020, Brno, Czech Republic, September 8–11 2020. The year being 2020, the entire conference happened in remote participation mode. Conference proceedings and pre-recorded presentation videos were made available to the participants and we discussed it over online zoom sessions. It was a novel experience and I am super excited about how I got feedbacks and ideas to work on, even after the live sessions. [Read More]

A quantitative analysis of the morphological complexity of Malayalam

My work, Quantitative Analysis of the Morphological Complexity of Malayalam Language is accepted for presentation at the 23rd International Conference on Text, Speech and Dialogue to be held from September 8-10, 2020. The conference proceedings is published by Springer and you can read the paper here. I will share the presentation slides and video after the conference. See the associated data and code here. This blog-post is a bit detailed discussion of the following aspects, analysed in the paper: [Read More]

Releasing Malayalam Speech Corpus

Originally Published in SMC Blog SMC announces the release of Malayalam Speech Corpus (MSC). It is the repository of curated speech samples collected using MSC web application. Speech samples are selected on the criteria that they have at least 3 positive reviews. MSC is a project launched by SMC to crowd source Malayalam speech samples from any contributor who can read out sentences and record them as speech samples. [Read More]

Talks on Speech Recognition Research and Malayalam Computing

Sharing the videos of two informal interviews I did during the past few months. In this video I talk with Hrishikesh Bhaskaran on my involvement with SMC and my projects. This was the part of an interview series hosted by Tinker Hub Foundation. In the following video I talk on Speech recognition systems in general, and on the voice corpus initiative by SMC. This interview is hosted by Mujeeb for IB Computing Youtube channel. [Read More]

Phonetic description of Malayalam consonants

The orthography (system for writing a language) of Malayalam is considered phonemic in nature. It means the graphemes (written symbols) correspond to the phonemes (significant spoken sounds) of the language. But the correspondence between graphemes and phonemes is not precisely one-to-one. The pronunciation of graphemes can depend on its position in a word (word beginning, middle or end) and its proximity to other graphemes. It was two years back, I started to work on a grapheme to phoneme conversion tool for Malayalam. [Read More]

നിർമിതബുദ്ധിയുടെ കാലത്തെ ഭാഷാസാങ്കേതികവിദ്യ

Photo by Markus Spiske on Unsplash ജനയുഗം ഓണപ്പതിപ്പിനു വേണ്ടിയെഴുതി പ്രസിദ്ധീകരിച്ച ലേഖനം ആമുഖം ഭാഷയുടെ ഉപയോഗത്തെ സാങ്കേതികവിദ്യ വളരെയധികം സ്വാധീനിക്കുന്നുണ്ട്. കൈയിലൊതുങ്ങുന്ന കമ്പ്യൂട്ടിങ്ങ് ഉപകരണങ്ങൾ നിത്യജീവിതത്തിന്റെ ഭാഗമാകുന്ന കാലമാണിത്. അപ്പോൾ മനുഷ്യരോടെന്നപോലെ സ്വാഭാവികമായി അവയോടും സംവദിക്കുന്നതിന്റെ ആവശ്യം വർദ്ധിക്കുന്നു. ആപ്പിളിന്റെ സിരിയും, ആമസോണിന്റെ അലക്സയും ഡിജിറ്റൽ അസിസ്റ്റന്റുകളായി സേവനം തുടങ്ങിക്കഴിഞ്ഞു. വെറും വാചാനിർദ്ദേശങ്ങൾ കൊണ്ട് നമുക്കായി സിനിമാടിക്കറ്റ് ബുക്ക് ചെയ്യാനും, ഭക്ഷണം ഓർഡർ ചെയ്യാനും, മെയിലയക്കാനും, അലാറം വെയ്ക്കാനുമൊക്കെ ഇത്തരം ഡിജിറ്റൽ അസിസ്റ്റന്റുകൾക്ക് ഇന്ന് കഴിയും. വളരെ കണിശമായ പ്രോഗ്രാമിങ്ങ് നിർദ്ദേശങ്ങൾ പ്രകാരം മാത്രം പ്രവർത്തിക്കുന്ന ഉപകരണങ്ങളൊക്കെ ഇവയ്ക്കുമുന്നിൽ വഴിമാറുകയാണ്. [Read More]

Information, Entropy and Malayalam

It was during my undergraduate course, I was awestruck by the idea that Information is quantifiable. Until then information for me was an abstract term. It still would have been, if not in the realm of information storage, transmission and retreival. As a layman we associate the term information to various contexts - text content of books and newspapers, videos from news rooms, speech from telephonic conversations, audio podcasts etc- all contains information. [Read More]

എന്താണ് ഓപ്പൺടൈപ്പ് എഞ്ചിനീയറിങ്ങ് ?

ഗായത്രിയുടെ റിലീസ് കാർഡ് പുറത്തിറങ്ങിയപ്പോൾ മുതൽ പലരും അന്വേഷിക്കുന്നുണ്ട് എന്താണീ ഓപ്പൺടൈപ്പ് എഞ്ചിനീയറിങ്ങ് എന്ന്? ലളിതമായി പരിചയപ്പെടുത്താം. വിശദമായി ഒരു ലേഖനപരമ്പര തന്നെ മുമ്പ് സ്വതന്ത്രമലയാളം കമ്പ്യൂട്ടിങ്ങ് ബ്ലോഗിൽ സന്തോഷിനും രജീഷിനുമൊപ്പം എഴുതിയിട്ടും ഉണ്ട്. ഫോണ്ട് എന്ന സോഫ്റ്റ്‌വെയർ ഒരേസമയം കലയുടേയും സാങ്കേതികവിദ്യയുടേയും സമന്വയമാണ്. കലയുടെ അംശം അതിലെ അക്ഷരരൂപങ്ങളുടെ ഡിസൈനിലാണുള്ളത്. ആയിരത്തിഒരുന്നൂറിൽപ്പരം അക്ഷരരൂപങ്ങൾ മലയാളത്തിലെ ഒരു സമഗ്രലിപിസഞ്ചയ ഫോണ്ടിലുണ്ടാവും. ഡിസൈൻ പ്ലാനിനനുസരിച്ച് ഇത് വ്യത്യാസപ്പെടാം, കുറഞ്ഞത് എഴുന്നൂറൊക്കെ ഉണ്ടാകും. യൂണിക്കോഡ് മലയാളത്തിലെ അടിസ്ഥാന അക്ഷരങ്ങൾ നമ്മൾ അക്ഷരമാലയായി സ്കൂളിൽ പഠിക്കുന്ന സ്വരങ്ങളും വ്യഞ്ജനങ്ങളും മാത്രമല്ല. മലയാള അക്കങ്ങൾ, ചിഹ്നരൂപങ്ങൾ ഒപ്പം ഇന്നുപയോഗത്തിലില്ലാത്ത പല പുരാതനലിപി രൂപങ്ങളും ഒക്കെചേരുന്നതാണ്. [Read More]

Gayathri: New Malayalam Typeface

Swathanthra Malayalam Computing proudly announces Gayathri – a new typeface for Malayalam. Gayathri has its glyphs designed by Binoy Dominic, opentype engineering done by Kavya Manohar and the project coordinated by Santhosh Thottingal. This typeface was financially supported by Kerala Bhasha Institute, a Kerala government agency under department of cultural affairs. Gayathri is a display typeface, available in Regular, Bold, Thin style variants. [Read More]

Malayalam Phonetic Analyser: Version 1.0.0

In the previous post, I had shared the work in progress version of a finite state transducer based Malaylam phonetic analyser. A phonetic analyser analyses the written form of the text to give the phonetic characteristics of the grapheme sequence. Understanding the phonetic characteristics of a word is helpful in many computational linguistic problems. For instance, translating a word into its phonetic representation is needed in the synthesis of a text to speech (TTS) system. [Read More]