முகப்பு விரிதரவு

அறிமுகம்

        மிழ்மொழியில் நல்லதொரு மென்பொருள் (software) உருவாக்கப்பட வேண்டும் என்ற எண்ணத்துடனும், தமிழைக் கணினியில் (computer) கொண்டு செல்ல வேண்டும் என்ற முயற்சிக்கு உறுதுணையாக நிற்கும் வகையிலும் மொழியியல் (linguistics) அடிப்படையிலான இலக்கணக்குறிப்புடன் கூடிய தமிழ் விரிதரவு (annotated corpus) தயாரிக்கும் பணி நடந்தேறி வருகிறது.

        இவ்விரிதரவுப் பணிக்காகத் தமிழ் இணையக்கல்விக் கழகம் தனது மின்நூலகத்திலுள்ள அனைத்து நூல்களின் சொற்களுக்கும் மொழியியல் அடிப்படையிலான இலக்கணக்குறிப்பை அளித்து வருகிறது. இவ்விரிதரவினை மாணவர்கள், ஆராய்ச்சியாளர்கள், தமிழுக்கான மென்பொருள் உருவாக்குவோர் எடுத்து கையாளும் வகையில் ஒரு பரந்துபட்டத் தேடுபொறி வசதியுடன் (Advanced search engine) த.இ.க. அமைத்துள்ளது. இது நான்கு வகையாகப் பிரிக்கப்பட்டுள்ளது. அவையாவன:

1. தமிழ் இலக்கியங்களுக்கான இலக்கணக்குறிப்பு
  Annotated corpus for Tamil literature
2. தொடரியல் மற்றும் பொருண்மையியல் விளக்கத்துடன் கூடிய விரிதரவு
  Syntactically and Semantically Annotated Tamil corpus
3. உச்சரிப்புடன் கூடிய மின் அகராதி
  An Electronic Dictionary with Pronunciation
4. வாய்மொழித்தரவு
  Speech Database

        இதுபோன்ற ஒரு விரிதரவு தமிழ்மொழியில் இதுநாள் வரை நடைபெறவில்லை என்பது இங்கு குறிப்பிடத்தக்கதாகும்.

தமிழ் இலக்கியங்களுக்கான இலக்கணக்குறிப்பு

Annotated corpus for Tamil literature

        தமிழ் இலக்கியங்களுக்கான இலக்கணக்குறிப்பின் முகப்பில் நூல் தேர்வு செய்தல், சொல்லைத் தட்டச்சு செய்தல், போன்ற அமைப்புகள் அளிக்கப்பட்டுள்ளன. இதன் மூலம் தேவையான நூலையோ அல்லது தேவைப்பட்ட தொகுதியோ எதை வேண்டுமானாலும் தேர்வு செய்யலாம். சொல்லைத் தட்டச்சு செய்தல் பகுதியில் தேடும் சொல்லைத் தட்டச்சு செய்து தேடினால், சொல் உள்ள நூல் எப்பகுதியில் சொல் அமைந்துள்ளது என்றும், தேடிய சொல் உள்ள வரி, பாடல் எண், பாடல் வரி எண் மற்றும் உட்தலைப்புடன் தோன்றும்.

        இவ்விலக்கணக்குறிப்பு விரிதரவை ஆறு வகையாகப் பிரித்து தேடுதல் வசதி அமைக்கப்பட்டுள்ளது. அவையாவன:

        1. சொல்லைத் தேடிப் பெற (word search)

        2. சொல்லுக்கு இலக்கணக்குறிப்புப் பெற (to get grammatical category)

        3. இலக்கணக்குறிப்பிற்கு சொல் பெற (grammatical category for a word)

        4. சொல் சூழமைவு (keyword in context)

        5. ஒப்பீடு (compare)

        6. வரைபடம் (histogram)

1. சொல்லைத் தேடிப் பெற

         இத்தேடுதல் வசதியின் மூலம் ஒரு சொல்லைத் தேடினால் அச்சொல் தேர்வு செய்யும் நூலில் எங்கெல்லாம் வருகிறது என்பதைத் தக்கச்சான்றுடன் அளிப்பதோடு அச்சொல்லின் அடுக்குநிலைச் சொற்களையும் (paradigm) தேடிக் கண்டறியும்.

எடுத்துக்காட்டு:

         `கரும்பு` என்றச் சொல்லைத் தேடினால் `கரும்பு` என்றச் சொல் எங்கெல்லாம் வருகிறதோ அதனையும், அச்சொல்லின் அடுக்குநிலைச் சொற்களையும் தேடிக்கண்டறியும்.

கரும்பு
கரும்பிற்கு
கரும்பின்
கரும்பினால்
கரும்போடு

அதோடுமட்டுமல்லாமல் சொல்லின் பொருளை முழுமையாகப் பெற சொடுக்கியைத் தேவைப்படும் வரியின் மீது வைத்துச் சுட்டினால் அவ்வரியின் மேலுள்ள இரண்டு வரிகளும் கீழேயுள்ள இரணடு வரிகளும் சேர்ந்து மொத்தம் ஐந்து வரிகள் தனி ஒரு பக்கத்தில் தோன்றும். இதன் உதவியுடன் நாம் தேடும் சொல்லின் முழுமையான பொருள் ஆளுமையை நம்மால் நன்கு புரிந்துகொள்ள முடியும்.

எடுத்துக்காட்டு:

தொறுத்த வயல் ஆரல் பிறழ்நவும்
ஏறு பொருத செறு உழாது விந்துநவும்
கரும்பின் பாத்திப் பூத்த நெய்தல்
இருங் கண் எருமை நிரை தடுக்க நவும்
கலி கெழு துணங்கை ஆடிய மருங்கின் (பதி. 13.11-15)

        இதுநாள் வரையில் தமிழில் அமைந்துள்ள தேடுதல் வசதியில் `மலர்` என்றச் சொல்லைத் தேடினால் மலர் என்றச் சொல்லோடு மலர்ந்த, மலர்ந்து, போன்ற வினைச்சொற்களும், மலர் போன்ற பெயர்ச்சொல்லும் சேர்ந்து வரும். மலர, மலரும், போன்ற சொற்கள் வருவது கிடையாது. ஏனெனில், கணினி மலர் என்ற string யை மட்டும் தேடிக்கொண்டுவரும். கணினி புரிந்துக் கொள்ளக்கூடிய அளவில் இதுவரையில் யாரும் ஈடுபடவில்லை. இதனைச் சரிசெய்ய எண்ணி முதன்முறையாக தேடுபொறியில் மலர் என்று தட்டச்சு செய்து தேடினால் பெயர்ச்சொல், வினைச்சொல் என்று பிரித்து காட்டுகிறது. தேடுபவர் `மலருக்கான` பெயர்ச்சொல்லையோ அல்லது வினைச்சொல்லையோ தேர்ந்து எடுத்துக்கொள்ளலாம்.

2. சொல்லுக்கு இலக்கணக்குறிப்புப் பெற

        இத்தேடுதல் வசதி மூலம் தேடும் சொல்லுக்கான இலக்கணக்குறிப்பைத் தேடிப்பெறலாம்.

எடுத்துக்காட்டு:

         `வரை` என்ற சொல்லைத் தட்டச்சு செய்தால், அச்சொல் தேர்வு செய்யும் நூலில் என்னென்ன இலக்கணக்குறிப்பைப் பெற்று வருகிறது என்பதைக் காட்டும்.


வரை - (பதி.11-1) பெயர்ச்சொல்லாகவும்
  (பதி.18-3) வினைச்சொல்லாகவும்
(பதி.80-16) சொல்லுருபாகவும் வருகின்றன.

3. இலக்கணக்குறிப்பிற்கு சொல் பெற

        இதன்மூலம் தேவையான இலக்கணக்குறிப்பைத் தேர்ந்தெடுத்து அதற்குண்டானச் சொற்களைத் தேர்வு செய்யும் நூலிலிருந்துப் பெறலாம்.

எடுத்துக்காட்டு:

         `குறையெச்சம்` என்ற இலக்கணக்குறிப்பைத் தேர்வு செய்து நூலையும் தேர்வு செய்துத் தேடினால்

உடைய
அறுப்ப
துமிய
அணிய
பணிப்ப

போன்ற குறையெச்சச் சொற்கள் கிடைக்கும்.


4. சொல் சூழமைவு

        இத்தேடுதல் வசதி மூலம் ஒரு சொல் எச்சூழலில் பயன்படுத்தப்பட்டுள்ளது என்பதை அறிந்து கொள்ளலாம்.

எடுத்துக்காட்டு:

         `அன்ன` என்ற உவம உருபினைத் தேடினால் அச்சொல் எவ்வகையானச் சூழலில் இடம்பெற்று வருகிறது என்பதைக் காட்டுகிறது.

நெடியோன் | அன்ன | நல்இசை (பதி.15-39)
காலை | அன்ன | கீர்சால் வாயிமொழி (பதி.21-4)
ஒவத்து | அன்ன | வினைபுனை நல்இல் (பதி.61-3)
பாவை | அன்ன | நல்லோள் கணவன் (பதி.61-4)
பொன்னின் | அன்ன | பூவின், சிறியிலை (பதி.61-5)

5. ஒப்பீடு

        ஒப்பீடு - தலைப்பின் பணிகள் நடந்து வருகின்றன.

6. வரைபடம்

மேல்