Tamil Mono Voice Transcription
Deepannotate• Tamil -CONV-ASR • —
High-quality Tamil conversational speech dataset designed for training accurate and scalable ASR systems. Captures real-world, unscripted conversations across diverse speakers and environments.
Annotation
Verbatim transcription, speaker diarization, timestamp alignment.
Quality Assurance
Multi-layer validation with automated checks and human review.
Delivery
Secure cloud delivery with structured, scalable datasets.
SAMPLE PREVIEW
AUDIO • 44100 WAV 16-BIT PCM
SAMPLE ENTITIES
SMPL-001-speaker1.wav
705 • 22100 • MONO
TRANSCRIPTION SAMPLE
[
{
“start”: “00:00:01”,
“end”: “00:00:09”,
“speaker”: “Speaker 1”,
“text”: “ச ௌந்தர்யாவ ாட அக்கா, ப்ரியா, ச ளிநாட்டுக்கு படிக்க வபாயிட்டா. ப்ரியா ச ௌந்தர்யாவ ாட உயிர்நண் பி.”
},
{
“start”: “00:00:10”,
“end”: “00:00:18”,
“speaker”: “Speaker 1”,
“text”: “தினமும்அக்காகூடதான் விளளயாடு ா, படிப்ப பத்தி வபசு ா, எல்லா ரகசியங்களளயும் பகிர்ந்துப்பா.”
},
{
“start”: “00:00:19”,
“end”: “00:00:27”,
“speaker”: “Speaker 1”,
“text”: “அக்கா இல்லாம ச ௌந்தர்யாவுக்கு ஒவர வ ாகம். தினமும்ஸ் கூல்விட்டு ந்ததும்அக்காகூடிவிளளயாடு ா, இப்வபா யாரும்இல்ளல.”
},
{
“start”: “00:00:28”,
“end”: “00:00:36”,
“speaker”: “Speaker 1”,
“text”: “ராத்திரிதூங்கும்வபாது அக்கா ஞாபகம் ரும், அப்வபா அழுளக ரும். அக்கா ந்ததும், தன் வனாட களதகளள ச ால்லணும்னுநிளனப்பா.”
},
{
“start”: “00:00:37”,
“end”: “00:00:45”,
“speaker”: “Speaker 1”,
“text”: “ஆனாஅக்காதூரமா இருக்கா. அ ளுக்கு அக்கா வமல சராம்ப பா ம். அக்கா இல்லாம ஒ ்ச ாரு நாளும்ஒரு சபரிய ருத்தம்.”
},
{
“start”: “00:00:46”,
“end”: “00:00:54”,
“speaker”: “Speaker 1”,
“text”: “வபான்ல வபசினாலும், வநர்ல பாக்குற மாதிரி இருக்காது. அக்கா கிட்ட ண் ளட வபாடணும், திரும்பவும் மாதானம்ஆகணும்னுவதாணும்.”
},
{
“start”: “00:00:55”,
“end”: “00:01:03”,
“speaker”: “Speaker 1”,
“text”: “\”ஐவயா, அக்கா எப்ப ரு ா?\”ன்னு மனசுக்குள்ளஆயிரம்வகள்வி. சில மயம்அக்கா பக்கத்துல இல்லாதது ஒரு சபரிய ச ற்றிடம் வபால வதாணும்.”
},
{
“start”: “00:01:04”,
“end”: “00:01:10”,
“speaker”: “Speaker 1”,
“text”: “ாப்பிடறதுக்கும்பிடிக்காது, விளளயாடறதுக்கும்பிடிக்காது. அக்கா ஞாபகமா ஒரு டிரஸ் ளஸஎடுத்து ்சுப்பா, அளதப்பார்த்தா இன்னும்அதிகமா அழுளக ரும்.”
},
{
“start”: “00:01:11”,
“end”: “00:01:17”,
“speaker”: “Speaker 1”,
“text”: “அக்கா வமல இருந்த பா ம், இப்வபா ஒரு சபரிய லிளய சகாடுக்குது. சநஞ்சுல ஒரு சபரிய பாரம், மூ ்சுவிடவ கஷ் டமா இருந்தது.”
}
]
SAMPLE ENTITIES
| Dataset ID | Tamil-SingleVoice-ASR |
| License | CC BY-NC 4.0 |
| Annotation Type | Transcription | Timestamp-Aligned Transcription |
| Languages | Tamil |
| Collection Method | Single-speaker recordings across diverse real-world environments |
| Hardware | Lapel microphones and portable audio recorders |
Topics Covered
Designed to support real-world speech AI and ASR model development
Core Applications
- Automatic Speech Recognition (ASR Training)
- Conversational Speech Understanding
- Voice-Based AI Systems
Language Intelligence
- Low-Resource Language Modeling (Telugu)
- Code-Mixed & Code-Switched Speech
- Multilingual Adaptation
Audio Processing
- Speaker Segmentation & Identification
- Acoustic & Phonetic Modeling
- Noise & Speech Pattern Analysis
Quality Assurance Process
Multi-level validation ensuring accuracy and consistency
Compliance & Data Review
Secure, ethical, and regulation-aligned data practices
Ready to Build AI-Ready
Audio Datasets?
Tell us your data type and volume. We’ll send a detailed proposal within 24 hours.