IIIT-Synthetic-R-Gujarati

Language

Gujarati

Modality

Printed

Details Description

The IIIT-Synthetic-R-Gujarati dataset consists of synthetically created 6,12,300 word images along with their corresponding annotations. To create synthetic images, freely available Unicode fonts are used to render synthetic word images. The number of fonts used for Gujarati is 807. We use ImageMagick, Pango, and Cairo tools to render text onto images. To mimic the typical document images, we generate images whose background is always lighter (higher intensity) than the foreground. Each word is rendered as an image using a random font. Font size, font styling such as bold and italic, foreground and background intensities, kerning, and skew are varied for each image to generate a diverse set of samples. A random one-fourth of the images are smoothed using a Gaussian filter with a standard deviation (๐œŽ) of 0.5. Finally, all the images are resized to a height of 32 while keeping the original aspect ratio. This dataset is divided into Training, Validation, and Test Sets consisting of 4,28,610, 61,230, and 1,22,460 word images and their corresponding ground truth transcriptions. There are 3,60,026 Gujarati words in the training set.

Training Set:

train.zip contains folder named โ€œimagesโ€ with 4,28,610 word level images, โ€œtrain_gt.txtโ€ containing image name and ground truth text separated by โ€œTab spaceโ€ and โ€œlist_of_words.txtโ€ contains list of 3,60,026 words in the Training set.

Validation Set:

val.zip contains folder named โ€œimagesโ€ with 61,230 word level images, and โ€œval_gt.txtโ€ containing image name and ground truth text separated by โ€œTab spaceโ€.

Test Set:

test.zip contains folder named โ€œimagesโ€ with 1,22,460 word level images, and โ€œtest_gt.txtโ€ containing image name and ground truth text separated by โ€œTab spaceโ€.

Downloads

To download Train, Test or Val data, please Login

Login Sign Up

Sample Word Level Images from Training Set

Image Ground Truth
เชฌเซ€เชถเชช
เช•เชพเชฐเช•เชฟเชฐเซเชฆเซ€เชจเซ‹
เชธเซเชฒเซ€เชฎ
เชถเซเชฐเชฆเซเชงเชพเช‚เชœเชฒเชฟเช…เชฎเชจเซ‡
เชชเชฐเชฆเซ‡เชถเชฎเชพเช‚เช…เชฐเซเชฅ
เช…เชงเซเชฏเชพเชคเซเชฎเชœเซเชžเชพเชจเซ€
เชกเซ‹เชฒเชฐเซงเซซ
เช•เชพเช‚เชšเชจเชœเช‚เช˜เชพเชจเซ‡
เชฆเซ‡เชฒเชตเชพเชกเชพเชฅเซ€
เช“เชธเซเชŸเซเชฐเซ€เชฏเชพเชฅเซ€
เชฎเช‚เชกเชฒเซ‡เชธเชฐเชพ
เช†เช–เชฐเชพ
เชฎเชพเชฏเชพเชฆเชฐเซเชชเชฃ
เชฐเชธเซ‹เชกเซ‡เชฅเซ€
เชตเช—เซ‡เชฐเซ‡เชฒเซ‹
เชฐเชนเซ‹เชธเชนเซเชจเซ‡
เชฎเชนเชฆเชฆเช…เช‚เชถเซ‡
เชตเชฟเช•เชธเชพเชตเซ€เชคเชพเชฐเชพ
เชฎเซ‡เชฒเซเชตเซ€เชฒ
เชฐเซเชนเซ‹เชกเซ‹เชธเซเชชเชฟเชฐเชฟเชฒเชฎ
เช‹เชคเซเชณเชกเชฆเซเชฎเช‡เชกเชก
เชฎเชจเชฆเซเชƒเช–เซ‹
เชฌเชพเชฒเชพเชธเชฟเชจเซ‰เชฐ
เช–เซ‹เชณเซ‹เชจเซ‡
เชฒเชนเซ‡เชฐเชพเชตเชœเซ‹เชธเซเชฐเชค
เช เชพเชจเซ‹
เชถเซเช‚เช†เชจเช‚เชฆเชญเชพเช‰
เชšเช‚เชฆเซเชฐเชพเชจเซ‹
เชฐเชพเช–เชœเซ‹เชฎเซ‡
เชฐเชšเชพเชคเซเชฎเช•
เช‰เชกเซ‡เชฒเซ€
เชฐเชพเช–เชตเชพเชจเซ€เช…เช‚เชงเชถเซเชฐเชฆเซเชงเชพเชจเซเช‚
เชฌเชคเชพเชตเชพเชฏเชพเช‡เชฒเชพเชนเชพเชฌเชพเชฆ
เช“เชถเซ‹เชจเซ‹
เช‰เชšเซเชšเชฎเชพเชงเซเชฏเชฎเชฟเช•
เช•เชพเชฐเซเชฏเซ‹เชฎเซเชนเซ‚เชฐเซเชค
เชเชตเซ‡เชฐเชฌเชพ
เชเชพเชตเซ‡
เชฌเซ‡เชœเชผเชฟเช‚เช—เชธเซเชŸเซ‹เช•
เช…เชฎเชฟเชคเซ‡เชคเชฌเซ€เชฌเซ‹เชจเชพ
เช–เซ‚เชฃเซ‡เชฎเซ‡เช‚
เชฆเชฟเชตเชพเชฃเซ€เช…เซ‡
เชธเชพเช—เชฌเชพเชฐเชพ
เชถเช•เซ‡เชธเช‚เชตเชคเซ
เชธเชพเช‚เชธเชฐ
เชคเชพเชฐเชฒเซ€เชฏเชพเชจเชพเช‚
เช•เซ‹เชชเชฐเซ‡เชฒเชจเซ‡
เชœเชฐเชพเชœเช•เซ‹เชŸเชฎเชพเช‚
เช•เซ‹เชถเซ€เชทเซ‹เชจเชพ
เชฅเช‚เช•เชฏเซ‚
เช—เชฟเชฐเซเชฆเซ€เชฎเชพเช‚
เชฒเชพเช—เซ‡เชตเชฟเชšเชพเชฐเซ‹
เช›เซ‡เชฎเซ‚เชกเซ€เชฐเซ‹เช•เชพเชฃเซ‹
เชธเช‚เชญเชณเชพเชตเซ‹เชชเชฃ
เชนเชคเชพเชฌเชฆเชฐเซ€เชฌเชฆเชฐเซ‡
เชœเซเช เชพเชญเชพเชˆ
เชชเชนเซ‹เช‚เชšเชกเชพเชตเซ€
เชญเชฟเช•เซเชทเซเช•เซ‹เชจเซ‡
เชธเช†เชฅเซ‡
เชธเชฟเชจเซ‡เช•เชฒเชพเช•เชพเชฐเซ‹เช‚
เชฐเชนเซ€เชฐเซ‡
เซจเซจเซฆเซซเซฆเชจเชพ
เช•เซƒเชคเชพเชžเซเชœเชฒเชฟเชƒ
เชคเชพเซจเซชเซจเซซเซจเซฌ
เชšเชฟเชกเชผเชฟเชฏเชพเช˜เชฐ
เชฒเซ€เชงเซเช‚เช–เซเชฐเชถเซ€
เช›เซ‡เชนเซ‹เช‚เชถเซ‡
เช…เชฃเชฌเซ‹เชฒเซ€
เชฎเซŒเชฒเชพเชจเชพเชต
เช…เชฃเชธเชฎเชœ
เชœเซ‹เชฏเซเช‚เชฒเชจเซเชกเชจ
เชฎเซเชฐเซเชถเชฟเชฆเชพเชฌเชพเชฆ
เชถเซ‡เชฐเซ‹เช‚เชฎเชพเช‚
เชฌเซ‡เชšเชฐเชญเชพเชˆเชจเซ‡
เชนเซ‡เชฒเซเชฅเชตเซ‡เชฒเซเชฅเชชเชพเชตเชฐ
เชกเชฟเชธเช“เชฐเซเชกเชฐเซเชธเชจเซ€
เช•เซเชจเซเชฆเชพเชตเชพเชฒเชพเช
เช•เซ‡เชเช เชพเช‚
เชนเชคเซเช‚เชธเชพเช‚เชญเชฐเซ‡
เชœเชพเชฃเชต
เชฎเชจเชธเชฟเช•
เชฎเชฐเซเชฎเชจเซ€
เช‡เชธเซเชฒเชพเชฎเชพเชฌเชพเชฆเชƒ
เช เซ‡เชฐเชธเชฆเชพเชšเชพเชฐ
เชนเชŸเชตเซเช‚เชซเชฟเชซเชพ
เชฎเชพเชจเช•เซ‚เชตเชพเชฎเชพเช‚
เชจเชฟเซซเชฒเชฎเชพเช‚เชฅเซ€
เชตเชพเชฒเซเชฒเซ‡เชšเชฟเชฏเชพ
เซฌเซญเซฎเซซ
เช†เช•เชพเชถเช—เช‚เช—เชพ
เชธเชฐเช‰เชธเซ‡
เชฆเซ‡เชขเชฟเชฏเชพ
เชเชฎเช•เซ‡เชจเซ‹
เชคเซ€เชฐเซเชฅเชฐเซ‚เชชเชพ
เช˜เชฃเชพเชธเซ‡เชจเซเชธเซ‡เช•เซเชธ
เชเชฒเซˆ
เชชเซ‹เชนเชฃเซ‡
เชถเซเชฐเซ‡เชฏเชพเช‚เชท
เชธเชชเชจเชพเช‚เชฐเชพเชœเช•เซ€เชฏ
เชชเชพเช‚เชšเชตเซ‡เช‚

Feedback form