IIIT-Synthetic-R-Punjabi

Language

Punjabi

Modality

Printed

Details Description

The IIIT-Synthetic-R-Punjabi dataset consists of synthetically created 7,51,200 word images along with their corresponding annotations. To create synthetic images, freely available Unicode fonts are used to render synthetic word images. The number of fonts used for Punjabi is 451. We use ImageMagick, Pango, and Cairo tools to render text onto images. To mimic the typical document images, we generate images whose background is always lighter (higher intensity) than the foreground. Each word is rendered as an image using a random font. Font size, font styling such as bold and italic, foreground and background intensities, kerning, and skew are varied for each image to generate a diverse set of samples. A random one-fourth of the images are smoothed using a Gaussian filter with a standard deviation (๐œŽ) of 0.5. Finally, all the images are resized to a height of 32 while keeping the original aspect ratio. This dataset is divided into Training, Validation, and Test Sets consisting of 5,25,840, 75,120, and 1,50,240 word images and their corresponding ground truth transcriptions. There are 102705 Punjabi words in the training set.

Training Set:

train.zip contains folder named โ€œimagesโ€ with 5,25,840 word level images, โ€œtrain_gt.txtโ€ containing image name and ground truth text separated by โ€œTab spaceโ€ and โ€œlist_of_words.txtโ€ contains list of 1,02,705 words in the Training set.

Validation Set:

val.zip contains folder named โ€œimagesโ€ with 75,120 word level images, and โ€œval_gt.txtโ€ containing image name and ground truth text separated by โ€œTab spaceโ€.

Test Set:

test.zip contains folder named โ€œimagesโ€ with 1,50,240 word level images, and โ€œtest_gt.txtโ€ containing image name and ground truth text separated by โ€œTab spaceโ€.

Downloads

To download Train, Test or Val data, please Login

Login Sign Up

Sample Word Level Images from Training Set

Image Ground Truth
เจตเจฟเจšเจฟเฉฑเจคเจฐ
เจ…เจจเจฐเฉฑเจฅ
เจ…เจชเจš
เจšเจฒเฉ‚เฉฐเจ—เฉ€
เจจเจพเจฒเจธเจฌเฉฐเจงเจค
เจจเจพเจ‚
เจฐเฉ‚เจฌเจฐเฉ‚เจ†เจ‚
เจตเจฒเจตเจฒเฉ‡
เจฆเฉเจฐเจฟเจถเจŸเฉ€เจ•เฉ‹เจฃเจ‡เฉฑเจ•เฉ€เจตเฉ€เจ‚
เจฐเฉ‹เจŸเฉ€เจ–เจพเจงเฉ€
เจธเฉ‚เจฌเฉ‡เจฆเฉ‡
เจฆเจฟเจตเจธ
เจœเจฟเจฐเจน
เจœเจฎเจ˜เจŸเจพ
เจจเจฟเจเจ•
เจœเฉ‹เจคเจธ
เจฏเจคเจจเจฆเฉ€
เจฐเจšเจจเจพเจ…เฉฑเจœ
เจธเจชเจจเฉ‡
เจšเฉ€เจ•เจฆเฉ€เจ†เจ‚
เจคเจฟเจ†เจฐเจฌเฉˆเจ เจพ
เจธเจตเฉˆเจคเฉฐเจคเฉเจฐเจคเจพเจ‚เจฎเฉˆเจ‚
เจญเจฌเฉ‚เจ•เฉ‡
เจญเจฐเจพเจคเจพเจ‚
เจจเจนเฉ€เจ‚เจนเจพเจฒเจพเจ‚เจ•เจฟ
เจนเฉˆเจ‚เฉฉเจธเจฐเจฆเจพเจฐ
เจ•เจฒเจพเจ•เจพเจฐเจตเจฟเจœเฉ€
เจฌเฉเจฒเฉเจนเจพเฉฐเจ‚
เจ…เฉฑเจ—เฉ‡เจ•เฉเจ
เจฎเจธเฉ‹เจธเฉ‡
เจฆเฉ‹เจธเฉŒ
เจธเจพเจฎเจ—เจฐเฉ€
เจ—เฉเจฐเจตเจพเจ•
เจฌเฉเจฐเจนเจฎเจ•เจพเจ‚เจคเฉ€
เจชเจนเจฒเฉ€เจเจฒเจ•
เจ‡เจคเจซเจพเจ•เฉ€เจ†
เจœเจพเจ‚เจ‰เจคเจธเจพเจน
เจชเจฐเจฃเจพเจˆเจ
เจชเฉเจฐเจธเฉฐเจจเจคเจพ
เจ•เฉเจŸเจฆเจพ
เจ‡เฉฐเจฆเจฐเจธเจพเจฐเฉ‡
เจจเฉ‚เฉฐเจฆเฉ‡เจ–
เจตเจธเจคเฉ€
เจฎเฉเจฐเจฟเจคเจ•
เฉ™เจฟเจ†เจฒเจตเจฟเจš
เจฎเฉˆเจ‚เฉšเจฐเฉ€เจฌเฉ€
เจ•เฉเจคเจพเจนเฉ€
เจ•เจฟเฉ›เจจเจพเจจเฉ€เจ†เจ‚
เจจเฉ‚เฉฐเจฎเฉˆเจจเฉ‡เจœเจฐ
เจนเฉˆเจ˜เฉ‹เฉœเจพ
เจธเฉ›เฉ‡เจฐเฉ€เจ…เจจ
เจฒเจพเจนเฉŒเจฐเจธเฉเจฃ
เจชเจฐเจ—เจŸเจพเจ‰เจฃ
เจธเฉ€เจฆเจฟเจธเจฆเจพ
เจชเจฒเจ•
เจคเฉ‡เจธเฉฐเจ˜เจฃเฉ€เจ†เจ‚
เจ…เจ•เจพเจฐเจ…เจคเฉ‡
เจฎเฉˆเจ‚เจธเจญเจจเจพเจ‚
เจเจน
เจฒเจŸเจ•เจพเจ‡เจ†
เจ†เจญเจพเจธ
เจฒเจพเจ—เจตเฉฑเจกเจพ
เจ•เจฟเจœเจฟเจนเฉœเฉ‡
เจธเจพเจœเจฃเจ…เจฆเจพ
เจธเจตเฉˆเจœเฉ€เจตเจจเฉ€เจฎเจœเฉ€เจ เจพ
เจœเจฟ
เจ•เจฐเฉ‹เจคเฉ‡
เจฆเจฐเจตเฉ‡เจถ
เจฏเจพเจฆเจฒเฉœเฉ€
เจจเจฟเจ•เจฒเจ†เจˆ
เจชเจฐเจ‡เจนเจฆเฉ‡
เจ‰เจธเจจเจพเจฐเฉ€
เจคเจพเฉœเจจ
เจœเจจเจฎเจญเฉ‚เจฎเฉ€
เจชเฉฑเจฅเจฐเจชเฉเฉœเจพเจ‚
เจฆเจพเจเฉฐเจกเจพ
เจชเจฒเฉ‹เจธเจฃเจพ
เจธเฉฐเจฌเฉฐเจงเจนเฉˆ
เจ–เฉเจธเฉฑเจŸ
เจชเจฟเฉฐเจœเจฃเฉ€เจ†เจ‚
เจฌเฉฐเจ—เจพเจฒเฉ€เจธเฉฐเจ—เฉ€เจค
เจ…เจนเฉ‚เฉฐเจชเจ
เจ…เฉœเจพเจ‰เจฃเฉ€
เจธเจฐเฉ‹เจฆ
เจ•เจพเจฐเจคเจฟเจ•
เจ†เจ–เจพเจ‚เจ—เฉ€
เจฏเฉเจ—เฉงเจ†เจ‚เจฆเจฐเฉ‡
เจ…เจฒเจพเจ‚เจญเฉ‡
เจธเฉ‚เจšเจจเจพ
เจœเจพเจฃเจฆเจฟเจ†เจ‚
เจธเฉ‚เจฒ
เจ‰เฉฑเจšเจซเจฐเฉ€เจ•เฉเจ‡เฉฐเจธเฉ€
เจธเจพเจ•เจธเจฌเฉฐเจงเฉ€เจ†เจ‚
เจชเฉ€เจฐเฉ€
เจชเจฟเจจ
เฉ™เฉเจฐเจ•เจฃ
เจธเฉเจฐเจพเจคเจพ
เจฆเฉ‡เจ–เจพ
เจซเฉเจนเจพเจฐเฉ€
เจจเจพเจ…เจฐเจพ

Feedback form