Bilingual (EN, AL) corpus v.1.02 based on WikiMatrix

49 Last view: 2025-09-12

1 Last update: 2022-12-09

5 Last download: 2025-03-24

Bilingual (EN, AL) corpus v.1.02 based on WikiMatrix

Bilinugal dataset (EN, AL) based on the WikiMatrix coprus which is constructed as described in "WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia". It was filtered with the purpose of removing TUs with limited or no use. It includes 401501 Translation Units.

Distribution

Availability: Available

Licences

CC-BY-SA-3.0

Conditions: Attribution, Share Alike

Distribution Details

Contact Persons

Stelios Piperidis

Prokopis Prokopidis

Vassilis Papavassiliou

text

Bilingual text corpusLanguages

Albanian (sq)

English (en)

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Text Format

TMX

Size

401,501 Translation Units

Character encoding

UTF-8

Resource Creation

Created using ELRC Services

Funding Project

European Language Resource Coordination 3.0 (ELRC3.0 - SMART 2019/1083 LC-01325001)

URL: http://www.lr-coordi...

Funding Type: Eu Funds

Funder: European Commission

Funding Country: European Union (EU)

Metadata

Created: 24/09/2020

Last Updated: 07/12/2022

Metadata Language: English (en)

Metadata Creator

Vassilis Papavassiliou

Version

Version: 1.0

Last Updated: 19/02/2021

Relations

Relation Type: Has Part

People who looked at this resource also viewed the following:

People who downloaded this resource also downloaded the following:

Bilingual (EN, AL) corpus v.1.05 based on WikiMatrix

Resources from the same project