diff --git a/README_EN.md b/README_EN.md new file mode 100644 index 0000000..42111ba --- /dev/null +++ b/README_EN.md @@ -0,0 +1,71 @@ +### Goal of EELLAK +The goal of EELLAK is the development of a Greek Open Source language model, named glossAPI (a Greek Open Source LLM), whose code will be available under the EUPL open source license, and its data will be distributed under the Creative Commons BY-SA license. + +--- + +### 🚀 Current Action: Cataloging and Assessing Open Text Sources in Greek + +- **Consult the CONTRIBUTING.md** to contribute to the 🎯 collection and prioritization of Greek textual datasets. +- **Visit the wiki** to view or modify the recorded sources. +- Have an idea not listed in the repository? Want to suggest a fix? 🚩 Open an Issue! + +--- + +### 🔄 New Features: +- Try the **text tokenizer** (example usage) and ✏️ provide feedback through the Issues! +- Explore an application inspired by **digital humanities**. +- **Subscribe** to the newsletter at [https://newsletters.ellak.gr](https://newsletters.ellak.gr/) to stay updated on glossAPI. + +--- + +### 🎙️ Stay Connected: +- **Matrix**: Introduce yourself with a short message. +- **Catalog of Available Models in Greek**: EELLAK has initiated efforts to document available Greek language resources following the release of ChatGPT and the global surge in interest in advanced generative neural networks. + +--- + +### Why Focus on Open Standards? +As an Open Technology Organization, EELLAK views AI not as an existential threat to humanity but as a new technology for organizing and accessing human knowledge with significant practical value. From the early stages, we emphasize the importance of: +- Open standards +- Ethically sourced open data +- Privacy protection +- Bridging digital divides +- Ensuring data security + +### Applications in Public Administration: +Advanced linguistic technologies could revolutionize electronic governance by enabling public services to: +- Assist citizens through digital assistants +- Streamline internal processes otherwise requiring significant human effort + +--- + +### Challenges: +The lack of a capable Greek language model poses a tangible risk of widening the digital gap, both in citizen-state interactions and in job-seeking efforts. While innovative, generative neural networks inherit not only the advantages but also the challenges of earlier technologies, particularly within a regulatory environment protective of technological monopolies. + +The readiness of the Greek language to engage with these new technologies has been weakened by decades of political and strategic decisions. Some organizations with access to high-quality data are developing proprietary Greek LLMs. However, the community remains impoverished in terms of data resources. Therefore, creating an open, ethically sourced, machine-accessible, and representative dataset for the Greek language remains a top priority for the open-source community. + +--- + +### Efforts and Observations: +- EELLAK’s focus has been on cataloging and documenting reusable Greek-language sources. +- Paradoxically, the most linguistically valuable data—reflecting diverse textual genres and uses of the Greek language—are often digitized but not machine-accessible due to user-hostile website structures, lack of OCR, or restrictive licenses. +- While easily accessible data have already been utilized, inaccessible data require extensive effort. Closed datasets will remain closed. +- It’s almost certain that a proprietary Greek language model will emerge soon, but this will mark a significant disadvantage for open technologies. + +--- + +### The Importance of Open Data: +The idea that the data of an entire nation could be transferred to remote servers of a transatlantic tech monopoly poses security and privacy risks and contradicts numerous European directives binding Greece. Relying on external technology providers is a minefield for: +- Security +- Privacy +- Innovation + +--- + +### Stay Updated: +- Read our articles on linguistic models and international developments: + - Neural Networks and Machine Learning + - Open Source and Advanced Neural Networks + - What we know about the rapid advances at OpenAI... + - Philosophical implications of neural networks + - AI and the future of work \ No newline at end of file diff --git a/README_ES.md b/README_ES.md new file mode 100644 index 0000000..a94cef7 --- /dev/null +++ b/README_ES.md @@ -0,0 +1,71 @@ +### Objetivo de EELLAK +El objetivo de EELLAK es el desarrollo de un modelo de lenguaje de código abierto en griego, denominado glossAPI (un LLM griego de código abierto), cuyo código estará disponible bajo la licencia de código abierto EUPL y cuyos datos se distribuirán bajo la licencia Creative Commons BY-SA. + +--- + +### 🚀 Acción Actual: Catalogación y Evaluación de Fuentes de Texto Abiertas en Griego + +- **Consulte el CONTRIBUTING.md** para contribuir a la 🎯 colección y priorización de conjuntos de datos textuales en griego. +- **Visite el wiki** para ver o modificar las fuentes registradas. +- ¿Tiene una idea que no está listada en el repositorio? ¿Quiere sugerir una corrección? 🚩 ¡Abra un Issue! + +--- + +### 🔄 Nuevas Características: +- Pruebe el **tokenizador de texto** (ejemplo de uso) y ✏️ proporcione comentarios a través de los Issues. +- Explore una aplicación inspirada en las **humanidades digitales**. +- **Suscríbase** al boletín en [https://newsletters.ellak.gr](https://newsletters.ellak.gr/) para mantenerse actualizado sobre glossAPI. + +--- + +### 🎙️ Mantente Conectado: +- **Matrix**: Preséntese con un mensaje breve. +- **Catálogo de Modelos Disponibles en Griego**: EELLAK ha iniciado esfuerzos para documentar los recursos lingüísticos griegos disponibles tras el lanzamiento de ChatGPT y el aumento global del interés en redes neuronales generativas avanzadas. + +--- + +### ¿Por qué centrarse en los Estándares Abiertos? +Como una Organización de Tecnología Abierta, EELLAK ve la IA no como una amenaza existencial para la humanidad, sino como una nueva tecnología para organizar y acceder al conocimiento humano con un valor práctico significativo. Desde las primeras etapas, enfatizamos la importancia de: +- Estándares abiertos +- Datos abiertos obtenidos de manera ética +- Protección de la privacidad +- Reducción de brechas digitales +- Garantía de la seguridad de los datos + +### Aplicaciones en la Administración Pública: +Las tecnologías lingüísticas avanzadas podrían revolucionar la gobernanza electrónica permitiendo que los servicios públicos: +- Ayuden a los ciudadanos a través de asistentes digitales +- Optimicen procesos internos que de otro modo requerirían un esfuerzo humano significativo + +--- + +### Desafíos: +La falta de un modelo lingüístico griego capaz plantea un riesgo tangible de ampliar la brecha digital, tanto en las interacciones ciudadano-estado como en los esfuerzos de búsqueda de empleo. Aunque innovadoras, las redes neuronales generativas heredan no solo las ventajas sino también los desafíos de las tecnologías anteriores, particularmente en un entorno regulatorio que protege los monopolios tecnológicos. + +La preparación del idioma griego para participar en estas nuevas tecnologías se ha debilitado por décadas de decisiones políticas y estratégicas. Algunas organizaciones con acceso a datos de alta calidad están desarrollando LLMs griegos propietarios. Sin embargo, la comunidad sigue siendo pobre en recursos de datos. Por lo tanto, crear un conjunto de datos abierto, obtenido de manera ética, accesible por máquina y representativo del idioma griego sigue siendo una prioridad principal para la comunidad de código abierto. + +--- + +### Esfuerzos y Observaciones: +- El enfoque de EELLAK ha estado en catalogar y documentar fuentes reutilizables en griego. +- Paradójicamente, los datos más valiosos lingüísticamente—que reflejan diversos géneros textuales y usos del idioma griego—suelen estar digitalizados pero no accesibles por máquina debido a estructuras hostiles para el usuario en los sitios web, falta de OCR o licencias restrictivas. +- Aunque los datos fácilmente accesibles ya se han utilizado, los datos inaccesibles requieren un esfuerzo considerable. Los conjuntos de datos cerrados seguirán siendo cerrados. +- Es casi seguro que pronto surgirá un modelo de lenguaje griego propietario, pero esto marcará una desventaja significativa para las tecnologías abiertas. + +--- + +### La Importancia de los Datos Abiertos: +La idea de que los datos de los ciudadanos de toda una nación puedan transferirse a servidores remotos de un monopolio tecnológico transatlántico plantea riesgos de seguridad y privacidad y contradice numerosas directivas europeas que vinculan a Grecia. Depender de proveedores de tecnología externos es un campo minado para: +- Seguridad +- Privacidad +- Innovación + +--- + +### Mantente Actualizado: +- Lea nuestros artículos sobre modelos lingüísticos y desarrollos internacionales: + - Redes Neuronales y Aprendizaje Automático + - Código Abierto y Redes Neuronales Avanzadas + - Lo que sabemos sobre los rápidos avances en OpenAI... + - Implicaciones filosóficas de las redes neuronales + - IA y el futuro del trabajo \ No newline at end of file diff --git a/README_FR.md b/README_FR.md new file mode 100644 index 0000000..bc65eb0 --- /dev/null +++ b/README_FR.md @@ -0,0 +1,71 @@ +### Objectif de EELLAK +L'objectif de EELLAK est le développement d'un modèle linguistique open source en grec, appelé glossAPI (un LLM grec open source), dont le code sera disponible sous la licence open source EUPL et dont les données seront distribuées sous la licence Creative Commons BY-SA. + +--- + +### 🚀 Action Actuelle : Catalogage et Évaluation des Sources de Texte Ouvertes en Grec + +- **Consultez le CONTRIBUTING.md** pour contribuer à la 🎯 collecte et prioritisation des ensembles de données textuelles en grec. +- **Visitez le wiki** pour voir ou modifier les sources enregistrées. +- Vous avez une idée qui n'est pas listée dans le répertoire ? Vous souhaitez proposer une correction ? 🚩 Ouvrez une Issue ! + +--- + +### 🔄 Nouvelles Fonctionnalités : +- Essayez le **tokeniseur de texte** (exemple d'utilisation) et ✏️ fournissez vos commentaires via les Issues. +- Explorez une application inspirée des **humanités numériques**. +- **Abonnez-vous** à la newsletter sur [https://newsletters.ellak.gr](https://newsletters.ellak.gr/) pour rester informé sur glossAPI. + +--- + +### 🎙️ Restez Connecté : +- **Matrix** : Présentez-vous avec un court message. +- **Catalogue des Modèles Disponibles en Grec** : EELLAK a initié des efforts pour documenter les ressources linguistiques grecques disponibles suite au lancement de ChatGPT et à l'augmentation mondiale de l'intérêt pour les réseaux neuronaux génératifs avancés. + +--- + +### Pourquoi se concentrer sur les Standards Ouverts ? +En tant qu'Organisation de Technologie Ouverte, EELLAK considère l'IA non pas comme une menace existentielle pour l'humanité, mais comme une nouvelle technologie pour organiser et accéder aux connaissances humaines avec une valeur pratique significative. Dès les premières étapes, nous mettons l'accent sur l'importance de : +- Standards ouverts +- Données ouvertes obtenues de manière éthique +- Protection de la vie privée +- Réduction des fractures numériques +- Garantie de la sécurité des données + +### Applications dans l'Administration Publique : +Les technologies linguistiques avancées pourraient révolutionner la gouvernance électronique en permettant aux services publics de : +- Aider les citoyens via des assistants numériques +- Optimiser les processus internes qui autrement requerraient un effort humain considérable + +--- + +### Défis : +L'absence d'un modèle linguistique grec performant représente un risque tangible d'élargissement de la fracture numérique, tant dans les interactions citoyen-État que dans les efforts de recherche d'emploi. Bien qu'innovants, les réseaux neuronaux génératifs héritent non seulement des avantages mais aussi des défis des technologies précédentes, notamment dans un environnement réglementaire qui protège les monopoles technologiques. + +La préparation de la langue grecque à s'engager dans ces nouvelles technologies a été affaiblie par des décisions politiques et stratégiques prises depuis des décennies. Certaines organisations ayant accès à des données de haute qualité développent des LLMs grecs propriétaires. Cependant, la communauté reste pauvre en ressources de données. Par conséquent, créer un ensemble de données ouvert, obtenu de manière éthique, accessible par machine et représentatif de la langue grecque demeure une priorité majeure pour la communauté open source. + +--- + +### Efforts et Observations : +- L'approche de EELLAK s'est concentrée sur le catalogage et la documentation des sources réutilisables en grec. +- Paradoxalement, les données les plus précieuses sur le plan linguistique—qui reflètent divers genres textuels et usages de la langue grecque—sont souvent numérisées mais non accessibles par machine en raison de structures hostiles à l'utilisateur sur les sites web, du manque d'OCR ou de licences restrictives. +- Bien que les données facilement accessibles aient déjà été utilisées, les données inaccessibles requièrent un effort considérable. Les ensembles de données fermés resteront fermés. +- Il est presque certain qu'un modèle de langage grec propriétaire apparaîtra bientôt, mais cela marquera un désavantage significatif pour les technologies ouvertes. + +--- + +### L'Importance des Données Ouvertes : +L'idée que les données des citoyens d'une nation entière puissent être transférées vers des serveurs distants d'un monopole technologique transatlantique pose des risques de sécurité et de vie privée et contredit de nombreuses directives européennes auxquelles la Grèce est engagée. Dépendre de fournisseurs technologiques externes est un champ de mines pour : +- La sécurité +- La vie privée +- L'innovation + +--- + +### Restez Informé : +- Lisez nos articles sur les modèles linguistiques et les développements internationaux : + - Réseaux Neuronaux et Apprentissage Automatique + - Open Source et Réseaux Neuronaux Avancés + - Ce que nous savons sur les avancées rapides chez OpenAI... + - Implications philosophiques des réseaux neuronaux + - IA et l'avenir du travail \ No newline at end of file diff --git a/README_PT.md b/README_PT.md new file mode 100644 index 0000000..087b99c --- /dev/null +++ b/README_PT.md @@ -0,0 +1,71 @@ +### Objetivo do EELLAK +O objetivo do EELLAK é desenvolver um modelo de linguagem grega de código aberto, chamado glossAPI (um LLM grego de código aberto), cujo código estará disponível sob a licença EUPL e cujos dados serão distribuídos sob a licença Creative Commons BY-SA. + +--- + +### 🚀 Ações Atuais: Catalogar e Avaliar Fontes de Texto Abertas em Grego + +- **Consulte o CONTRIBUTING.md** para contribuir para 🎯 a coleta e priorização de conjuntos de dados textuais em grego. +- **Visite o wiki** para visualizar ou modificar as fontes registradas. +- Tem uma ideia que não está listada no repositório? Deseja sugerir uma correção? 🚩 Abra uma Issue! + +--- + +### 🔄 Novos Recursos: +- Experimente o **tokenizador de texto** (exemplo de uso) e ✏️ forneça seu feedback através das Issues. +- Explore um aplicativo inspirado nas **humanidades digitais**. +- **Inscreva-se** na newsletter em [https://newsletters.ellak.gr](https://newsletters.ellak.gr/) para se manter atualizado sobre o glossAPI. + +--- + +### 🎙️ Mantenha-se Conectado: +- **Matrix**: Apresente-se com uma mensagem curta. +- **Catálogo de Modelos Disponíveis em Grego**: O EELLAK iniciou esforços para documentar recursos linguísticos gregos disponíveis após o lançamento do ChatGPT e o aumento global do interesse por redes neurais generativas avançadas. + +--- + +### Por que se concentrar em padrões abertos? +Como organização de tecnologia aberta, o EELLAK não considera a IA como uma ameaça existencial à humanidade, mas como uma nova tecnologia para organizar e acessar o conhecimento humano com alto valor prático. Desde os primeiros passos, destacamos a importância de: +- Padrões abertos +- Dados abertos obtidos de forma ética +- Proteção da privacidade +- Redução das lacunas digitais +- Garantia da segurança dos dados + +### Aplicações na Administração Pública: +As tecnologias linguísticas avançadas podem revolucionar a governança eletrônica, permitindo que os serviços públicos: +- Ajudem os cidadãos por meio de assistentes digitais +- Otimizem processos internos que, de outra forma, exigiriam esforço humano significativo + +--- + +### Desafios: +A ausência de um modelo de linguagem grego eficiente representa um risco tangível de ampliar a lacuna digital, tanto nas interações entre cidadãos e o Estado quanto nos esforços para encontrar emprego. Embora as redes neurais generativas sejam inovadoras, elas herdam não apenas as vantagens, mas também os desafios das tecnologias anteriores, especialmente em um ambiente regulatório que protege os monopólios tecnológicos. + +A preparação da língua grega para participar dessas novas tecnologias foi enfraquecida por décadas de decisões políticas e estratégicas. Algumas organizações com acesso a dados de alta qualidade estão desenvolvendo LLMs gregos proprietários. No entanto, a comunidade continua carente de recursos de dados. Portanto, criar um conjunto de dados aberto, obtido de forma ética, acessível por máquinas e representativo da língua grega permanece uma prioridade principal para a comunidade de código aberto. + +--- + +### Esforços e Observações: +- O foco do EELLAK tem sido catalogar e documentar fontes reutilizáveis em grego. +- Paradoxalmente, os dados mais valiosos do ponto de vista linguístico—que refletem diversos gêneros textuais e usos da língua grega—são frequentemente digitalizados, mas não acessíveis por máquinas devido a estruturas hostis ao usuário em sites, falta de OCR ou licenças restritivas. +- Embora os dados fáceis de acessar já tenham sido utilizados, os dados inacessíveis exigem esforços significativos. Conjuntos de dados fechados continuarão fechados. +- É quase certo que em breve surgirá um modelo de linguagem grego proprietário, mas isso representará uma desvantagem significativa para as tecnologias abertas. + +--- + +### A Importância dos Dados Abertos: +A ideia de que os dados dos cidadãos de uma nação inteira possam ser transferidos para servidores remotos de um monopólio tecnológico transatlântico cria riscos de segurança e privacidade e contradiz várias diretivas europeias às quais a Grécia está vinculada. Dependência de fornecedores de tecnologia externos é um campo minado para: +- Segurança +- Privacidade +- Inovação + +--- + +### Mantenha-se Atualizado: +- Leia nossos artigos sobre modelos linguísticos e desenvolvimentos internacionais: + - Redes Neurais e Aprendizado de Máquina + - Código Aberto e Redes Neurais Linguísticas Avançadas + - O que sabemos sobre os avanços rápidos da OpenAI... + - Implicações Filosóficas das Redes Neurais + - IA e o Futuro do Trabalho \ No newline at end of file diff --git a/README_RU.md b/README_RU.md new file mode 100644 index 0000000..505c295 --- /dev/null +++ b/README_RU.md @@ -0,0 +1,71 @@ +### Цель EELLAK +Цель EELLAK — разработка греческой модели языка с открытым исходным кодом, называемой glossAPI (греческая LLM с открытым исходным кодом), чей код будет доступен под лицензией EUPL, а данные будут распространяться под лицензией Creative Commons BY-SA. + +--- + +### 🚀 Текущие действия: Каталогизация и оценка открытых текстовых источников на греческом языке + +- **Изучите CONTRIBUTING.md**, чтобы внести вклад в 🎯 сбор и приоритизацию текстовых наборов данных на греческом языке. +- **Посетите вики**, чтобы просмотреть или изменить зарегистрированные источники. +- У вас есть идея, которой нет в репозитории? Хотите предложить исправление? 🚩 Откройте Issue! + +--- + +### 🔄 Новые функции: +- Попробуйте **токенизатор текста** (пример использования) и ✏️ оставьте свои отзывы через Issues. +- Изучите приложение, вдохновленное **цифровыми гуманитарными науками**. +- **Подпишитесь** на рассылку новостей на [https://newsletters.ellak.gr](https://newsletters.ellak.gr/), чтобы быть в курсе обновлений glossAPI. + +--- + +### 🎙️ Оставайтесь на связи: +- **Matrix**: Представьтесь коротким сообщением. +- **Каталог доступных моделей на греческом языке**: EELLAK начал усилия по документированию доступных греческих языковых ресурсов после выпуска ChatGPT и глобального роста интереса к продвинутым генеративным нейронным сетям. + +--- + +### Почему важно сосредоточиться на открытых стандартах? +Как организация открытых технологий, EELLAK рассматривает ИИ не как экзистенциальную угрозу человечеству, а как новую технологию для организации и доступа к человеческим знаниям с высокой практической ценностью. С первых шагов мы подчеркиваем важность: +- Открытых стандартов +- Этически полученных открытых данных +- Защиты конфиденциальности +- Сокращения цифрового разрыва +- Обеспечения безопасности данных + +### Применение в государственном управлении: +Продвинутые языковые технологии могут революционизировать электронное управление, позволяя государственным услугам: +- Помогать гражданам через цифровых помощников +- Оптимизировать внутренние процессы, которые в противном случае требуют значительных человеческих усилий + +--- + +### Вызовы: +Отсутствие производительной греческой языковой модели представляет ощутимый риск расширения цифрового разрыва, как в взаимодействиях между гражданами и государством, так и в усилиях по поиску работы. Хотя генеративные нейронные сети инновационны, они наследуют не только преимущества, но и вызовы предыдущих технологий, особенно в среде регулирования, которая защищает технологические монополии. + +Готовность греческого языка к участию в этих новых технологиях была ослаблена десятилетиями политических и стратегических решений. Некоторые организации, имеющие доступ к данным высокого качества, разрабатывают проприетарные LLM на греческом языке. Однако сообщество остается бедным ресурсами данных. Поэтому создание открытого, этически полученного, машинно доступного и представительного набора данных для греческого языка остается приоритетной задачей для сообщества с открытым исходным кодом. + +--- + +### Усилия и наблюдения: +- Подход EELLAK был сосредоточен на каталогизации и документировании повторно используемых источников на греческом языке. +- Парадоксально, что наиболее ценные с точки зрения лингвистики данные—отражающие разнообразные текстовые жанры и использования греческого языка—часто оцифрованы, но не доступны для машинного чтения из-за неудобных для пользователя структур веб-сайтов, отсутствия OCR или ограничительных лицензий. +- Хотя легко доступные данные уже использовались, недоступные данные требуют значительных усилий. Закрытые наборы данных останутся закрытыми. +- Почти наверняка вскоре появится проприетарная греческая языковая модель, но это станет значительным недостатком для открытых технологий. + +--- + +### Важность открытых данных: +Идея, что данные граждан целой нации могут быть переданы на удаленные серверы трансатлантической технологической монополии, создает риски безопасности и конфиденциальности и противоречит многим европейским директивам, к которым Греция привержена. Зависимость от внешних поставщиков технологий—это минное поле для: +- Безопасности +- Конфиденциальности +- Инноваций + +--- + +### Оставайтесь в курсе: +- Читайте наши статьи о языковых моделях и международных разработках: + - Нейронные сети и машинное обучение + - Открытый код и продвинутые нейронные языковые сети + - Что мы знаем о быстрых достижениях OpenAI... + - Философские аспекты нейронных сетей + - ИИ и будущее труда \ No newline at end of file diff --git a/README_ZH.md b/README_ZH.md new file mode 100644 index 0000000..07d4878 --- /dev/null +++ b/README_ZH.md @@ -0,0 +1,25 @@ +### EELLAK的目标 +EELLAK的目标是开发一个带有开源代码的广元语言模型,名举glossAPI(一个广元开源语言模型)。该模型的代码将在EUPL许可下揭优化,并通过Creative Commons BY-SA许可分享作为数据。 + +--- + +### 🚀 当前行动:统计和评价广语字源 + +- **参阅 CONTRIBUTING.md**,为添加和优先排序广语语言模型数据集服务。 +- **访问wiki,查看或更改记录了的资源。 +- 有一些想法,但在库中未列下?想提供一些修正?通过“开始Issue”提供!! + +--- + +### 🔄 新功能: +- 体验**文本过滤器**(用例展示),通过“Issue”提供评价。 +- 体验一些**数字人文学科基础下的项目** +- **登录** [https://newsletters.ellak.gr](https://newsletters.ellak.gr/),了解glossAPI的最新加更 + +--- + +### 🎙️ 保持联系: +- **Matrix:**短消息中保持联系。 +- **gloss广汇文解编。**在世界最新ChatGPT及整后添加入…… +--- +对于广汇,新传逐。,重最进一步展览 \ No newline at end of file