Skip to content

Вседържец/Vsy - The AGI Infrastructure of "The Sacred Computer" AGI Institute : Custom Intelligent Selective Internet Archiving and Exploration/Crawling; Information Retrieval, Media Monitoring, Search Engine, Smart DB, Data Preservation, Knowledge Extraction,Datasets creation,AI Generative models building and testing,Experiments etc.

License

Notifications You must be signed in to change notification settings

Twenkid/Vsy-Jack-Of-All-Trades-AGI-Bulgarian-Internet-Archive-And-Search-Engine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

image

All in English (Google Translate)

  • See the Issues section for directions аnd notes by topic, collected information, plans etc. (they should move to folders and other markup files and web sites in the future)

VSY | ВСИ | ВСИЧКО

ВСЕДЪРЖЕЦ | ВСЕДЪРЖИТЕЛ |СПЕЦИАЛИСТ ПО ВСИЧКО)
MASTER OF ALL ARTS | (also JACK OF ALL TRADES)1

AGI OS and Infrastructure for agents and unmanned vehicles

Artificial General Intelligence Infrastructure: Archive and Intelligent Database of selected portions, domains, topics, areas of the Internet; Web Search engine for the Bulgarian Internet and any localized or contextualized part of it defined by geography, language, topic etc. criteria; Service for media monitoring and information retrieval; Multimodal generative models: text, sound/speech, images, video; code etc.; scientific and technical hypotheses, designs, projects; machine translation, speech synthesis, speech recognition, conversational agents etc. and building datasets and knowledge bases etc.2

This project is one of the practical preparations and calls for collaborators, warm-up, training etc. for the major AGI project of "Sacred Computer" which involves other directions and theoretical research. See the book (currently Bulgarian only): "The Prophets of the Thinking Machines: Artificial General Intelligence and Transhumanism: History, Theory and Pioneers by the Child Prodigy Founder of the Bulgarian AGI and Transhumanism and Author of the World's First University Course in AGI".

This project is connected and part of the Theory of Universe and Mind (TOUM), or "The Bulgarian Prophecies" in Artificial General Intelligence (AGI), Digital Universe/The Universe Computer, Philosophy of AI and Mind, A unification of Universe, Mind, Computation, Evolution, AI etc. 2001-2004 etc.

See subprojects (such as EZ - Drone's Brain etc.) and R&D directions currently in the Issues of the project.

Новини

19.8.2024

Интензивна изследователска и експериментална дейност, която не мога да описвам (и част не е за публикуване за момента). Нещо малко: гласовото управление на езикови модели и др., запис от 29.3.2024. Използва малък модел Whisper и допълнителна обработка, връзка с GPT4ALL и BgGPT или др. езикови модели. https://youtu.be/4X9I15qmpdo?si=6-1pzXdW6gYsDiGO image

News, 29.3.2024

New/additional titles: Master of All Trades and Вседържец/Вседържител - дума от юнашкото наречие за операционна система. Смарти 2, Тошко 3, Езикотворец и цялата инфраструктура ще използва разпознаване на реч, което вече използвам и усъвършенствам начина на работа и резултатите с малки модели. Засега се ползва Whisper. (...)

News, 19.2.2024, 24.2.2024 ... : BgGPT-7B .. +++

A lot of work in many areas, reviving Smarty and NLP R&D, collecting and organizing web/linguistic data, speech recognition, the unpublished Research Assistant ACS (...) even recalling OpenCL/CUDA for eventual usage.

Etc., many unpublished records (...)

Инфраструктура за Общ Изкуствен Интелект: Архив и умна БД на българския Интернет и на избрани части от световния; българска и световна търсачка, услуги за наблюдение и анализ на съдържанието на медиите и извличане на информация, мултимодални пораждащи модели: текст, звук/реч, образ, видео; програмен код и др.; научни и технически хипотези и проекти и пр.; машинен превод, синтез на реч, разпознаване на реч, диалогови агенти, играчи на игри и др. и създаване на ресурси с данни и знания и др.3

Този проект е част от приложната подготовка и покана за сътрудничество, "загрявка", упражнения и пр. за главния проект за Универсален изкуствен разум на институт "Свещеният сметач", който включва и други направления и теоретични и абстрактни изследвания, които все още не са включени тук. Виж книгата (засега само на български): "ПРОРОЦИТЕ НА МИСЛЕЩИТЕ МАШИНИ: ИЗКУСТВЕН РАЗУМ И РАЗВИТИЕ НА ЧОВЕКА: ИСТОРИЯ ТЕОРИЯ И ПИОНЕРИ: от основателя на българските надтелесност и общ изкуствен интелект и автор на първия в света университетски курс по общ изкуствен интелект"

СВЕЩЕНИЯТ СМЕТАЧ и ДРУЖЕСТВО ЗА ЗАЩИТА НА БЪЛГАРСКИЯ ЕЗИК - ДЗБЕ

SACRED COMPUTER: Interdisciplinary Institue For Artificial General Intelligence And Transhumanism

DZBE: Society For Protection of the Bulgarian Language

"Sacred Computers" was created in 2000 as an e-zine, publishing original works and research in AGI and Transhumanism since 2001. DZBE was informally working since 2000-2001, "officially" created in 2002.

Запазване на данни и знания от българския и световния Интернет и тяхната аналитична обработка

Автор: Тодор Арнаудов - Тош, 11.9.2022 г.

  • Как да се включа, помогна, поздравя?: Пишете в съответната тема или отворете нова подходяща (issue) или се свържете с мен: http://twenkid.com
  • Ще са от полза освен участието като разработчици, изследователи и др., и техника (компютри, дискове), хостинг, помещения и дарения (още няма формална организация за това), разгласяване и помощ за връзка с подходящи съдружници, дарители, последователи и пр.:

Какво е "Свещеният сметач"?

Многостранно интердисциплинарно изследователско-творческо дружество с цел създаване на универсални мислещи машини - изкуствен разум, общ изкуствен интелект, и за развитие на човека (космизъм, надтелесност, свръхчовечност, "трансхуманизъм"). "Свещеният сметач" е създаден като "ЕИМ СВЯТ" - "списанието на юнаците" през есента на 2000 г.; "юнаците" са вид "творчески хакери", всестранно развити личности: "сметачолюбци", които съчетават способности и желание да творят както "сметачни същности" така и всякакви видове изкуство. От своето начало "Сметач"-ът разработва и публикува програми. Например звуковите ефекти за промяна на гласа "Звуков господар", графични демота, игрите "Snake Fight" и "Черепогон"*, микротекстовия редактор с български интерфейс "Писар", синтезатора на реч "Глас 2004" вграден в "Писар" (по-късна версия - "Тошко 2"), речника на юнашкото наречие "Езикотворец", в късните версии - говорещ; системите за прехвърляне на данни от Правец-82/8М за ПК "Прехвърляч-8М" и Apple2pc. Най-напредналият интелигентен речник в света около 2007-2008 г. - "Смарти", английско български в частност, разработен също от автора на списанието, както и видеоредактора "Twenkid FX Studio"; и др.

ДЗБЕ е част от "Свещеният сметач", свързана с езикознание, социолингвистика, художествена и публицистична литература, общество. ДЗБЕ представя юнашкото наречие - разширение на българския език за поетично и художествено писане по технически и научни въпроси и за обогатяване на езика (виж стихосбирката "Играчът" и друга литература в списанието). Продължения и клонове на "Свещеният сметач" са и други авангардни блогове и страници като "Artificial Mind" - "Изкуствен разум" (2007) и "Разумир" (за обществени и социални науки, художествена литература, публицистика) и др., като понякога клоновете и жанровете се припокриват и преливат: природата на "Свещеният сметач" е междупредметна и обединяваща информатиката с изкуство и медии, философия, обществени и хуманитарни науки и пр.

Сбито описание https://web.archive.org/web/20031215043657/http://www.eim.hit.bg:80/ така както е съхранено от Архив.орг към 15.12.2003 г.

"Накратко за "Свещеният сметач"

"Свещеният сметач" е списание, създадено и списвано от Тодор Илиев Арнаудов (Тош, TodProg). В списанието могат да се открият статии, които се докосват до Изкуствен разум, езикознание, информатика, философия и физика, психология, история на изчислителната техника; проза, поезия; интервюта, разговори, събрани бисери и "осмивки" на нелепости; в първите броеве - статии за игри и приложни програми; към списанието излизат безплатни програми (досега "Писар", "Прехвърляч-8M", "Езикотворец", "Apple2pc"). Дружество "Разум"1, Дружеството за защита на българския език, и електронната библиотека "Българските сметачи" са клонове на списанието.

Сп. "Свещеният сметач" бе основан през октомври 2000 г. под името "ЕИМ & Game World". Първи брой бе обнародван в "BulPac BBS" (не съществува от края на 2001 г.), а за пръв път достъпно от Интернет беше на 25-ти декември 2000 г. на http://www.geocities.com/eimworld.

Списанието носи сегашното си название от пети януари 2001 г.

В самото начало "СВЯТ" значеше "world, Welt, monde", но скоро бе преосмислено и заглавието се преобразува в по-еднозначното "Свещеният сметач". (...)

Значението на "юнак", което се използва из статиите в списанието, по отношение на духа на заниманията с машини се доближава до "hacker" според Масачузетския Технологичен Институт от около 1960 г., но включва и допълнения. Някои неясни разяснения има в тази остаряла статия. По-ясно се разбира от речника на юнашкото наречие "Езикотворец" и юнашките разкази."

--- КРАЙ НА ЦИТАТ ---

Какъв е този проект за архив, търсачка и т.н.?

Част от по-големия проект за развитие на дружеството по Общ ИИ "Свещеният сметач", описано в книгата:

"Изкуствен разум и развитие на човека: История теория и пионери":

https://github.com/Twenkid/izkustven-razum-i-razvitie-na-choveka-kniga/

  • ИЗКУСТВЕН РАЗУМ И РАЗВИТИЕ НА ЧОВЕКА:
    ИСТОРИЯ, ТЕОРИЯ И ПИОНЕРИ


Новини, записки и планове

План/скица/насоки за първия прототип

Към 30.11.2022 г.

Вероятно използвани технологии: Python, C#, SQL, може би Java; curl и wget; ...; PHP? БД: В началото вероятно SQLite и/или Postgres локално TypeQL?, Neo4J?

Новини, общи бележки, задачи (от нови към стари)

#9 #8 #7 #11 #10

23.3.2023: In the last month, since about 21.2.2023 or so I've been working on latest extensions to my AGI book which with the new additions would exceed 1300 pages and growing. I've been doing an extensive research on AI/AGI/ML lectures, discussions, topics, presented or with the participation of leading researchers and extracting more and more matches to my teenage works, it seems not to end, with a long list of researchers who sometimes seem to tell or reason in spirit or almost literally exactly as I did in the early 2000s. More details on that: later. My original published writings from that era, 2001-2004, are in the "Sacred Computer" e-zine, also on archive.org/oocities.com, some are reprinted in Artificial-Mind, the essence was presented in the world's first course in AGI: Plovdiv 2010, 2011: http://research.twenkid.com/ http://research.twenkid.com/agi/ http://eim.twenkid.com/old/razum

The book will contain a summary and/or parallel texts/side-by-side comparison of many of the matches.

14.1.2023: ... In the mean time I've been exploring and refreshing a lot of topics, concepts and articles, drifting towards more general and wide domains related to general cognition-related sciences, maths and computer science, too wide to be generalised briefly. I also have to complete a few final articles/chapters/notes in my "AGI pioneer" book and start to "aggressively" promote and present it in the search of partners for both the AGI project and this sub-project which is part of the whole.

That postponed and may postpone a bit the beginning of an actual implementation, however I would probably switch to a more development-inclined mode of operation soon. Regarding the technical aspects of my latest studies, one of the latest domains I've been studying the last few days in a crash course is LLVM, playing with the Kaleidoscope compiler examples with intention to be able to introduce and apply development of custom languages, JIT compilation etc., possibly adding LLVM code generation for the small Virtual machine "KidVM" I developed some time ago; for code generation/automatic programming and AGI in general. As I see, ML and transformers are already geting into LLVM, with MLIR and works on application of transformer ML language models for low level optimization and code generation.

27.12.2022: ... + ... studies ... Related companies and services: two startups: Vectara and Pinecone. Watch the Issues for updates.

1.12.2022+: ... Deep and diverse exploration, research, study, refresh and deepening of the knowledge and feeding the mind with concepts, directions, topics, tasks, problems, solutions etc. in the domains of Information Retrieval, Full-text search, Search engines, Data Science, Data Bases - DBMS, Distributed (Streaming) Databases, Corpus Linguistics, NLP, Semantic Web/Semantic Technologies, HCI (Human-computer interaction); Crawling, Archive formats/data formats for serialization (WARC etc.); Strategic platforms and languages for future use (...) -- Document the notes and records more thoroughly in Issues and separate items

30.11.2022: Задача: Мисли за архитектури, модели, представяния за графи, модели, мрежи, структури за представяне на знанията и съдържанието и търсенията. Съществуващи решения и др. Проучи подробно търсещите алгоритми (методи) и търсачки на Гугъл и др. търсачки (върви).

28.11.2022: Обзор на БД за графи и др.: TypeDB, Neo4J, GraphQL (Ontotext), ... (Допиши по-късно)

26.11.2022: Обзор на свободни библиотеки за пълнотекстово търсене, БД, паяци: Lucene и производни (Solr, ElasticSearch), Nutch, ... Изпробване на настолни търсачки ... (Допиши)

Други технологии за БД:

Redis: Дали ще е полезна за просто взаимодействие между подсистеми, написани на различни езици и отделни независиморазработвани модули.

Задълбочаване на познанията по търсещи машини, уеб търсене, използвани алгоритми и тяхната история (DexRank, PageRank, ...) и пр.

Задачи: Възобнови и припомни работата с Elastic. Намери пробни БД или построй нови пробни БД за търсене: например от корпуса, който бях събрал за обучение на GPT2-MEDIUM (виж): https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools

Пробни извличания на данни и БД/първични съхранени представяния и малки паяци

  • Паяк и мини медия-клипинг на някои от българските медии.
  • Паяк за чужди медии: MSN? Yahoo, BBC
  • Паяк за страници, които посещавам.
  • Извличане на информация от сайтове за видеосподеляне: Youtube, Vbox7, Rutube.
  • Извличане на информация от социални мрежи от определени страници и профили чрез уеб посещения с четец.
  • Извличане на информация от електронни магазини: olx.bg, bazar.bg, emag, jar, erabg.com, ebay.com, amazon.com
  • Извличане от: arxiv.org, archive.org
  • Развитие на проекта с управление на модул за уеб четец (браузър) в ACS - публикуване като отделен браузър? Използване за програмирано отваряне на страници/уеб робот и извличане на информация чрез работа и с въобличника (графичния потребителски интерфейс) и чрез зрителна обработка:
  • Зрително извличане на допълнителни знанния, използване на разпознаване на обекти (Yolo и др.) и др.

Виж съществуващата услуга DiffBot, https://www.diffbot.com/, http://artificial-mind.blogspot.com/2016/06/agi-start-ups-and-research-institutes.html Тя предлага някои от функциите за извличане, към които се стреми да предлага и търсачката на "Свещеният сметач" и беше може би първата, която предлагаше индексиране и търсене с употреба и на зрителната информация (компютърно зрение) върху изчертаните страници, а не само "сляпо" текстово индексиране на основния текст и на надписите/"алтернативния текст" (alt) на изображенията.

В последствие:

Първична обработка на събрани данни:

  • Проследяване на връзки - източници, цели

  • Речников състав, обратен индекс

  • Честотни анализи и анализи

  • Опити за самостоятелно групиране, категоризация по честоти и др. особености (clustering)

  • Построяване на схеми/онтологии за класификации от човек, моделиране на теми/насоки, "topic modeling"

  • Построяване на пробни представяния за документи, текстове, абзаци, изречения ("embeddings") и изчисляване на подобия (similarity measures)

  • Създаване на пробно приложение за сравнение на свитъци - "файлове" в юнашкото наречие, информационни обекти, документи, статии, текстове, параграфи, изречения) - подобни, различни и пр.

  • Използване на машинен превод и създаване на междинно надезиково/многоезично/абстрактно общо представяне, което може да сравнява различни езици. (Виж в също clip-retrieval, въобличникът през nodejs localtunnel ). Частичен машинен превод по думи чрез речника на "Смарти". Извличане/съставяне на други речници/езикови ресурси.

  • Сравнение между свитъци, медии, географски, във времето.

  • Сравнение на настроения, оценки (sentiment analysis): положителен, отрицателен, неутрален, объркан, неизвестен и др.

25.11.2022: Преглед на примерен стар проект за Търсене на код: Sourcerer (2009) (виж научната статия). Сравни също: записки на Тош от 2014 г. за пт(мс), адресиране на всичко, вътрешни адреси, %, ?Т, РЧНК и др.

По-рано: подробно изучаване на докторската дисертация на Веселин Райчев, 2016: "Big Code".

24.11.2022: * Да се отворят страници (issues), в които да се описват роли и задачи за изпълнение по проекта.

23.11.2022: * Извършен кратък обзор на сайтове и технологии за разпределени/"федеративни" социални мрежи, микроблогове, платформи за видеосподеляне и "облачни" услуги за споделяне на файлове и услуги.

  • Задача: да се подкарат такива сървъри и клиенти. Ключови думи, теми, платформи: Mastodon, Diaspora, Friendica; PeerTube : Sepia Search, WebTorrent, HLS; Status.net, Pump.io, Activity Streams, Gnip, GNU Social - Laconica, Ostatus; Activity Pub, Nextcloud, Pixelfed, Fediverse

20.11.2022:

Технологии, библиотеки и подзадачи, които са проучвани, изпробвани и са в подготвка или се планира да бъдат приложени във връзка с този проект и други на "Свещеният сметач": LAION, CLIP, clip-retrieval, img2dataset, sentence-transformer, faiss, autofaiss; pdfminer; Stable Diffusion; уеб и файлови заявки/обхождане, източници на данни и др. Някои изпробвани за разширение: pafy. Изпробвани, но може би няма да се ползват засега: API за фейсбук. API за Туитър: може да се изпробва частично.

  • Планирани или за доразвитие:
  1. CommonCrawl, извличане на страници от Уикипедия, Читанка и др. (разшири набора от данни, използван за обучението на GPT-2-MEDIUM през 2021 г.)
  2. Извличане на n-грамен модел и построяване на индекси за сравнение, представяния (embedding)
  3. Пробно извличане на данни от медийни страници за сравнение и създаване на заявки за интелигентно търсене, сравнение, проследяване на източници и групиране по различни критерии
  4. Извличане от LAION или построяване на набор данни със съответствия между изображения и текст
  5. Пораждане на съответствия между изображения и текст чрез разпознаване нао образи, класификация, подобия и др.
  6. Нова версия на речника на юнашкото наречие "Езикотворец" - последната публикувана беше говорещият с "Глас 2004" Езикотворец-8 през 2005 г. Допълнение с нови думи от юнашкото наречие. Може би ново "тяло", а може и засега старото.
    https://eim.twenkid.com/old/ezik/
  7. Разширение на интелигентния английско-български речник "Смарти" до "Смарти 2" или ново име, може би с преработка и пренаписване, уеб речник. Extendable Framework for Bilingual and Multilingual Comprehension Assistant
  8. Целеви функции: добавяне на българо-английска посока на превод
  9. Поправяне на няколко недоглеждания: при редактиране на полето за превод на думи и изрази от текст с посочване да се обнови коректно съответствието при посочване (в сегашната версия се размества).; при копиране на всичко да се копира и историята с търсени думи; историята да се съхранява и под някаква по-постоянна форма; честоти на думи; връзка с Интернет и показване на информация от там и др.
  10. Обновление на синтезатора на реч "Тошко 2". Редактиране на микрофонемие. Опити с невронен синтез и продължение на изследванията от "Опит за разделяне на говор на..." от 2004 г. . и магистърската дипломна работа „Глас 2“ от 2008 г., идеите от която не бяха из-пълнени и др.

https://github.com/Twenkid/Toshko_2 image

Защо?

Отдавна имам тази идея, споменавал съм я на приятели, мислил съм да опитам да я направя за лични нужди-собствен паяк, който да събира най-важната за мен информация. Обаче за да се свърши както трябва е необходима повече енергия. Има някои частични малки архиви*/моментни снимки на части от стария Интернет (виж в бележките), но например наскоро беше закрит data.bg, който е пазел много древни файлове, вкл. някои мои от ранните времена на "Свещеният сметач" и 2000-те. Помните ли "free.techno-link"? Той загина много отдавна.

Hit.bg работеше години след като вече не беше "модерен", но и той отдавна е унищожен и не знам някой да му правил копие, освен каквото е оцеляло в Архив.орг (http://archive.org*) всъщност hit.bg се отваря от известно време, но не може да се логнете и пр.). Някои български сайтове с дълга съхранена история, които я пазят от десетилетия от началото на 2000-те, постепенно се обновяват и вече няма достъп. Напр. old.csd.bg - "Център за изследване на демокрацията", който работеше до 2020 г., когато ми трябваше една справка, но вече го няма, а Архив.орг пази само "фасади" от него.

Преди много години си замина bgit.net - един от първите български блогове и форум свързан с отворения код, Линукс и Ай Ти общността, не знам дали някой от създателите? му, сред които Йовко Ламбрев и Владимир Джувинов, още пазят архив; при мен останаха копия на отделни мои статии. В Архив.орг има фрагменти от него, най-старото копие е от юни 2001 г., когато изглежда е отворен сайтът: https://web.archive.org/web/20010630201813/http://www.bgit.net/).

Наскоро обаче самият Архив.орг* не беше достъпен в България за известно време. И т.н.

http://arxiv.org (сравни с http://archive.org) също е важен сайт, специализиран за публикуване на научни статии, който също подлежи на запазване в библиотека, както и разбира се Stackoverflow и сродните му, Github и пр.

...

Освен за да не се случи същото и със спомените от по-късния и съвременния Интернет заради затваряне на сайтовете, би било здравословно да има и местна сигурност в случай на прекъсване на достъпа до световния Интернет или част от него, което изглежда възможно предвид колко лесно се въвеждат всякакви "санкции" и ограничения както в т.нар. "свободен и демократичен" свят, според господстващите в България големи медии, така и в "противоположния" според "свободните" свят на "тирани, диктатори" и пр. Всеки блокира по нещо.

За по-голяма сигурност може да се запазват част от глобалните ресурси - разбира се, не може да се съхрани целият Интернет, но може да се запазят "важни", често ползвани и до определена дълбочина или някои да се съхраняват с известна компресия/частично и т.н.

Част от системата би могла да работи и като наблюдател на съдържанието на медиите и да извършва "media/press clipping", с която да има достъп и да се прави анализ на съдържанието на новинарски сайтове и страници на медии, социалните мрежи, на сайтовете за видеосподеляне по всякакви показатели - не пълно копие на видеофайловете, най-вече метаинформация; някои видеоклипове с по-ниска разделителна способност, само звук и пр.; транскрипция, както и описание на съдържанието на клипа чрез разпознаване на образи и класификация: описание какво се вижда на кадрите, какво се извършва и т.н.; отделни кадри (напр. ключовите кадри от видеото), схематична информация - компресирани кадри с приложени ефекти за откриване на очертания, текст извлечен с оптическо-разпознаване на символи и пр. Чрез новите технологии за пораждане на изображение като Stable Diffusion, Imagen, DALLE-2 и пр., и чрез идващите в бъдеще, ще може да се възстановява съществената част от съдържанието на медиите и от много по-малък обем компресирана информация.

Върху тези данни от медиите ще се правят различни справки и сравнения*; тази функция, както и цялостното събиране на данните, може да е основа и на експерименти с големи езикови модели в обработката на естествен език (NLP) и въобще изкуствения интелект, включително Общ ИИ.

За някои други приложения, свързани с почтеността на медии, политици и пр. виж в бележките по-долу.

Разбира се, системата може да бъде и търсачка, портал и пр. и като цяло би представлявало своеобразна разширена "енциклопедия".

Логично продължение е и разпределена българска социална мрежа и система за видеосподеляне с отворен код.

Като цяло:

Създаване на независим "български Интернет", който да позволи да се води "пълноценен мрежов живот" дори и ако по някаква причина международният Интернет се прекъсне.**

България всъщност има опит в това още от началото на 2000-те години от времето на free.techno-link и пр. с "Българския пръстен", в който имаше високоскоростна свързаност до някои ресурси в града или в страната във времена, в които все още се ползваше Интернет по телефона по 33.6 - 56.6 Кбит.

...

Как да работи архивът?

Разпределено съхранение на потребителски компютри

  1. Основен сървър/сървъри, които с паяци обхождат мрежата и качват данните като торенти, потребителите също могат да добавят елементи както в Архив.орг.

  2. Клиентските компютри имат приложение с отворен код, за да няма съмнения какво върши, в което потребителите решават какъв обем и трафик да заделят. Клиентското приложение може да извършва и част от изчислителната работа в разпределен режим, отново в дял, преценен от потребителя - подобно на някогашните "SETI @ Home" за анализ на сигнали от космоса, подобни системи в медицината като "Folding@home" и пр.

  3. Приложението тегли част от файловете през торентите* и пр. и ги съхранява на потребителските компютри. Част от клиентите могат да бъдат институции, компании и пр., които "даряват" значителен обем памет, терабайти и пр.

Сървъри

  1. Съхранението на данните и централизирано в сървъри, на поне няколко огледала, също е препоръчително.

Спасяване на стар софтуер и данни от лични архиви

  1. Част от информацията, която вече не се открива в Интернет, може да е запазена в лични архиви, на компакт-дискове и пр. и да бъде възстановена от потребителите.
    1. Ако например търсите определни безплатни програми от миналото, които не откривате - може да го зададаете като въпрос ("issue") в този проект.

Как да се осъществи?

Програмната и организационна част - като проект/множество от проекти с отворен код, които да се разработят от български програмисти, компании и пр. Ако проектът потръгне вероятно е разумно да се създаде ДНЦ (Дружество с нестопанска цел), но като за начало мисля, че това е излишно усложнение. Засега е достатъчно да се намерят желаещи, които да започнат от някъде, с някакъв пробен паяк и да общуват помежду си. Други желаещи могат по някакъв начин да дарят техника, като виртуални машини или физически, дисково пространство и пр.

Една възможна пускова посока е например "Common Crawl": https://commoncrawl.org

  • Редакция 15.11.2022: При апатия и пр., точката "с отворен код" и "български" (Интернет и разработчици) може да отпадне. Това са ограничаващи изисквания. Този проект е част от по-големия проект за Общ ИИ на "Свещеният сметач", който търся партньори: https://github.com/Twenkid/izkustven-razum-i-razvitie-na-choveka-kniga/

Тодор Арнаудов - Тош, 11.9.2022 г.

Всестранно изследователско-творческо дружество "Свещеният сметач", основано през 2000 г. http://eim.twenkid.com

Дружество за защита на българския език - ДЗБЕ, основано 2002 г. http://eim.twenkid.com/dzbe

Последни редакции: 13.9.2022; 15.11.2022 (незадължително отворен код и "български", при липса на съдружници), 20.11.2022 - разширено заглавие. Първо заглавие: "Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др."

...

** Благодарности на Bogo4, който ми писа днес за да ме пита за игра, която търсел, която вече била неоткриваема в Интерент, но снимка от нея има в една статия от сп. "Свещеният сметач", бр. 27 от 2003 г., "Упадъкът на езика на българското общество": http://eim.twenkid.com/old/3/27/upad.htm http://eim.twenkid.com/old/3/27/mar.gif

image

Играта е "Mario Warcraft", създадена с Game Maker. Благодаря също на Voltigore, който наскоро беше забелязал, че Archive.org не се е отварял и така също ми припомни идеята и необходимостта от български архив.

Бележки за допълнителни приложения

** Частични архиви за Интернет и др.

Разбира се, "Читанка" ("Моята библиотека") за книги, която в началото изглежда продължи по-старата библиотека sf.ludost.net. "Сандъците" и преди него един мой сайт за "прослава на българските сметачи" от 2002 г.: http://bulgariancomputers.freeservers.com/), Download.bg - което още работи; копията на списание "Свещеният сметач", също пазят паметници и "вкаменелости" от Интернет пространството от 2000 г. и началото на 2000-те; "лафчето" на dir.bg още съществува и др.

Други функции за разнообразяване и проследяване на източниците: модерни са услугите за "борба с фалшивите новини" или с "пропагандата", в която обаче обикновено, разбира се, липсва борба с "институционализираната" или "собствената" пропаганда - онази, която управлява основните медии и има най-много пари. Например може да се сравнява съдържанието на различни медии и да се открие, че всички препредават едно и също и че всички техни журналисти и гости споделят и защитават една и съща позиция и противниците им са "наказвани" по един и същи начин или не са канени въобще - това противоречи на основните правила за "плурализъм" и за предаване на "всички гледни точки", за които уж се бореше "демокрацията". Необходима е диверсификация не само на енергоносителите, но и на медийната и културно-идеологическата зависимост на България.

Може да се провери и "прояви" по обективен начин например, че източникът на информацията за основните българоезични медии са да речем британски (виж едно събитие в Англия от осми септември и как беше отразено в България, сякаш България е колония на Британската империя, оплакваща своята кралица, а впоследствие възхваляващия новия крал), определени американски медии - или пък съответно руски и пр., т.е. дадени медии по съдържание всъщност са "ретранслатори" или "радиоточки" на тези медии майки, като повечето от тях са на запад от София и също разпространяват "пропаганда", т.е. тенденциозно поднесена информация, често с полуистини, скриване на неудобни факти, които са известни, преувеличения, изкривявания и пр.

Потребителите на медии имат право да знаят какъв е източникът и чии интереси и стратегии защитават дадени медии и да решат дали при тези обстоятелства медията заслужава вниманието и доверието им. Може да се извършва автоматичен анализ на настроенията и нагласите в медията (вид "Sentiment analysis"). Настроенията обикновено се припокриват с "медиите" майки (чия пропаганда) - дали са "крайно про-европейски, про-руски, про-американски, про-британски" или пък уравновесени; какви позиции представят с каква оценка, какви гости канят с какви позиции и всякакви параметри, какъв стил на изказване и пр. Кой какви грантове е получавал, с кого е свързано дадено публично лице и т.н., така че да се знае. Тези конкретни явления са видими и с просто око за онези, които наблюдават медиите и сравняват "на ум", но чрез подобна система мерките ще станат по-обективни и лесни за наблюдение и от неспециалисти.

** Проверката на "фалшивите новини", или по-точно дезинформацията, и склонността на дадена медия, източник и пр. да злоупотребява с такава, всъщност за някои случаи може да се извършва ефективно не в момента на публикуване, а впоследствие, след като се натрупа достатъчно историческа информация - мине време и може да се провери и от други източници и след други събития, че дадено твърдение или информация не са било вярно отразени. Натрупването на история на новините, изказванията, и след обработката - съответните дела, нагласи и пр. - би било полезно за тази цел, и може да бъде материал, набор данни на нови специални модели за машинно обучение. Всички проверки на "фалшиви новини" обаче трябва да вървят с предупреждение, че проверката и данните ѝ също може да са погрешни или едностранчива и човек трябва да преценява и да мисли и със собствената си глава, и никога да не се предоверява.

** Друго приложение е за проверка на обещанията и изказванията на политици и пр.* (мисля, че излезе някакво мобилно приложение за търсене в стенограмите на парламента?)

** Една друга идея, донякъде свързана с горните, е предложението на Разумир за Явно гласуване на избори за обществени длъжности с непрекъснато отброяване на резултатите в реално време и с потвърждения за всеки, че гласът му е отчетен правилно и непрекъсната проверка от всички гласуващи. По този начин фалшификациите при преброяването ще станат невъзможни. https://web.archive.org/web/20170115121036/http://narodovlastie.twenkid.com/
...

Bulgarian-Internet-Archive

Bulgarian Internet Archive Project - Preserve Data and Knowledge from the Local and Global Network

6.2003 г. – ПЛОВДИВ, БЪЛГАРИЯ
ТОДОР АРНАУДОВ, 18-ГОДИШЕН:

КАК БИХ ИНВЕСТИРАЛ ЕДИН МИЛИОН С НАЙ-ГОЛЯМА ПОЛЗА ЗА РАЗВИТИЕТО НА СТРАНАТА

Според мен мощен бъдещ източник на приходи, за чието достигане 1 милион евро е отлично начало, защото ключът за осъществяването му е в човешкия умствен ресурс, е Мислещата машина (ММ).

Машината с равностоен или надминаващ човешкия разум, би се превърнала в невиждан двигател на научно-изследователската дейност и културата в държавата, която първа успее да я създаде. (...)

СТРАТЕГИЯ

Вярвам, че до мига, в който ще намерим подходящи "части" и ще построим от тях "машина", с която да преодолеем "Стената" и се срещнем с Машината, остават броени години.

Според моята стратегия би се основал научно-изследователски Институт, който ще обединява информатици, инженери, изкуствоведи, езиковеди, философи, психолози, невролози; преводачи, владеещи много езици; творци в различни изкуства – писатели и поети, композитори и музиканти; художници, фотографи и филмови режисьори. Членовете на Института ще бъдат, с предимство, имащи знания и умения в повече области, едновременно учени и творци, защото целта на търсенията ще бъде да се открие общото между всички прояви на разума, между науките и изкуствата. Формата на мисълта е различна в различните изяви на мисленето, но същината й, механизмите, които стоят в основата, са едни и същи и се променят само данните, с които тя работи – слово, звук, изображения, последователности от изображения, отвлечени понятия и пр.

Институтът ще изпълнява и ролята на "крило", което намира, "закриля и окриля" даровити хора, за да подпомага развитието им и, ако те пожелаят, да се радва на таланта им в изследванията.

Институтът ще има програмна къща, в която "между другото" ще се произвежда "умен" приложен софтуер, използващ разработките на Института по пътя към ИР: програми за автоматизирано проектиране, мултимедия, текстообработка, преводачи, игри и др. приложни програми.

Целта на Института ще бъде програмно създаване на ММ, притежаваща универсални възможности за обмен на информация с други изчислителни машини, в частност роботизирани модули. Роботите, създавани от робототехническия отдел, ще бъдат, освен начин за използване на ИР за физически дейности, още средство за привличане на вниманието на обществеността и за реклама на Института. (...)

14 ГОДИНИ ПО-КЪСНО

3.2017 г. – Канада, „Всеканадска стратегия за ИИ“
3.2017 – Японска технологична стратегия в ИИ
4.2017 – „ИИ Сингапур“: 5-годишна програма за $150 млн.
7.2017 – Китай: „План за следващото поколение ИИ“
12.2017 – Китай: Три-годишен план за действие
12.2017 – Финландска стратегия за ИИ
1.2018 – Дания: стратегията се съсредоточава върху ИИ, блокчейн и …
3.2018 – ИИ в служба на гражданите
3.2018 – Френска стратегия в ИИ
4.2018 – Европейска комисия на ЕС: „Обсъждане на ИИ“
4.2018 – Великобритания
5.2018 – Австралия
5.2018 – САЩ: Среща в Белия дом за ИИ
5.2018 – Южна Корея: Стратегия за развойна дейност
5.2018 – Шведска стратегия за ИИ
5.2018 – Полска кръгла маса за разработка на Стратегия за ИИ
5.2018 – Дания, Швеция, Норвегия, Исландия, Финландия, Естония, Литва, Латвия, … – договор за сътрудничество в ИИ на Съюз от северноевропейски и балтийски страни
6.2018 – Индия: Национална стратегия за ИИ
6.2018 – Мексико: Национална стратегия за ИИ
Есен 2018 – Германска стратегия за ИИ
Есен 2018 – Стратегия за ИИ на ЕС
Есен 2018 – Интердисциплинарен институт за Човешки ИИ в Станфорд
Есен 2018 – Интердисциплинарен „Милиарден“ институт за ИИ в МТИ
(…)
6.2019 – България, БАН: „Рамка на Национална стратегия за развитие на изкуствения интелект – Предварителна визия“
6.2020 – България, БАН: Стратегия за развитието на изкуствения интелект в България до 2030 г Предварителна визия“
10.2020 – Швейцария: Интердисциплинарен институт „Център за ИИ“ в ETH(…)
4.2022 – България и Швейцария (СУ, ETH, EPFL): INSAIT – „Институт за компютърни науки, изкуствен интелект и технологии“
(...)

  • One older (not pushy enough) invitation re an automatic programming R&D collaboration: https://artificial-mind.blogspot.com/2019/05/call-for-co-founders-of-r-startup-in.html

  • The original short "About" definition: Архив на българския Интернет, българска търсачка и услуга за "медия-клипинг" и др. Запазване на данни и знания от българския и световния Интернет и тяхната аналитична обработка. Bulgarian Internet Archive Project - Preserve Data and Knowledge from the Local and Global Network

Footnotes

  1. Working title: 3 variants. The long version "Всичко" (Vsichko, Vsychko) means "Everything'. Alternative longer funny version: "Jack of All Trades" [from 28.3.2024 also: Master of All Trades], or "Expert in Everything" referring to a cult Bulgarian comedy movie from 1962. BTW, one of the characters there, a University student, mentions that he is into the Cybernetics. He is a roommate of the main character, who becames "an expert in everything": https://www.imdb.com/title/tt0279435/ 2

  2. Забележки: Дружество "Разум" е отделът/рубриката за мислещи машини и развитие на човека (космизъм, надтелесност, "трансхуманизъм") в тогавашната версия на списанието. "Разумир" или "Истинист", е по-нов клон, който започна като насочен към интердисциплинарни изследвания в обществознанието, литературата, публицистиката. Първи брой от 2014 г. представи обемистата интердисцплинарна авангардна "мултиграфия" "Какво му трябва на човек? Играеш ли по правилата, ще загубиш играта!"), която включваше и разсъждения в теорията на познанието; и сатирично-публицистично-художествената новела "Не съм креативен, пък!". През 2015 г. "Разумир" публикува и предложението за Явно гласуване на избори за обществени длъжности и др., с което да се преодолеят всички възможности за манипулации на резултатите: "Манифест на Човешковластие/Човековластие" https://web.archive.org/web/20170115121036/http://narodovlastie.twenkid.com/

  3. По-старо заглавие: Архив и умна БД на българския Интернет или на избрани части от световния; българска и световна търсачка, услуги за наблюдение и анализ на съдържанието на медиите и извличане на информация, пораждащи мултимодални модели - текст, звук/реч, образ, видео; програмен код; научни и технически хипотези и проекти и пр. - машинен превод, синтез на реч, разпознаване на реч, диалогови агенти и др. и създаване на ресурси с данни и знания и др.

About

Вседържец/Vsy - The AGI Infrastructure of "The Sacred Computer" AGI Institute : Custom Intelligent Selective Internet Archiving and Exploration/Crawling; Information Retrieval, Media Monitoring, Search Engine, Smart DB, Data Preservation, Knowledge Extraction,Datasets creation,AI Generative models building and testing,Experiments etc.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published