---------------------------------------------------------------
Konspekt dlya vystupleniya 17 sentyabrya 1999 na konferencii
"IREX". "Internet-tehnologii dlya obrazovaniya" (?)
---------------------------------------------------------------
Knigu - v massy.
CHitateli sami znayut, chego im nuzhno
Internet, kak ob'edinitel' chitatel'skogo kluba
Pisateli - "za"
CHitateli - "za"
Izdateli - "somnevayutsya"
Princip Toma Sojera
Princip Nasreddina
Nevozmozhno den'gami - voz'mem lichnym trudom
Minimal'nye zatraty na podgotovku teksta:
Skorost' skanera 2 stranicy / 40 sekund
3-6 chasov na knigu.
Formatirovanie, oformlenie - 0.5-5 chasov
Spellcheck 3-6 chasov
Vychitka 6-12 chasov
Itogo 1 kniga - 0.5-3 rabochih dnya
Sebestoimost' podgotovki 10000 tomov: do 500,000$
(pri udovletvoritel'nom urovne kachestva)
Obhod:
Predostavlenie teksta v elektronnoj forme.
Mashinno-skanirovochnye fabriki.
1. Interfejs pol'zovatelya.
Gipertekst - luchshe nichego ne pridumano.
Poetomu - internet/intranet tehnologiya:
Netscape, Explorer, veb-server.
2. Predvaritel'naya razmetka dokumentov.
HTML nefunkcionalen!
Neobhodim vnutrennij format hraneniya (SGML)
Konvertory SGML --> HTML
Naprimer - cgi - s pryamym "pod'emom dereva fajlov v html"
Ili po baze dannyh.
Maksimal'naya prostota hraneniya.
Dokument dolzhen lezhat' v fajle.
Maksimum, dlya chego mozhno derzhat' bazu - oglavleniya i
uchetnye kartochki dokumentov - chtob strit' po nim
al'ternativnye rubrikatory
3. Poisk.
Poisk po oglavleniyu i rubrikatoru - mozhno delat' tupym skanom.
razmer indeksiruemogo oglavleniya 1-10 Mb. Baza - NE NUZHNA!
Polnotekstovyj poisk.
Glimpse <= 500 Mb
HtDig ???
Yandex Site 1Mb besplatno.
1000Mb - poryadka 5000$
1. Processor - nekritichen, vse upiraetsya v tolshchinu IP-kanala i chislo
posetitelej. Vychislitel'naya ne trebuetsya.
IBM PC - luchshij vybor.
1. Bol'shaya pamyat'
2. Ochen' bol'shaya pamyat'
3. Disk SCSI
2. Operacionnaya sistema:
Windows NT - trebuet nalichiya kvalificirovannogo administratora, nenadezhna
pri dolgovremennoj rabote i v standalone-rezhime.
Obshchaya ocenka: udovletvoritel'no
Linux - zhelatel'no nalichie programmista. Ne ochen' principial'nye problemy s
proizvoditel'nost'yu (okolo 25% v "-"). Naibol'shee kolichestvo podderzhivaemogo
softa.
Obshchaya ocenka: horosho
FreeBSD - kak Linux, bez problem s proizvoditel'nost'yu
Obshchaya ocenka: otlichno
Prochie Unix - tot zhe Linuks, vid sboku.
Obshchaya ocenka: "horosho s minusom"
3. Soft: Russ-Apache (55% rynka), PHP, Perl, C, MySQL, Postgress.
Iz rascheta 20,000 chelovek v den', po 5-20 page-zaprosov na vizit
200,000 page-zaprosov, 1-4Mln file-zaprosov (grafika)
20Gb ishodyashchego trafika
Vremya obsluzhivaniya odnogo zaprosa: (P5-330)
html-request 1/30-1/100 sek
C-cgi 1/15-1/50 sek
perl-cgi 200Kb perl-koda v sekundu
Obrazovanie ocheredi (zaval)
perl-cgi - posle 5 zaprosov v sekundu (200,000 zaprosov v den')
html - posle 100 zaprosov v sekundu.
Uzkie mesta:
CHislo httpd-klientov 256 -- 150,000 v den'
CHislo processov
RAM 1Mb na edinovremennyj zapros. Moral': 512Mb zhelatel'no.
Oblast' optimizacii - izbavlenie ot cgi, mod-perl
Word-* masdie
RTF - mozhet zhit', no nezhelatelen.
Neformalizuem polnotekstovyj poisk
VIRUSY!
Priemlemye formaty
HTML
txt
Predvaritel'no formatirovannyj SGML ili ego analogi
Tipichnyj katalog biblioteki
* FORMAT PREDSTAVLENIYA TEKSTOV V BIBLIOTEKE *
V tekste mogut byt' vydeleny zagolovki glav
^TZagolovok vydelyaetsya simvolami Ctrl-T Ctrl-U^U
^Ti Zagolovok dolzhen imet' otstup 8 simvolov^U
^T * ZAGOLOVOK STARSHEGO UROVNYA vydelyaetsya "Ctrl-T *" i "* Ctrl-U" * ^U
^Ti tozhe dolzhen imet' otstup 8 simvolov^U
Zagolovok v pervoj stroke schitaetsya nazvaniem vsego dokumenta.
Itak primernaya struktura tekstovogo fajla:
---------------------------------------------------------------
^TFamiliya Avtora. Nazvanie dokumenta^U
Proizvol'nyj tekst
V tekste mogut prisutstvovat' html-tagi. Oni
vosprinimayutsya "as is"
^TZaglavie glavy^U
Proizvol'nyj tekst
Proizvol'nyj tekst...
^TZaglavie glavy^U
Proizvol'nyj tekst
Proizvol'nyj tekst...
....
---------------------------------------------------------------
V kazhdom kataloge lezhit fajl .dir s oglavleniem, vse fajly
podpisany primerno tak:
---------------------------------------------------------------
V pervoj stroke nazvanie kataloga
^TS 8-j pozicii vydelyaetsya zagolovok podrazdela^U
Proizvol'nyj tekst
V tekste mogut prisutstvovat' html-tagi. Oni
vosprinimayutsya "as is"
Nazvanie teksta lezhashchego v fajle ()| filename.txt
Nazvanie nezhelezhashchej direktorii ()| dirname/
Ukazatel' na ftp-link | ftp://host/location
Ukazatel' na www-link | http://host/location.html
. . .
I tak dalee. CHtob dobavit' v biblioteku novyj dokument
dostatochno polozhit' v podhodyashchij katalog fajl, i v pisat' v
.dir-oglavlenie strochku vida
Nazvanie novogo teksta ()| newfilename.txt
---------------------------------------------------------------
Vse rabotaet cherez CGI-skript
Lyuboj dokument v biblioteke zaprashivaetsya skvoz'
cgi-skript "html-KOI" On perekodiruet fajl v sootvetstvuyushchuyu
kodirovku russkih bukv i perevodit chisto-tekstovye fajly v
html-nye - na letu.
http://www.lib-server.ru/cgi-bin/html-KOI/otnositelnoe/imya/documenta.txt
Vse ostal'nye preobrazovaniya dokumenta, ves'
dopolnitel'nyj servis i html-izaciya vypolnyaetsya skriptom
Pri vydache tekstovogo fajla zagolovki glav avtomaticheski
raskruchivayutsya v html-tagi h3 - /h3
Pri zaprose imeni direktorii skript beret lezhashchij v nej
.dir-fajl i generiruet iz nego oglavlenie v formate index.html
V nachale pomeshchaetsya standartnyj zagolovok so sluzhebnymi
linkami "Encoding", "What-s-new", "Mirrors"
V konce - standartnyj hvostovik "Home", "Mail", "Hosted-by"
Strochki, v kotoryh vstrechaetsya simvol "|" (ASCII 201)
(Vida: Nazvanie novogo teksta | newfilename.txt)
razvorachivayutsya v "A HREF" linki. V zavisimosti ot rasshireniya
imeni fajla podstavlyaetsya ikonka.
Esli v oglavlenii imya fajla ukazano simvolami "()|"
(Vida: nazvanie teksta ()| newfilename.txt ) to sprava
prostavlyaetsya eshche razmer i raznocvetnoe vremya modifikacii
fajla.
Dlya tekstovogo fajla ikonka pered imenem ukazyvaet na
sluzhebnyj link "Contents" - oglavlenie avtomaticheski sobiraetsya
iz imeyushchihsya v tekste zagolovkov "________^T ... ^U"
Last-modified: Tue, 21 Sep 1999 05:52:18 GMT