doit(
                    A_INT, 123,
                    A_STR, " hello, ",
                    A_INT, 456,
                    A_STR, " world\n",
                    A_NULL
            );
            return 0;
    }


<i>7.39.</i>  Напишите несколько функций для работы с упрощенной базой данных. Запись в базе
данных содержит ключ - целое, и строку фиксированной длины:

    struct data {
           int  b_key;             /* ключ */
           char b_data[ DATALEN ]; /* информация */
    };

     Напишите:
-    добавление записи
-    уничтожение по ключу
-    поиск по ключу (и печать строки)
-    обновление по ключу.
Файл организован как несортированный массив записей без  дубликатов  (т.е.  ключи  не
могут  повторяться).   Поиск  производить линейно. Используйте функции <i>fread</i>, <i>fwrite</i>,
<i>fseek</i>. Последняя функция позволяет вам позиционироваться к n-ой записи файла:

    <i>fseek</i>( fp, (long) n * sizeof(struct data), 0 );

Перепишите эту программу, объявив ключ как строку, например


<i>А. Богатырев, 1992-95                  - 309 -                              Си в UNIX</i>

    char b_key[ KEYLEN ];

Если строка-ключ короче KEYLEN  символов,  она  должна  оканчиваться  '\0',  иначе  -
используются все KEYLEN букв и '\0' на конце отсутствует (так же устроено поле d_name
в каталогах файловой системы).  Усовершенствуйте алгоритм доступа, используя  хеширо-
вание  по  ключу  (hash  - перемешивание, см. пример в приложении).  Вынесите ключи в
отдельный файл. Этот файл ключей состоит из структур

    struct record_header {
      int  b_key   ;    /* ключ */
      long b_offset;    /* адрес записи в файле данных */
      int  b_length;    /* длина записи (необязательно) */
    };

то есть организован аналогично нашей первой базе данных.   Сначала  вы  ищете  нужный
ключ  в файле ключей.  Поле b_offset у найденного ключа задает адрес данного в другом
файле.  Чтобы прочитать его, надо сделать <i>fseek</i> на расстояние b_offset в файле данных
и прочесть b_length байт.

<i>7.40.</i>  Организуйте базу данных в файле как список записей.  В  каждой  записи  вместо
ключа должен храниться номер очередной записи (ссылка). Напишите функции: поиска дан-
ных в списке (по значению), добавления данных в список  в  алфавитном  порядке,  (они
просто приписываются к концу файла, но в нужных местах переставляются ссылки), распе-
чатки списка в порядке ссылок, удалению элементов из списка (из самого файла  они  не
удаляются!).   Ссылка  (номер)  первой  записи (головы списка) хранится в первых двух
байтах файла, рассматриваемых как <i>short</i>.
     Введите оптимизацию: напишите функцию для сортировки файла (превращению  переме-
шанного  списка  в линейный) и вычеркивания из него удаленных записей.  При этом файл
будет перезаписан.  Если файл отсортирован, то поиск в нем  можно  производить  более
эффективно,  чем  прослеживание  цепочки  ссылок: просто линейным просмотром.  Третий
байт файла используйте как признак: 1 - файл был отсортирован, 0 - после сортировки в
него было что-то добавлено и линейный порядок нарушен.

<i>7.41.</i>  Напишите функцию <i>match</i>(строка,шаблон); для проверки соответствия строки  упро-
щенному регулярному выражению в стиле Шелл. Метасимволы шаблона:

        <i>*</i> - любое число любых символов (0 и более);
        <i>?</i> - один любой символ.
                      Усложнение:
        <i>[</i>буквы<i>]</i>  - любая из перечисленных букв.
        <i>[!</i>буквы<i>]</i> - любая из букв, кроме перечисленных.
        <i>[</i>h<i>-</i>z<i>]</i>    - любая из букв от h до z включительно.

Указание: для проверки "остатка" строки используйте рекурсивный вызов этой  же  функ-
ции.
     Используя эту функцию, напишите программу,  которая  выделяет  из  файла  СЛОВА,
удовлетворяющие  заданному шаблону (например, "[Ии]*о*т"). Имеется в виду, что каждую
строку надо сначала разбить на слова, а потом проверить каждое слово.


<i>А. Богатырев, 1992-95                  - 310 -                              Си в UNIX</i>

    #include &lt;stdio.h>
    #include &lt;string.h>
    #include &lt;locale.h>
    #define  U(c) ((c) & 0377)  /* подавление расширения знака */
    #define  QUOT    '\\'       /* экранирующий символ         */
    #ifndef  MATCH_ERR
    # define MATCH_ERR printf("Нет ]\n")
    #endif

    /* s - сопоставляемая строка
     * p - шаблон. Символ \ отменяет спецзначение метасимвола.
     */
    int <i>match</i> (register char *s, register char *p)
    {
        register int    scc; /* текущий символ строки                 */
        int     c, cc, lc;   /* lc - предыдущий символ в [...] списке */
        int     ok, notflag;

        for (;;) {
            scc = U(*s++);          /* очередной символ строки  */
            switch (c = U (*p++)) { /* очередной символ шаблона */

                case QUOT:          /* a*\*b */
                    c = U (*p++);
                    if( c == 0 ) return(0); /* ошибка: pattern\ */
                    else goto def;

                case '[':   /* любой символ из списка */
                    ok = notflag = 0;
                    lc = 077777;      /* достаточно большое число */
                    if(*p == '!'){ notflag=1; p++; }

                    while (cc = U (*p++)) {
                        if (cc == ']') {    /* конец перечисления */
                            if (ok)
                                break;      /* сопоставилось      */
                            return (0);     /* не сопоставилось   */
                        }
                        if (cc == '-') {    /* интервал символов  */
                            if (notflag){
                                /* не из диапазона - OK */
                                if (!<i>syinsy</i> (lc, scc, U (*p++)))
                                    ok++;
                                /* из диапазона - неудача */
                                else return (0);
                            } else {
                                /* символ из диапазона - OK */
                                if (<i>syinsy</i> (lc, scc, U (*p++)))
                                    ok++;
                            }
                        }
                        else {
                            if (cc == QUOT){      /* [\[\]] */
                                cc = U(*p++);
                                if(!cc) return(0);/* ошибка */
                            }
                            if (notflag){
                                if (scc && scc != (lc = cc))
                                    ok++;          /* не входит в список */
                                else return (0);
                            } else {


<i>А. Богатырев, 1992-95                  - 311 -                              Си в UNIX</i>

                                if (scc == (lc = cc)) /* входит в список */
                                    ok++;
                            }
                        }
                    }
                    if (cc == 0){    /* конец строки */
                        MATCH_ERR;
                        return (0);        /* ошибка */
                    }
                    continue;

                case '*':   /* любое число любых символов */
                    if (!*p)
                        return (1);
                    for (s--; *s; s++)
                        if (<i>match</i> (s, p))
                            return (1);
                    return (0);

                case 0:
                    return (scc == 0);

                default: def:
                    if (c != scc)
                        return (0);
                    continue;

                case '?':   /* один любой символ */
                    if (scc == 0)
                        return (0);
                    continue;
            }
        }
    }


    /* Проверить, что smy лежит между smax и smin
     */
    int <i>syinsy</i> (unsigned smin, unsigned smy, unsigned smax)
    {
        char left   [2];
        char right  [2];
        char middle [2];

        left  [0]   = smin;  left  [1]   = '\0';
        right [0]   = smax;  right [1]   = '\0';
        middle[0]   = smy;   middle[1]   = '\0';

        return (<i>strcoll</i>(left, middle) &lt;= 0 && <i>strcoll</i>(middle, right) &lt;= 0);
    }

Обратите внимание на то, что в <i>UNIX</i> расширением  шаблонов  имен  файлов,  вроде  *.c,
занимается  не  операционная система (как в <i>MS DOS</i>), а программа-интерпретатор команд
пользователя (shell: <i>/bin/sh</i>, <i>/bin/csh</i>, <i>/bin/ksh</i>).   Это  позволяет  обрабатывать  (в
принципе) разные стили шаблонов имен.

<i>7.42.</i>  Изучите раздел руководства <i>man regexp</i>  и  include-файл  /usr/include/regexp.h,
содержащий  исходные  тексты функций <i>compile</i> и <i>step</i> для регулярного выражения в стиле
программ <i>ed</i>, <i>lex</i>, <i>grep</i>:
одна буква C
     или заэкранированный спецсимвол <i>\. \[ \* \$ \^ \\</i> означают сами себя;


<i>А. Богатырев, 1992-95                  - 312 -                              Си в UNIX</i>

<i>.</i>    означает один любой символ кроме \n;
<i>[</i>abc<i>]</i>
     или <i>[</i>a<i>-</i>b<i>]</i> означает любой символ из перечисленных (из интервала);
<i>[</i>abc-<i>]</i>
     минус в конце означает сам символ <i>-</i>;
<i>[]</i>abc<i>]</i>
     внутри [] скобка ] на первом месте означает сама себя;
<i>[^</i>a<i>-</i>z<i>]</i>
     крышка <i>^</i> означает отрицание, т.е.  любой символ кроме перечисленных;
<i>[</i>a<i>-</i>z^<i>]</i>
     крышка не на первом месте означает сама себя;
<i>[</i>\*.<i>]</i>
     спецсимволы внутри [] не несут специального значения, а представляют сами себя;
C<i>*</i>   любое (0 и более) число символов C;
<i>.*</i>   любое число любых символов;
выражение<i>*</i>
     любое число (0 и более) повторений выражения, например [0-9]*   означает   число
     (последовательность цифр) или пустое место.  Ищется самое длинное прижатое влево
     подвыражение;
выражение<i>\{</i>n<i>,</i>m<i>\}</i>
     повторение выражения от n до m раз (включительно), где числа не превосходят 255;
выражение<i>\{</i>n<i>,\}</i>
     повторение по крайней мере n раз, например [0-9]\{1,\} означает число;
выражение<i>\{</i>n<i>\}</i>
     повторение ровно n раз;
выражение<i>$</i>
     строка, чей конец удовлетворяет выражению, например .*define.*\\$
<i>^</i>выражение
     строка, чье начало удовлетворяет выражению;
<i>\n</i>   символ перевода строки;
<i>\(</i>.....<i>\)</i>
     сегмент. Сопоставившаяся с ним подстрока будет запомнена;
<i>\</i>N   где N цифра. Данный участок образца должен совпадать с N-ым сегментом (нумерация
     с 1).

Напишите функцию <i>matchReg</i>, использующую этот стиль регулярных выражений.   Сохраняйте
шаблон, при вызове <i>matchReg</i> сравнивайте старый шаблон с новым. Перекомпиляцию следует
производить только если шаблон изменился:

    #include &lt;stdio.h>
    #include &lt;ctype.h>
    #define <i>INIT</i>            register char *sp = instring;
    #define <i>GETC</i>()          (*sp++)
    #define <i>PEEKC</i>()         (*sp)
    #define <i>UNGETC</i>(c)       (--sp)
    #define <i>RETURN</i>(ptr)     return
    #define <i>ERROR</i>(code)  \
    {fprintf(stderr,"%s:ERR%d\n",instring,code);exit(177);}

    #               include &lt;regexp.h>

    #define EOL             '\0'    /* end of line */
    #define ESIZE           512

    int <i>matchReg</i>(char *str, char *pattern){
      static char oldPattern[256];
      static char compiledExpr[ESIZE];
      if( strcmp(pattern, oldPattern)){  /* различны */
        /* compile regular expression */
          <i>compile</i>(pattern,
                  compiledExpr, &compiledExpr[ESIZE], EOL);


<i>А. Богатырев, 1992-95                  - 313 -                              Си в UNIX</i>

          strcpy(oldPattern, pattern);   /* запомнить   */
      }
      return <i>step</i>(str, compiledExpr);    /* сопоставить */
    }
    /* Пример вызова: <i>reg</i> '^int' 'int$' char | <i>less</i> */
    /* <i>reg</i> 'putchar.*(.*)' &lt; reg.c | <i>more</i> */

    void main(int ac, char **av){
      char inputline[BUFSIZ]; register i;

      while(gets(inputline)){
        for(i=1; i &lt; ac; i++)
          if(<i>matchReg</i>(inputline, av[i])){

      char *p; extern char *loc1, *loc2;
    /*printf("%s\n", inputline);*/
    /* Напечатать строку,
     * выделяя сопоставившуюся часть жирно */
      for(p=inputline; p != loc1; p++) putchar(*p);
      for(           ; p != loc2; p++)
         if(isspace((unsigned char) *p))
              putchar(*p);
         else printf("%c\b%c", *p, *p);
      for(           ; *p;        p++) putchar(*p);
      putchar('\n');
      break;
          }
        }
    }


<i>7.43.</i>  Используя &lt;regexp.h> напишите программу, производящую  контекстную  замену  во
всех строках файла. Если строка не удовлетворяет регулярному выражению - она остается
неизменной.  Примеры вызова:

    $  <i>regsub</i> '\([0-9]\{1,\}\)'   '(\1)'
    $  <i>regsub</i> 'f(\(.*\),\(.*\))'  'f(\2,\1)'  &lt; file

Вторая команда должна заменять все вхождения f(a,b) на f(b,a).  Выражение, обозначен-
ное  в  образце как <i>\(</i>...<i>\)</i>, подставляется на место соответствующей конструкции <i>\</i>N во
втором аргументе, где N - цифра, номер сегмента.  Чтобы поместить в выход сам  символ
<i>\</i>, его надо удваивать: <i>\\</i>.


<i>А. Богатырев, 1992-95                  - 314 -                              Си в UNIX</i>

    /* Контекстная замена */
    #include &lt;stdio.h>
    #include &lt;ctype.h>

    #define INIT            register char *sp = instring;
    #define GETC()          (*sp++)
    #define PEEKC()         (*sp)
    #define UNGETC(c)       (--sp)
    #define RETURN(ptr)     return
    #define ERROR(code)     regerr(code)
    void regerr();
    #                include &lt;regexp.h>
    #define EOL             '\0'    /* end of line */
    #define ESIZE           512
    short all = 0;
    /* ключ -a означает, что в строке надо заменить ВСЕ вхождения образца (global, all):
     *          regsub -a   int INT
     *          "aa int bbb int cccc" -> "aa INT bbb INT cccc"
     *
     * step() находит САМУЮ ДЛИННУЮ подстроку, удовлетворяющую выражению,
     * поэтому  regsub 'f(\(.*\),\(.*\))'  'f(\2,\1)'
     * заменит  "aa f(1,2) bb f(3,4) cc" -> "aa f(4,1,2) bb f(3) cc'
     *               |___________|_|             |_|___________|
     */
    char compiled[ESIZE], line[512];


<i>А. Богатырев, 1992-95                  - 315 -                              Си в UNIX</i>

    void <i>main</i>(int ac, char *av[]){
       register char *s, *p; register n;  extern int nbra;
       extern char *braslist[], *braelist[], *loc1, *loc2;

       if( ac > 1 && !strcmp(av[1], "-a")){ ac--; av++; all++; }
       if(ac != 3){
            fprintf(stderr, "Usage: %s [-a] pattern subst\n", av[0]);
            exit(1);
       }
       compile(av[1], compiled, compiled + sizeof compiled, EOL);

       while( gets(line) != NULL ){
           if( !step(s = line, compiled)){
               printf("%s\n", line); continue;
           }
           do{
             /* Печатаем начало строки */
             for( ; s != loc1; s++) putchar(*s);

             /* Делаем замену */
             for(s=av[2]; *s; s++)
               if(*s == '\\'){
                 if(isdigit(s[1])){ /* сегмент */
                    int num = *++s - '1';
                    if(num &lt; 0 || num >= nbra){
                       fprintf(stderr, "Bad block number %d\n", num+1);
                       exit(2);
                    }
                    for(p=braslist[num]; p != braelist[num]; ++p)
                        putchar(*p);
                 } else if(s[1] == '&'){
                    ++s;  /* вся сопоставленная строка */
                    for(p=loc1; p != loc2; ++p)
                        putchar(*p);
                 } else putchar(*++s);
               } else putchar(*s);

           } while(all && step(s = loc2, compiled));

           /* Остаток строки */
           for(s=loc2; *s; s++) putchar(*s);
           putchar('\n');
       } /* endwhile */
    }


<i>А. Богатырев, 1992-95                  - 316 -                              Си в UNIX</i>

    void <i>regerr</i>(int code){ char *msg;
       switch(code){
       case 11: msg = "Range endpoint too large.";     break;
       case 16: msg = "Bad number.";                   break;
       case 25: msg = "\\digit out of range.";         break;
       case 36: msg = "Illegal or missing delimiter."; break;
       case 41: msg = "No remembered search string.";  break;
       case 42: msg = "\\(~\\) imbalance.";            break;
       case 43: msg = "Too many \\(.";                 break;
       case 44: msg = "More than 2 numbers given in \\{~\\\"}."; break;
       case 45: msg = "} expected after \\.";          break;
       case 46: msg = "First number exceeds second in \\{~\\}."; break;
       case 49: msg = "[ ] imbalance.";                break;
       case 50: msg = "Regular expression overflow.";  break;
       default: msg = "Unknown error";                 break;
       } fputs(msg, stderr); fputc('\n', stderr); exit(code);
    }


    void <i>prfields</i>(){
            int i;
            for(i=0; i &lt; nbra; i++)
                    prfield(i);
    }
    void <i>prfield</i>(int n){
            char *fbeg = braslist[n], *fend = braelist[n];
            printf("\\%d='", n+1);
            for(; fbeg != fend; fbeg++)
                    putchar(*fbeg);
            printf("'\n");
    }


<i>7.44.</i>  Составьте функцию поиска подстроки в строке.  Используя ее, напишите программу
поиска  подстроки  в  текстовом файле.  Программа должна выводить строки (либо номера
строк) файла, в которых встретилась данная подстрока. Подстрока задается  в  качестве
аргумента функции <i>main</i>().

    /* Алгоритм быстрого поиска подстроки.
     * Дж. Мур, Р. Бойер, 1976 Texas
     * Смотри: Communications of the ACM 20, 10 (Oct., 1977), 762-772
     *
     * Этот алгоритм выгоден при многократном поиске образца в
     * большом количестве строк, причем если они равной длины -
     * можно сэкономить еще и на операции strlen(str).
     * Алгоритм характерен тем, что при неудаче производит сдвиг не на
     * один, а сразу на несколько символов вправо.
     * В лучшем случае алгоритм делает slen/plen сравнений.
     */

    char *pattern;          /* образец (что искать) */
    static int plen;        /* длина образца */
    static int d[256];      /* таблица сдвигов; в алфавите ASCII -
                             * 256 букв. */

    /* расстояние от конца образца до позиции i в нем */
    #define DISTANCE(i)     ((plen-1) - (i))


<i>А. Богатырев, 1992-95                  - 317 -                              Си в UNIX</i>

    /* Поиск:
     * выдать индекс вхождения pattern в str,
     * либо -1, если не входит
     */
    int <i>indexBM</i>( str )  char *str;      /* в чем искать */
    {
        int slen = strlen(str); /* длина строки */
        register int pindx;  /* индекс сравниваемой буквы в образце */
        register int cmppos; /* индекс сравниваемой буквы в строке  */
        register int endpos; /* позиция в строке, к которой "приставляется"
                              * последняя буква образца */

        /* пока образец помещается в остаток строки */
        for( endpos = plen-1; endpos &lt; slen ; ){

               /* Для отладки: pr(str, pattern, endpos - (plen-1), 0); /**/

               /* просмотр образца от конца к началу */
               for( cmppos = endpos, pindx = (plen - 1);
                                     pindx >= 0 ;
                                     cmppos--, pindx-- )

                  if( str[cmppos] != pattern[pindx] ){
                     /* Сдвиг, который ставит самый правый в образце
                      * символ str[endpos] как раз под endpos-тую
                      * позицию строки. Если же такой символ в образце не
                      * содержится (или содержится только на конце),
                      * то начало образца устанавливается в endpos+1 ую
                      * позицию
                      */
                     endpos += d[ str[endpos] & 0377 ];
                     break;    /* & 0377 подавляет расширение знака. Еще  */
                  }            /* можно сделать все char -> unsigned char */

               if( pindx &lt; 0 ) return ( endpos - (plen-1));
               /* Нашел: весь образец вложился */
        }
        return( -1 );       /* Не найдено */
    }


<i>А. Богатырев, 1992-95                  - 318 -                              Си в UNIX</i>

    /* Разметка таблицы сдвигов */
    void <i>compilePatternBM</i>( ptrn ) char *ptrn; {
            register int c;

            pattern = ptrn; plen = strlen(ptrn);

            /* c - номер буквы алфавита */
            for(c = 0; c &lt; 256; c++)
                    d[c] = plen;
                    /* сдвиг на длину всего образца */

            /* c - позиция в образце */
            for(c = 0; c &lt; plen - 1; c++)
                    d[ pattern[c] & 0377 ] = DISTANCE(c);
            /* Сдвиг равен расстоянию от самого правого
             * (кроме последней буквы образца)
             * вхождения буквы в образец до конца образца.
             * Заметим, что если буква входит в образец несколько раз,
             * то цикл учитывает последнее (самое правое) вхождение.
             */
    }


    /* Печать найденных строк */
    void <i>pr</i>(s, p, n, nl) char *s, *p;
    {
            register i;

            printf("%4d\t%s\n", nl, s );
            printf("    \t");
            for(i = 0; i &lt; n; i++ )
                    putchar( s[i] == '\t' ? '\t' : ' ' );
            printf( "%s\n", p );
    }


    /* Аналог программы fgrep */
    #include &lt;stdio.h>
    char str[ 1024 ];        /* буфер для прочитанной строки */

    void <i>main</i>(ac, av) char **av;
    {
            int nline = 0;  /* номер строки файла */
            int ind;
            int retcode = 1;

            if(ac != 2){
                    fprintf(stderr, "Usage: %s 'pattern'\n", av[0] );
                    exit(33);
            }
            <i>compilePatternBM</i>( av[1] );
            while( <i>gets</i>(str) != NULL ){
                    nline++;
                    if((ind = <i>indexBM</i>(str)) >= 0 ){
                            retcode = 0;    /* O'KAY */
                            <i>pr</i>(str, pattern, ind, nline);
                    }
            }
            exit(retcode);
    }


<i>А. Богатырев, 1992-95                  - 319 -                              Си в UNIX</i>

    /* Пример работы алгоритма:
            peter piper picked a peck of pickled peppers.
            peck
            peter piper picked a peck of pickled peppers.
              peck
            peter piper picked a peck of pickled peppers.
                  peck
            peter piper picked a peck of pickled peppers.
                    peck
            peter piper picked a peck of pickled peppers.
                        peck
            peter piper picked a peck of pickled peppers.
                            peck
            peter piper picked a peck of pickled peppers.
                                peck
            peter piper picked a peck of pickled peppers.
                                 peck
    */


<i>7.45.</i>  Напишите аналогичную программу, выдающую все строки, удовлетворяющие  упрощен-
ному регулярному выражению, задаваемому как аргумент для <i>main</i>().  Используйте функцию
<i>match</i>, написанную нами ранее.  Вы написали аналог программы <i>grep</i> из <i>UNIX</i> (но с другим
типом регулярного выражения, нежели в оригинале).

<i>7.46.</i>  Составьте функцию <i>expand</i>(s1, s2), которая  расширяет  сокращенные  обозначения
вида  a-z строки s1 в эквивалентный полный список abcd...xyz в строке s2. Допускаются
сокращения для строчных и прописных букв и цифр. Учтите случаи типа a-b-c,  a-z0-9  и
-a-g (соглашение состоит в том, что символ "<i>-</i>", стоящий в начале или в конце, воспри-
нимается буквально).

<i>7.47.</i>  Напишите программу, читающую файл и заменяющую строки вида

        |&lt;1 и более пробелов и табуляций>&lt;текст>

на пары строк

        |<i>.pp</i>
        |&lt;текст>

(здесь | обозначает левый край файла, a &lt;> - метасимволы).  Это - простейший  препро-
цессор, готовящий текст в формате <i>nroff</i> (это форматтер текстов в <i>UNIX</i>). Усложнения:
-    строки, начинающиеся с точки или с апострофа, заменять на

             <i>\&</i>&lt;текст, начинающийся с точки или '>

-    строки, начинающиеся с цифры, заменять на

             <i>.ip</i> &lt;число>
             &lt;текст>

-    символ \ заменять на последовательность <i>\e</i>.
-    удалять пробелы перед символами <i>.,;:!?)</i> и вставлять после них пробел (знак  пре-
     пинания  должен  быть  приклеен  к концу слова, иначе он может быть перенесен на
     следующую строку. Вы когда-нибудь видели строку, начинающуюся с запятой?).
-    склеивать перенесенные слова, поскольку <i>nroff</i> делает переносы сам:

             ....xxxx начало-  =>  ....xxxx началоконец
             конец yyyy......      yyyy................


<i>А. Богатырев, 1992-95                  - 320 -                              Си в UNIX</i>

Вызывайте этот препроцессор разметки текста так:

    $   <i>prep</i> файлы... | <i>nroff -me</i> > text.lp


<i>7.48.</i>  Составьте программу преобразования прописных букв из файла ввода  в  строчные,
используя  при этом функцию, в которой необходимо организовать анализ символа (дейст-
вительно ли это буква). Строчные буквы выдавать без изменения.  Указание: используйте
макросы из &lt;ctype.h>.
     Ответ:

       #include &lt;ctype.h>
       #include &lt;stdio.h>
       main(){
         int c;
         while( (c = <i>getchar</i>()) != <i>EOF</i> )
           <i>putchar</i>( <i>isalpha</i>( c ) ?
                   (<i>isupper</i>( c ) ? <i>tolower</i>( c ) : c) : c);
       }


                    либо ...
       <i>putchar</i>( <i>isalpha</i>(c) && <i>isupper</i>(c) ? <i>tolower</i>(c) : c );
                    либо даже
       <i>putchar</i>( <i>isupper</i>(c) ? <i>tolower</i>(c) : c );

В последнем случае под <i>isupper</i> и <i>islower</i> должны пониматься только буквы (увы,  не  во
всех реализациях это так!).

<i>7.49.</i>  Обратите внимание, что если мы выделяем класс символов при  помощи  сравнения,
например:

       char ch;
       if( 0300 &lt;= ch && ch &lt; 0340 ) ...;

(в кодировке <i>КОИ-8</i> это маленькие русские буквы), то мы можем натолкнуться на  следую-
щий  сюрприз:  перед сравнением с целым значение ch приводится к типу <i>int</i> (приведение
также делается при использовании <i>char</i> в качестве аргумента функции).  При этом,  если
у  ch  был  установлен  старший бит (0200), произойдет расширение его во весь старший
байт (расширение знакового бита).  Результатом будет отрицательное целое число! Опыт:

            char c = '\201';    /* = 129 */
            printf( "%d\n", c );

печатается -127. Таким образом, наше сравнение не сработает, т.к. оказывается что  ch
&lt; 0.  Следует подавлять расширение знака:

      if( 0300 &lt;= (ch & 0377) && (ch & 0377) &lt; 0340) ...;

(0377 - маска из 8 бит, она же 0xFF, весь байт), либо объявить

            <i>unsigned</i> char ch;

что означает, что при приведении к <i>int</i> знаковый бит не расширяется.

<i>7.50.</i>  Рассмотрим еще один пример:


<i>А. Богатырев, 1992-95                  - 321 -                              Си в UNIX</i>

    main(){
       <i>char</i> ch;
       /* 0377 - код последнего символа алфавита <i>ASCII</i> */
       for (ch = 0100; ch &lt;= 0377; ch++ )
            printf( "%03o %s\n",
              ch & 0377,
              ch >= 0300 && ch &lt; 0340 ? "yes" : "no" );
    }

Какие неприятности ждут нас здесь?
-    во-первых, когда бит 0200 у ch установлен, в сравнении ch выступает как  отрица-
     тельное целое число (т.к. приведение к <i>int</i> делается расширением знакового бита),
     то есть  у  нас  всегда  печатается  "no".   Это  мы  можем  исправить,  написав
     <i>unsigned char</i> ch, либо используя ch в виде

         (ch & 0377)       или     ((unsigned) ch)

-    во-вторых, рассмотрим сам цикл. Пусть  сейчас  ch =='\377'.  Условие  ch &lt;= 0377
     истинно.  Выполняется оператор ch++.  Но ch - это байт, поэтому операции над ним
     производятся по модулю 0400 (0377 - это  максимальное  значение,  которое  можно
     хранить  в  байте - все биты единицы).  То есть теперь значением ch станет 0. Но
     0 &lt; 0377 и условие цикла верно!  Цикл продолжается; т.е.  происходит  зациклива-
     ние.  Избежать этого можно только описав <i>int</i> ch; чтобы 0377+1 было равно 0400, а
     не 0 (или <i>unsigned int</i>, лишь бы длины переменной хватало, чтобы  вместить  число
     больше 0377).

<i>7.51.</i>  Составьте программу, преобразующую текст, состоящий только из строчных букв  в
текст,  состоящий  из  прописных  и строчных букв.  Первая буква и буква после каждой
точки - прописные, остальные - строчные.

        слово один. слово два. -->
        Слово один. Слово два.

Эта программа может оказаться полезной для преобразования текста, набранного в  одном
регистре, в текст, содержащий буквы обоих регистров.

<i>7.52.</i>  Напишите программу, исправляющую опечатки в словах  (spell  check):  программе
задан список слов; она проверяет - является ли введенное вами слово словом из списка.
Если нет - пытается найти наиболее похожее слово из списка,  причем  если  есть  нес-
колько похожих - выдает все варианты.  Отлавливайте случаи:
-    две соседние буквы переставлены местами: ножинцы=>ножницы;
-    удвоенная буква (буквы): ккаррандаш=>карандаш;
-    потеряна буква: бот=>болт;
-    измененная буква: бинт=>бант;
-    лишняя буква: морда=>мода;
-    буквы не в том регистре - сравните с каждым словом из списка, приводя все  буквы
     к маленьким: сОВОк=>совок;

Надо проверять каждую букву слова. Возможно вам будет удобно  использовать  рекурсию.
Подсказка: для некоторых проверок вам может помочь функция <i>match</i>:

      слово_таблицы = "дом";
      if(strlen(входное_слово) &lt;= strlen(слово_таблицы)+1 &&
      <i>match</i>(входное_слово, "*д*о*м*") ... /* похоже */
            *о*м*           ?дом         дом?
            *д*м*           д?ом
            *д*о*           до?м

Приведем вариант решения этой задачи:


<i>А. Богатырев, 1992-95                  - 322 -                              Си в UNIX</i>

    #include &lt;stdio.h>
    #include &lt;ctype.h>
    #include &lt;locale.h>

    typedef unsigned char uchar;
    #define ANYCHAR '*'
    /* символ, сопоставляющийся с одной любой буквой */

    static uchar version[120];      /* буфер для генерации вариантов */
    static uchar vv;                /* буква, сопоставившаяся с ANYCHAR */


    /* привести все буквы к одному регистру */
    static uchar <i>icase</i>(uchar c){
            return isupper(c) ? tolower(c) : c;
    }


    /* сравнение строк с игнорированием регистра */
    static int <i>eqi</i>(uchar *s1, uchar *s2 )
    {
            while( *s1 && *s2 ){
                    if( icase( *s1 ) != icase( *s2 ))
                            break;
                    s1++; s2++;
            }
            return ( ! *s1 && ! *s2 ) ? 1 : 0 ;
                                    /* OK : FAIL */
    }


    /* сравнение строк с игнорированием ANYCHAR */
    static <i>strok</i>(register uchar *word, register uchar *pat)
    {
            while( *word && *pat ){
                    if( *word == ANYCHAR){
                            /* Неважно, что есть *pat, но запомним */
                            vv= *pat;
                    } else {
                            if( icase(*pat) != icase(*word) )
                                break;
                    }
                    word++; pat++;
            }
            /* если слова кончились одновременно ... */
            return ( !*word && !*pat) ? 1 : 0;
                                    /* OK : FAIL */
    }


<i>А. Богатырев, 1992-95                  - 323 -                              Си в UNIX</i>

    /* ЛИШНЯЯ БУКВА */
    static int <i>superfluous</i>( uchar *word /* слово для коррекции */
                          , uchar *s    /* эталон */
    ){
            register int i,j,k;
            int reply;
            register len = strlen(word);

            for(i=0 ; i &lt; len ; i++){
                    /* генерим слова , получающиеся удалением одной буквы */
                    k=0;
                    for(j=0 ; j &lt; i ; j++)
                            version[k++]=word[j];
                    for(j=i+1 ; j &lt; len ; j++)
                            version[k++]=word[j];
                    version[k]='\0';
                    if( eqi( version, s )) return 1; /* OK */
            }
            return 0;       /* FAIL */
    }


    /* ПОТЕРЯНА БУКВА */
    static int hole;   /* место, где вставлена ANYCHAR */
    static int <i>lost</i>(uchar *word, uchar *s)
    {
            register int i,j,k;
            register len = strlen(word);

            hole= (-1);
            for(i=0 ; i &lt; len+1 ; i++){
                    k=0;
                    for(j=0 ; j &lt; i ; j++)
                            version[k++]=word[j];
                    version[k++]=ANYCHAR;
                    for(j=i ; j &lt; len ; j++)
                            version[k++]=word[j];
                    version[k]='\0';
                    if( strok( version, s )){
                            hole=i;
                            return 1;       /* OK */
                    }
            }
            return 0;       /* FAIL */
    }


<i>А. Богатырев, 1992-95                  - 324 -                              Си в UNIX</i>

    /* ИЗМЕНИЛАСЬ ОДНА БУКВА (включает случай ошибки регистра) */
    static int <i>changed</i>(uchar *word, uchar *s)
    {
            register int i,j,k;
            register len = strlen(word);

            hole = (-1);
            for(i=0 ; i &lt; len ; i++){
                    k=0;
                    for( j=0 ; j &lt; i ; j++)
                            version[k++]=word[j];
                    version[k++]=ANYCHAR;
                    for( j=i+1 ; j &lt; len ; j++)
                            version[k++]=word[j];
                    version[k]='\0';
                    if( strok( version,s)){
                            hole=i;
                            return 1;       /* OK */
                    }
            }
            return 0;       /* FAIL */
    }


    /* УДВОЕННАЯ БУКВА */
    static int <i>duplicates</i>(uchar *word, uchar *s, int leng)
    {
            register int i,j,k;
            uchar tmp[80];

            if( eqi( word, s )) return 1;      /* OK */

            for(i=0;i &lt; leng - 1; i++)
            /* ищем парные буквы */
                    if( word[i]==word[i+1]){
                            k=0;
                            for(j=0 ; j &lt; i ; j++)
                                    tmp[k++]=word[j];
                            for(j=i+1 ; j &lt; leng ; j++)
                                    tmp[k++]=word[j];
                            tmp[k]='\0';
                            if( duplicates( tmp, s, leng-1) == 1)
                                    return 1;       /* OK */
                    }
            return 0;       /* FAIL */
    }


<i>А. Богатырев, 1992-95                  - 325 -                              Си в UNIX</i>

    /* ПЕРЕСТАВЛЕНЫ СОСЕДНИЕ БУКВЫ */
    static int <i>swapped</i>(uchar *word, uchar *s)
    {
            register int i,j,k;
            register len = strlen(word);

            for(i=0;i &lt; len-1;i++){
                    k=0;
                    for(j=0 ; j &lt; i ; j++)
                            version[k++]=word[j];
                    version[k++]=word[i+1];
                    version[k++]=word[i];
                    for(j=i+2 ; j &lt; len ; j++)
                            version[k++]=word[j];
                    version[k]='\0';
                    if( eqi( version, s))
                            return 1;       /* OK */
            }
            return 0;  /* FAIL */
    }


    uchar *words[] = {
            (uchar *) "bag",
            (uchar *) "bags",
            (uchar *) "cook",
            (uchar *) "cool",
            (uchar *) "bug",
            (uchar *) "buy",
            (uchar *) "cock",
            NULL
    };


    #define Bcase(x, operators)     case x: { operators; } break;

    char *cname[5] = {
            "переставлены буквы",
            "удвоены буквы     ",
            "потеряна буква    ",
            "ошибочная буква   ",
            "лишняя буква      "
    };


<i>А. Богатырев, 1992-95                  - 326 -                              Си в UNIX</i>

    static int <i>spellmatch</i>( uchar *word       /* IN  слово для коррекции */
                         , uchar *words[]    /* IN  таблица допустимых слов */
                         , uchar **indx      /* OUT ответ */
    ){
            int i, code, total = (-1);
            uchar **ptr;

            if(!*word) return -1;

            for(ptr = words; *ptr; ++ptr)
                    if(eqi(word, *ptr)){
                            if(indx) *indx = *ptr;
                            return 0;
                    }
            /* Нет в таблице, нужен подбор похожих */
            for(ptr = words; *ptr; ++ptr){
                    uchar *s = *ptr;
                    int max = 5;
                    for(i=0; i &lt; max; i++){
                            switch( i ){
                            Bcase(0,code = swapped(word, s)                  )
                            Bcase(1,code = duplicates(word, s, strlen(word)) )
                            Bcase(2,code = lost(word, s)                     )
                            Bcase(3,code = changed(word, s)                  )
                            Bcase(4,code = superfluous(word, s)              )
                            }


                            if(code){
                                    total++;
                                    printf("?\t%s\t%s\n", cname[i], s);
                                    if(indx) *indx = s;

                                    /* В случае с дубликатами не рассматривать
                                     * на наличие лишних букв
                                     */
                                    if(i==1) max = 4;
                            }
                    }
            }
            return total;
    }


<i>А. Богатырев, 1992-95                  - 327 -                              Си в UNIX</i>

    void <i>main</i>(){
            uchar inpbuf[BUFSIZ];
            int n;
            uchar *reply, **ptr;

            setlocale(LC_ALL, "");
            for(ptr = words; *ptr; ptr++)
                    printf("#\t%s\n", *ptr);

            do{
                    printf("> "); fflush(stdout);
                    if(gets((char *)inpbuf) == NULL) break;

                    switch(spellmatch(inpbuf, words, &reply)){
                    case -1:
                            printf("Нет такого слова\n"); break;
                    case 0:
                            printf("Слово '%s'\n", reply); break;
                    default:
                            printf("Неоднозначно\n");
                    }
            } while(1);
    }


<i>7.53.</i>  Пока я сам писал эту программу, я  сделал  две  ошибки,  которые  должны  быть
весьма характерны для новичков. Про них надо бы говорить раньше, в главе про строки и
в самой первой главе, но тут они пришлись как раз к месту.  Вопрос: что печатает сле-
дующая программа?

    #include &lt;stdio.h>

    char *strings[] = {
            "Первая строка"
            "Вторая строка"
            "Третяя строка",
            "Четвертая строка",
            NULL
    };

    void main(){
            char **p;
            for(p=strings;*p;++p)
                    printf("%s\n", *p);
    }

А печатает она вот что:

    Первая строкаВторая строкаТретяя строка
    Четвертая строка

Дело в том, что ANSI компилятор Си склеивает строки:

            "начало строки"     "и ее конец"

если они разделены пробелами в смысле <i>isspace</i>, в том числе и пустыми строками.   А  в
нашем объявлении массива строк strings мы пот