Сложение строк в питоне

Сложение строк в питоне

    Переводы, 19 сентября 2016 в 20:31

Как вы, наверное, знаете один из принципов в Python: “Должен быть один и только один способ сделать что-либо”. Можете убедиться в этом, выполнив в в интерпретаторе import this (вы увидите Дзен Python). Несмотря на это, иногда вам всё равно приходится выбирать между несколькими способами сделать что-то, и не всегда очевидно, какой способ лучше. Недавно один студент спросил меня, какой способ конкатенации строк в Python самый эффективный. Я решил поделиться результатом своего маленького исследования и с вами.

Для начала вспомним, какие способы объединения строк предоставляет нам Python. Во-первых, это оператор + :

Также мы можем использовать оператор % , который, конечно, может использоваться не только для соединения строк, но и для этого тоже:

Есть и ещё более современная замена % — это str.format :

Так же, как и % , этот метод гораздо мощнее, чем обычный + , но тем не менее строки соединяют и с его помощью.

Как же мы будем замерять время? В Jupyter (так же известном, как IPython) мы можем использовать магическую команду timeit для запуска кода. Для запуска я подготовил четыре функции, каждая из которых складывает строки разным образом. Исходные строки хранятся в глобальных переменных ( x и y ), а локальная (для каждой функции) переменная z содержит результат сложения. Затем функция возвращает результат.

Конечно concat3() и concat4() фактически одинаковы, но я решил проверить и то, влияет указание порядка строк на скорость или нет. Затем я определил наши глобальные переменные:

И запустил наши функции:

Результат оказался следующим:

  • concat1: 153 наносекунды;
  • concat2: 275 наносекунд;
  • concat3: 398 наносекунд;
  • concat4: 393 наносекунды.

Здесь мы можем видеть, что concat1() , который использует оператор + , выполняется гораздо быстрее остальных. Это немного расстроило меня, потому что мне очень нравится str.format , однако теперь в задачах, которые требуют огромного количества обработки строк, от него придётся отказаться.

Возможно, такие результаты могут быть связаны с тем, что короткие строки не создаются в Python каждый раз снова, а хранятся в специальной таблице? Давайте попробуем изменить наши глобальные переменные следующим образом:

Теперь мы получим следующие результаты:

  • concat1: 2.64 микросекунды;
  • concat2: 3.09 микросекунды;
  • concat3: 3.33 микросекунды;
  • concat4: 3.48 микросекунды;

Да, каждый из методов теперь работал гораздо дольше, однако общий результат не изменился — оператор + по прежнему лидирует. Заметим так же, что разница во времени между третьим и четвёртым методом, как и ожидалось, пренебрежимо мала.

21 марта в 10:00, Воронеж, беcплатно

После этого я попробовал не объявлять переменные глобальными, а задавать их в теле метода, но на результаты это всё равно не повлияло. Разумеется, можно проводить ещё много разных опытов (например, попробовать сложить больше, чем две строки), однако этого уже достаточно, чтобы иметь примерное представление о скоростях работы различных способов сложения строк в языке Python.

В Python над двумя строками можно выполнить операцию, обозначаемую знаком +. Однако, в отличие от чисел, выполняется не сложение (что для строк в принципе невозможно), а соединение, т. е. к концу первой строки добавляется вторая. По-другому операция соединения строк называется конкатенацией.

Кроме того, в Python есть операция повторения, то есть мультипликации, строки. Она обозначается знаком *, также как операция умножения для чисел. При повторении строки с одной стороны от знака * ставится строка, а с другой число, обозначающее количество повторов. При этом не важно, какой объект с какой стороны находится. Так число можно написать слева, а строку справа.

Читайте также:  Прикольные имена в контакте

В одном выражении можно комбинировать операции конкатенации и мультипликация. При этом более высокий приоритет у операции повторения строки. Это видно в примере ниже. Когда опущены скобки, то сначала строка s2 повторяется n раз, а затем результат присоединяется к s1.

В последней строке кода конкатенацию перед выводом выполняет функции print() по своим правилам. Мы же ей просто передаем два аргумента.

Строками в языках программирования принято называть упорядоченные последовательности символов, которые используются для представления любой текстовой информации. В Python они являются самостоятельным типом данных, а значит при помощи встроенных функций языка над ними можно производить различные операции и форматировать их для вывода.

Создание

Получить новую строку можно несколькими способами: при помощи соответствующего литерала либо же вызвав готовую функцию. Для начала рассмотрим первый метод, который продемонстрирован ниже. Здесь переменная string получает значение some text, благодаря оператору присваивания. Вывести на экран созданную строку помогает функция print.

Как видно из предыдущего примера, строковый литерал обрамляется в одиночные кавычки. Если необходимо, чтобы данный символ был частью строки, следует применять двойные кавычки, как это показано в следующем фрагменте кода. Из результатов его работы видно, что новая строка включает в себя текст some ‘new’ text, который легко выводится на экран.

Иногда возникает потребность в создании объектов, включающих в себя сразу несколько строк с сохранением форматирования. Эту задачу поможет решить троекратное применение символа двойных кавычек для выделения литерала. Объявив строку таким образом, можно передать ей текст с неограниченным количеством абзацев, что показано в данном коде.

Специальные символы

Пользоваться тройными кавычками для форматирования строк не всегда удобно, так как это порой занимает слишком много места в коде. Чтобы задать собственное форматирование текста, достаточно применять специальные управляющие символы с обратным слэшем, как это показано в следующем примере. Здесь используется символ табуляции , а также знак перехода на новую строку
. Метод print демонстрирует вывод нового объекта на экран.

Служебные символы для форматирования строк выполняют свои функции автоматически, но иногда это мешает, к примеру, когда требуется сохранить путь к файлу на диске. Чтобы их отключить, необходимо применить специальный префикс r перед первой кавычкой литерала. Таким образом, обратные слэши будут игнорироваться программой во время ее запуска.

Следующая таблица демонстрирует перечень всех используемых в языке Python служебных символов для форматирования строк. Как правило, большинство из них позволяют менять положение каретки для выполнения перевода строки, табуляции или возврата каретки.

Символ Назначение
Перевод каретки на новую строку
 Возврат каретки на один символ назад
f Перевод каретки на новую страницу
Возврат каретки на начало строки
Горизонтальная табуляция
v Вертикальная табуляция
a Подача звукового сигнала
N Идентификатор базы данных
u, U 16-битовый и 32-битовый символ Unicode
x Символ в 16-ричной системе исчисления
o Символ в 8-ричной системе исчисления
Символ Null

Очень часто испльзуется
. С помощью него осуществляется в Python перенос строки. Рассмотрим пример:

Форматирование

Выполнить форматирование отдельных частей строки, задав в качестве ее компонентов некие объекты программы позволяет символ %, указанный после литерала. В следующем примере показано, как строковый литерал включает в себя не только текст, но также строку и целое число. Стоит заметить, что каждой переменной в круглых скобках должен соответствовать специальный символ в самом литерале, обладающий префиксом % и подходящим значением.

Читайте также:  Атк что это такое

В приведенном ниже фрагменте кода демонстрируется использование форматирования для вывода строки с выравниванием по правому краю (общая длина символов указана как 10).

Данная таблица содержит в себе все управляющие символы для форматирования строк в Python, каждый из которых обозначает определенный объект: числовой либо же символьный.

Символ Назначение
%d, %i, %u Число в 10-ричной системе исчисления
%x, %X Число в 16-ричной системе исчисления с буквами в нижнем и верхнем регистре
%o Число в 8-ричной системе исчисления
%f, %F Число с плавающей точкой
%e, %E Число с плавающей точкой и экспонентой в нижнем и верхнем регистре
%c Одиночный символ
%s, %r Строка из литерала и обычная
%% Символ процента

Более удобное форматирование выполняется с помощью функции format. Ей необходимо передать в качестве аргументов объекты, которые должны быть включены в строку, а также указать места их расположения с помощью числовых индексов, начиная с нулевого.

В следующем примере показано как можно отцентрировать строку, воспользовавшись методом format и специальными символами. Изначальный текст здесь перемещается в самый центр строки, в то время как пустое пространство заполняется символом *.

Следующая таблица отображает специальные символы для выравнивания строк и вывода чисел с необходимым форматом знаков для положительных и отрицательных объектов.

Символ Назначение
‘ ’ Выравнивание строки по правому краю с символами-заполнителями слева
‘=’ Выравнивание с символами-заполнителями после знака числа, но перед его цифрами
‘^’ Выравнивание строки по центру с символами-заполнителями с обеих сторон
‘+’ Применение знака для любых чисел
‘-‘ Применение знака для отрицательных чисел и ничего для положительных
‘ ‘ Применение знака для отрицательных чисел и пробела для положительных

Операции над строками

Прежде чем перейти к функциям для работы со строками, следует рассмотреть основные операции с ними, которые позволяют быстро преобразовывать любые последовательности символов. При помощи знака плюс можно производить конкатенацию строк, соединяя их вместе. В следующем примере продемонстрировано объединение this is new и text.

Пользуясь символом умножения, программист получает возможность дублировать строку любое количество раз. В данном коде слово text записывается в новую строку трижды.

Как и в случае с числами, со строками можно использовать операторы сравнения, например двойное равно. Очевидно, что литералы some text и some new text разные, поэтому вызов метода print выводит на экран булево значение False для строк string и newString.

Операции над строками позволяют получать из них подстроки, делая срезы, как с обычными элементами последовательностей. В следующем примере, необходимо лишь указать нужный интервал индексов в квадратных скобках, помня, что нумерация осуществляется с нуля.

Отрицательный индекс позволяет обращаться к отдельным символами строки не с начала, а с конца. Таким образом, элемент под номером -2 в строке some text является буквой x.

Методы и функции

Очень часто используется для приведения типов к строковому виду функция str. С ее помощью можно создать новую строку из литерала, который передается в качестве аргумента. Данный пример демонстрирует инициализацию переменной string новым значением some text.

Аргументом этой функции могут быть переменные разных типов, например числа или списки. Эта функция позволяет в Python преобразовать в строку разные типы данных. Если вы создаете свой класс, то желательно определить для него метод __str__. Этот метод должен возвращать строку, которая будет возвращена в случае, когда в качестве аргумента str будет использован объект вашего класса.

Читайте также:  Диспенсер в банкомате что это такое

В Python получения длины строки в символах используется функция len. Как видно из следующего фрагмента кода, длина объекта some text равняется 9 (пробелы тоже считаются).

Метод find позволяет осуществлять поиск в строке. При помощи него в Python можно найти одиночный символ или целую подстроку в любой другой последовательности символов. В качестве результата своего выполнения он возвращает индекс первой буквы искомого объекта, при этом нумерация осуществляется с нуля.

Метод replace служит для замены определенных символов или подстрок на введенную программистом последовательность символов. Для этого необходимо передать функции соответствующие аргументы, как в следующем примере, где пробелы заменяются на символ ‘-‘.

Для того чтобы разделить строку на несколько подстрок при помощи указанного разделителя, следует вызвать метод split. По умолчанию его разделителем является пробел. Как показано в приведенном ниже примере, some new text трансформируется в список строк strings.

Выполнить обратное преобразование, превратив список строк в одну можно при помощи метода join. В следующем примере в качестве разделителя для новой строки был указан пробел, а аргументом выступил массив strings, включающий some, new и text.

Наконец, метод strip используется для автоматического удаления пробелов с обеих сторон строки, как это показано в следующем фрагменте кода для значения объекта string.

Ознакомиться с функциями и методами, используемыми в Python 3 для работы со строками можно из данной таблицы. В ней также приведены методы, позволяющие взаимодействовать с регистром символов.

Метод Назначение
str(obj) Преобразует объект к строковому виду
len(s) Возвращает длину строки
find(s, start, end), rfind(s, start, end) Возвращает индекс первого и последнего вхождения подстроки в s или -1, при этом поиск идет в границах от start до end
replace(s, ns) Меняет выбранную последовательность символов в s на новую подстроку ns
split(c) Разбивает на подстроки при помощи выбранного разделителя c
join(c) Объединяет список строк в одну при помощи выбранного разделителя c
strip(s), lstrip(s), rstrip(s) Убирает пробелы с обоих сторон s, только слева или только справа
center(num, c), ljust(num, c), rjust(num, c) Возвращает отцентрированную строку, выравненную по левому и по правому краю с длиной num и символом c по краям
lower(), upper() Перевод всех символов в нижний и верхний регистр
startwith(ns), endwith(ns) Проверяет, начинается ли или заканчивается строка подстрокой ns
islower(), isupper() Проверяет, состоит ли строка только из символов в нижнем и верхнем регистре
swapcase() Меняет регистр всех символов на противоположный
title() Переводит первую букву каждого слова в верхний регистр, а все остальные в нижний
capitalize() Переводит первую букву в верхний регистр, а все остальные в нижний
isalpha() Проверяет, состоит ли только из букв
isdigit() Проверяет, состоит ли только из цифр
isnumeric() Проверяет, является ли строка числом

Кодировка

Чтобы задать необходимую кодировку для используемых в строках символов в Python достаточно поместить соответствующую инструкцию в начало файла с кодом, как это было сделано в следующем примере, где используется utf-8. С помощью префикса u, который стоит перед литералом, можно помечать его соответствующей кодировкой. В то же время префикс b применяется для литералов строк с элементами величиной в один байт.

Производить кодирование и декодирование отдельных строк с заданной кодировкой позволяют встроенные методы decode и encode. Аргументом для них является название кодировки, как в следующем примере кода, где применяется наименование utf-8.

Ссылка на основную публикацию
Сколько рублей получают ютуберы
Видеохостинг YouTube — не только развлекательная площадка, но и хороший источник дохода. Тысячи пользователей выкладывают ролики, пытаясь привлечь внимание аудитории....
Самый дорогой самсунг 2018
Samsung / Самсунг - южнокорейская компания, ведущий производитель смартфонов в мире. В первом квартале 2018 года доля Самсунг на мировом...
Самый лучший smart tv
Ежегодные обновления телевизионных технологий делают телевизоры уже больше, чем обычным экраном для демонстрации каналов. Растет популярность функции Smart TV, которая...
Сколько света мотает компьютер
Выбирая комплектующие для персонального компьютера (ПК) обычно обращают внимание на производительность и объем памяти, порой забывая о том, сколько же...
Adblock detector