Мои фантазии на тему кодировок - Win Api - Страница 21

RAFA91 · 11.04.2016, 15:19

вы не путайте .

если в старших 3-х байтах одни нули так это не значит что на этом

можно что-то сэкономить.

Alex11223 · 11.04.2016, 15:23

Путаете тут только вы.

Что не значит? Вместо 3 байтов с нулями + 1 байт ASCII символ храним только 1 байт, все ок с экономией.

RAFA91 · 12.04.2016, 11:38

зачем вы употребляете тут ASCII если речь идет о юникоде ?

пока я не увидел смысл применения U-8 с точки зрения здравого смысла.

особенно тут.

00010000-001FFFFF 4
00200000-03FFFFFF 5
04000000-7FFFFFFF 6

было 4 байта стало 6. вы вообще в своем уме ?

Пепел Феникса · 12.04.2016, 11:41

Цитата:

вы не путайте .

перечитайте сообщение по ссылке все-же.

Цитата:

сколько мусолим эту разработку, так никто и не доказал что она в чем-то
полезна.

вам уже дали достаточно информации.
мало кому интересно объяснять статистичность сжатия.

Цитата:

тут выигрыш в сжатии идет только по первым трем строкам.
все остальное анархия.

я вам уже задал вопрос, как часто у вас идет текст с редкими символами выше FFFF?
UTF специально составлена так что большая часть применяемых символов идет в начале.
UTF считали относительно текстов, а не одиночных символов.

хотите еще пример? абсолютно реальный.
https://habrahabr.ru/post/278745/
UTF-8: 303*648 байт.
UTF-16: 544*144 байта.
UTF-32: 1*088*288 байта.

надеюсь пример пояснений не требует.

RAFA91 · 12.04.2016, 11:49

UTF-8: 303*648 байт.

что это за фонарные числа ?

где доказательства ?

информации дали много - только ни одна ни показывает положительные стороны.

а символы у меня как раз в диапазоне 04000000-7FFFFFFF.

Alex11223 · 12.04.2016, 11:53

Откройте блокнот и сохраните какой-нибудь текст в UTF-8 и в UTF-16 (в блокноте называется просто Unicode), сравните размер.

Пепел Феникса · 12.04.2016, 11:57

Цитата:

что это за фонарные числа ?

для вас откровение что страницы в интернете что-то весят?

это страница по ссылке. ее размер при сохранении в файл.

Цитата:

где доказательства ?

перечитайте тот пост

этого достаточно если уметь читать.

Цитата:

символы у меня как раз в диапазоне 04000000-7FFFFFFF.

хотелось бы увидеть данные текст. реальный, а не синтетический пример.

учитывая что Unicode символы до туда насколько я помню еще не дошли.

UTF-8 не дает 100% гарантии меньшего размера.
есть случаи, где он выдаст больше.
так же есть случаи где и UTF-16 выдаст больше, чем UTF-32. но ничего, все живут же.

PS: кстати говоря, свои заявлением про фонарные числа вы показали что пост вы не читали.
там вед написано все

RAFA91 · 12.04.2016, 12:11

Цитата:

Сообщение от Alex11223

сравните размер.

странно что тут никто не вспомнил про архиватор , раз пошла такая пьянка.

Pavia · 12.04.2016, 17:01

Её моё сколько можно про сжатие?
Нету тут сжатия!
Разно размерное кодирование даёт выигрыш только на определенных тестах. На других текстах оно может давать отрицательный результат.
Наиболее часто встречающиеся символы делаем короткими наиболее редко длинными.
Это ещё Шенон описал.
Теорию можно прочитать в Лидовский В.В., Теориинформации, 2003.pdf
Вопрос какие символы наиболее часто встречаются?
https://ru.wikipedia.org/wiki/Языки_мира
Ответ Китайские иероглифы. Так что правильно 8 битными кодировать китайские тексты, а не английские.

RAFA91 · 12.04.2016, 17:06

китайские символы лежат в основном в младших 16 битах.

как эти символы можно подогнать до байта если по описанию

00000080-000007FF 2
00000800-0000FFFF 3

в этом диапазоне они и лежат

11.04.2016, 15:23	#202
Alex11223 Старожил Регистрация: 12.01.2011 Сообщений: 19,500	Путаете тут только вы. Что не значит? Вместо 3 байтов с нулями + 1 байт ASCII символ храним только 1 байт, все ок с экономией. Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223 ЛС отключены Аларом.

12.04.2016, 11:53	#206
Alex11223 Старожил Регистрация: 12.01.2011 Сообщений: 19,500	Откройте блокнот и сохраните какой-нибудь текст в UTF-8 и в UTF-16 (в блокноте называется просто Unicode), сравните размер. Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223 ЛС отключены Аларом.

12.04.2016, 17:01	#209
Pavia Лис Старожил Регистрация: 18.09.2015 Сообщений: 2,409	Её моё сколько можно про сжатие? Нету тут сжатия! Разно размерное кодирование даёт выигрыш только на определенных тестах. На других текстах оно может давать отрицательный результат. Наиболее часто встречающиеся символы делаем короткими наиболее редко длинными. Это ещё Шенон описал. Теорию можно прочитать в Лидовский В.В., Теориинформации, 2003.pdf Вопрос какие символы наиболее часто встречаются? https://ru.wikipedia.org/wiki/Языки_мира Ответ Китайские иероглифы. Так что правильно 8 битными кодировать китайские тексты, а не английские. Хорошо поставленный вопрос это уже половина ответа. \| Каков вопрос, таков ответ. У дзен программиста программа делает то что он хотел, а не то что он написал .

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Мои фантазии про С++11	RAFA91	Общие вопросы C/C++	265	18.07.2016 15:15
Проблема кодировок	Anarios	JavaScript, Ajax	2	25.12.2011 11:06
Стандартные средства = бесконечный полет фантазии.	Alex Cones	Софт	2	27.07.2009 17:10
Проблема кодировок!!!	chekanoff	Общие вопросы Delphi	4	04.12.2007 00:03

11.04.2016, 15:19	#201
RAFA91 Заблокирован Регистрация: 06.02.2011 Сообщений: 1,999	вы не путайте . если в старших 3-х байтах одни нули так это не значит что на этом можно что-то сэкономить.

12.04.2016, 11:38	#203
RAFA91 Заблокирован Регистрация: 06.02.2011 Сообщений: 1,999	зачем вы употребляете тут ASCII если речь идет о юникоде ? пока я не увидел смысл применения U-8 с точки зрения здравого смысла. особенно тут. 00010000-001FFFFF 4 00200000-03FFFFFF 5 04000000-7FFFFFFF 6 было 4 байта стало 6. вы вообще в своем уме ?

12.04.2016, 11:49	#205
RAFA91 Заблокирован Регистрация: 06.02.2011 Сообщений: 1,999	UTF-8: 303*648 байт. что это за фонарные числа ? где доказательства ? информации дали много - только ни одна ни показывает положительные стороны. а символы у меня как раз в диапазоне 04000000-7FFFFFFF.

12.04.2016, 17:06	#210
RAFA91 Заблокирован Регистрация: 06.02.2011 Сообщений: 1,999	китайские символы лежат в основном в младших 16 битах. как эти символы можно подогнать до байта если по описанию 00000080-000007FF 2 00000800-0000FFFF 3 в этом диапазоне они и лежат